当前位置：首页> 正在进行安全检测...

正在进行安全检测...

时间：2023-11-17 05:40:23 下载该word文档

计算机工程第36卷第13期Vol.36No.13ComputerEngineering·软件技术与数据库·

文章编号：1000—3428(201013—0034—03文献标识码：A
2010年7月July2010中图分类号：TP311基于邻居决策的协同过滤推荐算法
李春1,2，朱珍民1，高晓芳1,3，陈援非1
(1.中国科学院计算技术研究所，北京100080；2.湘潭大学信息工程学院，湘潭411105；

3.首都师范大学计算机科学联合研究院，北京100037摘要：协同过滤技术应用于个性化推荐系统中，稀疏性问题和可扩展性问题成为亟需解决的问题。针对传统方法的不足，提出一种凭借邻居数做决策的方法，比较各个待测位置的用户邻居数和项目邻居数，由数量多的一方作预测，同时对预测值判定给出一种合理而有效的度量方法。实验结果表明，该方法能够提高推荐质量。关键词：个性化推荐；邻居数；协作过滤；平均绝对误差
CollaborativeFilteringRecommendationAlgorithmBasedonNeighborDecision-making
LIChun1,2,ZHUZhen-min1,GAOXiao-fang1,3,CHENYuan-fei1
(1.InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100080;2.CollegeofInformationEngineering,
XiangtanUniversity,Xiangtan411105;3.JointFacultyofComputerScientificResearch,CapitalNormalUniversity,Beijing100037【Abstract】Collaborativefilteringhasbeenappliedinpersonalizedrecommendationsystemsuccessfully,sparsityproblemandscalabilityproblembecometwobigproblemswhichremainunresolved.Toslovetheproblemoftraditionalmethod,thispaperproposeadecision-makingmethodrelyingonthenumberofneighbors.Themethodcomparesthenumberofuser’sneighborsanditem’sneighborsineveryunpredictedposition,andchoosesthebiggeronetomakepredicting.Inaddition,areasonableandeffectivemeasurementisputforwardtojudgepredicting.Experimentalresultshowsthatthequalityofrecommendationislargelyimproved.【Keywords】personalizedrecommendation;numberofneighbors;collaborativefiltering;MeanAbsoluteError(MAE1概述
随着互联网的膨胀和电子商务的出现，信息迷航困扰着每个用户，为了帮助用户获取真正所需的信息，必然会出现一种推荐系统。推荐系统利用个性化的信息过滤技术来预测特定的用户对特定商品的喜好，或者向特定的用户推荐最感兴趣的商品，最近几年推荐系统已经有一些不同的应用，其中最近邻协同过滤推荐是当前最成功的推荐技术[1]，其思想是用户被推荐的项目是与自己有相似品味和爱好的邻居用户过去喜欢的项目[2]。著名的系统有：GroupLens/NetPerceptions,协同过滤最大优点是对推荐对象Ringo/Firefly,Tapestry等[3]。没有特殊的要求，能处理非结构化对象，如音乐、电影[4]，还能为用户发现新的感兴趣的资源。
为了找到目标用户的最近邻居进行推荐，首先必须度量用户之间的相似性，然后选择相似性最高的若干用户作为目标用户的最近邻居，但选择的最近邻居是否准确，直接关系到整个推荐系统的推荐质量。随着系统规模的扩大，用户仅对少部分资源进行评价，可扩展性问题和稀疏问题成为协作过滤的棘手问题，影响了用户相似性计算的准确度，导致推荐质量受到严重影响，因此，相似度的准确性成为推荐质量的瓶颈。
为解决传统协同过滤算法的可扩展性问题同时缓解稀疏性问题，文献[5]提出了基于项目的协同过滤算法，该算法比较项目之间的相似性，由当前用户已访问的项目集合推荐未访问的项目。由于项目特性比用户兴趣更稳定，一段时间内—34—不会发生变化，因此可以离线进行计算、存储并定期更新，较好地解决了算法的可扩展性问题，降低了数据的稀疏程度，[6]同时在推荐精度上也有明显提高。但是，目前的方法都是针对K个最近的邻居，虽然K的值可以更改，然而一旦给定K值，为了满足固定的邻居数K即使是相似度不高的邻居也会被预测，这难免会影响预测的结果，虽然随着系统规模的扩大用户评分矩阵变得比较稀疏，但是某些用户间的相似性还是可取的，因此，本文提出一种新的决定邻居的策略，当前用户对当前项目的预测评分取决于邻居数多的一方，如：项目的邻居数多于用户的邻居数，就用基于项目的方法进行预测，反之，则用基于用户的方法进行预测。
现有的协作过滤算法预测的用户对项目的评分绝大部分都是小数，然而，在实际推荐中，用户对资源的评分都是等级评分，是一系列能反映用户偏好逐渐变化的整数，例如，在电影推荐系统中，用户的评分级别分为5级，分别对应1,2,3,4,5，所以，有必要对预测的评分进行判定，使之成为满足级别要求的整数，现有方法都是采用简单的“四舍五入”[7]，影响推荐效果。因此，本文提出一种根据用户的评分趋向来取舍预测评分小数部分的方法。

基金项目：国家“863”计划基金资助项目(2006AA01Z112作者简介：李春(1985－，女，硕士研究生，主研方向：普适计算；朱珍民，教授、博士；高晓芳，硕士研究生；陈援非，博士收稿日期：2009-12-20E-mail：lichun@ict.ac.cn

2相关工作
2.1基于项目的协同过滤算法
协同过滤算法的输入数据通常表述为一个m×n的用户-项评分矩阵R，m为用户数，n为项目数，矩阵元素Ruj表示第u个用户对第j个项的评估值。确定为目标资源的最近邻居是根据相似度的大小进行评判的，相似度越大，成为邻居的可能性越大。
基于项目的协同过滤算法步骤如下：
第1步计算项目之间的相似度，传统的相似度计算方法有如下3种：
2个项目i和j被当作2个m维的向量x(1余弦相似性。和y，如果用户对项目没有进行评分，则将用户对该项目的评分设为0，项目间的相似性通过向量间的夹角余弦度量其相似性：
Sim(i,j=cos(x,y=xiy
(1||x||2×||y||2果预测值为3.7分，则判定为4分。
文献[9]提出了一种预测值判定方法，通过趋势度、偏离度和判定度这三者之间的关系来定夺各预测值的取整情况，该方法有效解决了以往的简单四舍五入方法，提高了计算的准确性，但是对每个预测值都得计算其左右邻评分等级的趋势度、叛离度，最终再计算判定度，在矩阵稀疏而且预测值比较多的时候，计算复杂度比较高。
因此，本文简单使用用户评分趋势来对预测值的取舍进行有效度量，评分趋势由用户的已评分情况来决定，由于文中实验用的数据其评分等级一共有5个，即1~5，统计每个用户的评分值，若已评项目中评3分及更高等级的数量超过总的已评项目的一半，则规定该用户即为高分倾向者，其所有预测评分值都采取加入的方法，反之则为低分倾向者，所有预测评分值采取舍弃的方法。
3协作过滤的改进算法
3.1邻居选择
在用户评分矩阵中，由于评分数据的稀疏性，单纯使用用户评分或项目评分都存在计算结果不准确的问题，并且现有的方法都是利用K最近邻居，然而在数据稀疏时，也许K最近邻居中某些邻居之间的相似度并不高，但为了满足固定数目的邻居也被用来预测，难免会影响预测的评分值，为了缓解此问题提出一种取优决策，在具体的某用户对特定的某个项目评分时，分别比较用户的邻居数和项目的邻居数，由数量多的那方来预测评分。
确定是否为特定用户或项目的邻居，取决于相似度的值，只有与该用户或项目相似度大于某个阈值的用户或项目才算作邻居，下面给出邻居的定义：
定义1用户邻居，设用户u其邻居集是满足此式的所有用户的集合Neiberu={v|sim(u,v>βα}，