独创性声明本人提交的学位论文是在导师指导下进行的研究工作及取得的研究成果。论文中引用他人已经发表或出版过的研究成果,文中已加了日学位论文版权使用授权书本学位论文作者完全了解西南大学有关保留、使用学位论文的规印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书,本论文:坼保密,,口保密期限至年月止)。导师签名:苍甸日签字日期:矽眵年6月2/日特别标注。对本研究及学位论文撰写曾做出贡献的老师、朋友、同仁在文中作了明确说明并表示衷心感谢。定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权西南大学研究生院(筹)可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩目摘录要………………………………………………………………………………….IAbstract.….…….……..….……….….….…..….….….….……….….…….…..…….….….……….….…...III第1章绪论………………………………………………………………………….11.1研究背景和意义……………………………………………………………….11.2国内外研究现状………………………………………………………………21.2.1推荐系统研究现状……………j……………………………………….21.2.2基于地理位置的社交网络研究现状………………………………….41.3研究目标与内容………………………………………………………………51.4论文组织结构………………………………………………………………….6第2章相关理论与技术基础………………………………………………………….72.1贝叶斯统计模型……………………………………………………………….72.2隐马尔可夫模型………………………………………………………………72.3LDA模型………………………………………………………………………82.4社交网络相关介绍……………………………………………………………92.5WordNet的相关介绍…………………………………………………………1O2.6本章小结……………………………………………………………………..11第3章基于社交标注推荐系统的研究………………………………………………123.1社交网络特征分析…………………………………………………………..123.2基于社交标注网络推荐系统的具体实现…………………………………..123.2.1偏好建模………………………………………………………………123.2.2话题类别映射…………………………………………………………133.2.3语义相似度计算………………………………………………………143.3本章小结……………………………………………………………………..14第4章基于隐马尔可夫模型的推荐系统……………………………………………154.1移动签到社交网络…………………………………………………………..154.2基于隐马尔可夫模型的签到推荐系统……………………………………..154.2.1问题定义………………………………………………………………154.2.2数据观察………………………………………………………………154.2.3算法流程………………………………………………………………l54.3本章小结……………………………………………………………………..17第5章实验结果与分析………………………………………………………………185.1基于贝叶斯统计模型的推荐系统…………………………………………..185.1.1数据集与评估标准……………………………………………………185.1.2结果与讨论……………………………………………………………195.2基于隐马尔可夫模型的推荐系统…………………………………………..215.1.1数据集与评估标准……………………………………………………215.1.2结果与讨论……………………………………………………………225.3本章小结………………………………………………………………………26第6章总结和展望……………………………………………………………………276.1全文工作总结………………………………………………………………..276.2未来工作展望………………………………………………………………..27参考文献……………………………………………………………………………….28致谢……………………………………………………………………………………………………………..31硕士期间发表的论文和参与的课题………………………………………………….32基于社交网络的推荐系统研究计算机应用技术专业硕士研究生李佳玲指导老师李莉教授摘要这意随着Web2.0技术的发展,社交网络已成为人们交往和获取信息的重要渠道之一。味着社交网络中的用户信息数据和用户发布的数据快速地增长。同时,移动智能终端技术的发展使得用户可以随时随地发布文字、图片、音乐等多媒体信息。面对数据的海量性问题,研究如何对用户进行个性化推荐,使用户得以被动地获取感兴趣的图片\商品等信息,和使有价值的信息被充分传播利用都具有重要的理论价值和现实意义。设计推荐系统主要解决三个问题:1)如何定义推荐问题:2)如何获得相似性;3)采用何种策略向用户推荐。这三个问题相互影响、相互作用,使得推荐系统的框架设计极其复杂。致力于解决以上三方面问题,构建合理的推荐系统框架,本文的主要研究工作如下:(1)将推荐问题看作学习问题,推荐的核心就是尽可能精准地获取用户兴趣模型,设计推荐系统中已解决的问题有:1)用户兴趣建模问题,将用户对某条目感兴趣的原因归结于两类:a)对条目内容感兴趣;b)由于用户朋友对该条目感兴趣而对其感兴趣。并基于此假设构建话题一联系人矩阵记录用户偏好行为:2)大众标签与话题的对应问题,社交网络中的大众标签具有自由性和多样性,文章利用基于WordNet的相似度计算方法,分析标签与话题的语义距离,以解决大众个性标签到统一的话题之间的对应问题:3)将用户推荐与搜索功能结合,关键字搜索返回的初次结果,根据用户的偏好信息排序再返回给用户,能够提高用户满意度。(2)将推荐问题看作预测问题,学习用户行为历史。日常生活中,用户的兴趣并不是一成不变,兴趣的变化能反映到用户行为变化,因此,可以从用户的行为中“观察”兴趣变化的蛛丝马迹。以移动社交网络中用户的签到服务举例,只能观察到用户的签到行为发生了,以及在某时间签到,在某位置签到。而签到的原因多种多样,例如社会热点事件的发生,朋友的影响,遇到美食心情很好,遇到麻烦事心情不好。人们的心情就像天气一样复杂多变。因此,引入隐马尔可夫模型来为不确定的原因和看得见的行为进行一个概率映射,基于此分析用户签到历史,并为用户下一时刻的行为进行预测并推荐相关位置。本文基于上述研究工作,分别采用C#语言和Matlab工具,设计与实现了基于贝叶斯模型的社交网络推荐系统和基于隐马尔可夫的推荐系统。通过在4个社交网络数据集上进行的测试评估,结果表示提出的系统能在一定程度上解决推荐问题,提高用户满意度。关键词:语义相似度推荐系统:社交网络:贝叶斯模型:隐马尔可夫模型;签到预测;西南大学硕士学位论文AbstractResearchesBasedonRecommendationSystemonSocialNetworkServicesofComputerApplicationTechnologyLiJialingMasterCandidateSupervisor:Prof.LiLiAbstractWiththedevelopmentofWebto2.0technology,socialnetworkhasbecomeanimportantchannelforpeopleexchangeandaccessinformation.Thismeansthattheamotmtsofusers’informationaldataanduser-generateddatatechnologyallowsusersaregrowingfast.Atthesametime,thedevelopmentofmobileterminaltouploadtextual,pictorial,musicaldataandothermultimediainformationmeaningfulthatweresearchesreceivehis/heranytime,anywhere.Inonordertosolvetheproblemofmassdata,itisahowtorecommendtospecificuseraccordingtoitstastes,howtohelpuserphotos/itemshe/shewillpotentiallyinterestedin,andalsomaximizingthevalueofwhichisnotSOinformationwidespreading.solvemainlythreeproblemswhenbuildingaWeneedtorecommendationsystem:1)howtodefinetherecommendationproblem;2)howtoobtainthesimilaritybetweenusers;3)howthestrate舀escouldbedesignedwhenrecommendingtousers.Thesethreeproblemsinteractwitheachother,SOthedesignofrecommendationsystem’Sframeworkisextremelycomplex.Committedtoaddressingtheabovethreeproblems,andconstructingareasonablerecommendationsystemframework,themainresearchworksinthispaperareasfollow:learningproblems,SOthekernelofrecommendingare:(1)Weregardtherecommendedproblemsasproblemistoobtainusers’interestmodelasaccuratelyaspossible,theproblemswehavesolved1)Userinterestmodeling.Wethinktheinterestedintheinterestedinusedbycontentuserlikestheitemonlyfortworeasons:a)he/sheisoftheitem;b、he/sheisinterestedintheitemforhis/herfriendsareit.2)Theproblemofmappingofbetweensocialtagtoandtopic.Thesocialtagisfreelyusersandhaslotsform.WeutilizeWordNetcalculatethesemanticrelationshipbetweensocialtagandtopic;3)Combiningrecommendingwithcankeywordsearching.Theitemsfirstlyreturnedbykeywordsearching,andthenit11Iimproveusers’satisfactionbysortingthe西南大学硕士学位论文itemsaccordingtoAbstractpreferenceinformation.aStheuser’S(2)Weregardtherecommendationproblemspredictionproblemstolearnuser’behavioralhistories.Indailylife,users’interestischangingovertime,thechangeofusers’behaviorcanreflectchangeofusers’interestinsomedegree.Sowecan“observe’’cluesforusers’interestchangingfromhis/herbehavior.Takecheck-inserviceinthesocialmobilenetworkforexample,wecanonlyobservethechangeofusers’check-inbehavior,whentheycheckinginandwhichlocationtheycheckinat.WhilethereaSonsforcheckinginisvarious,suchaSthehappeningofsocialevents,theorinfluencebytheirfriends,orthegoodbadmoodcausedbydeliciousfoodandtroublethingstobuildingarespectively.BaSedontheaboveanalysis,weintroducetheHiddenMarkovmodelunknownreaSonsprobabilisticmappingBaSedonbetweentheandtheobservablebehaviors.usetheaboveresearches.werespectivelytheC撑languageandMatlabtoolsontodesignandtheimplementationoftwosocialnetworkrecommendationsystembaSedBayesianmodelandHMM.AfterCanourevaluationon4socialnetworkingindatasets,theresultsshowthatproposedsystemssolvetherecommendingproblemssomedegreeandalsoimprovetheusersatisfaction.Keywords:RecommendationSystem;SocialNetwork;BayesianHiddenModel;MarkovModel;Check-inPrediction;SemanticSimilarity.IV西南大学硕士学位论文绪论第1章绪论推荐系统是解决海量数据中个性化信息获取问题的重要手段,如何合理的设计推荐系统框架,运用多种技术处理元数据,学习用户兴趣模型,实现元数据类别映射等是本文要解决的主要问题。本章主要介绍基于社交网络服务的推荐系统的研究背景、现状和意义,并简要介绍本文的研究内容与组织结构。1.1研究背景和意义随着Web2.0技术的发展,博客(Blog)、百科全书(Wiki)、社交网络(SocialNetworkServices)【1】、即时信息(Ⅱ订)等成为人们交往和获取信息的重要渠道。这些技术的应用使得信息的采集、传播和规模达到空前的水平,实现了全球的信息共享与交互。现代通信和传播技术,大大提高了信息传播的速度和广度,将世界在信息层面更进一步地结为一体。但与之俱来的信息爆炸问题,即汹涌而来的信息可能使人无所适从,如何帮助人们在浩如烟海的信息海洋中迅速而准确地获取最符合自己需求的信息,成为亟待解决的问题。信息的级数增长,一方面对数据的有效集成、管理和分析提出了新的挑战,另一方面也对如何帮助用户更快更准确地找到所需信息提出了更高的要求。门户网站,搜索引擎和专业数据索引等帮助用户过滤信息的应用应运而生。搜索引擎已经成为用户每天必不可少的网络工具。主动搜索将部分问题遗留给了用户,为了使用搜索引擎获得更好的结果,用户不得不学习一定的专业知识,比如搜索策略等。搜索引擎是被动的,非智能的。而推荐系统以深入研究用户模型为用户提供个性化服务为目的,由系统主导用户的浏览行为等优点使其成为信息过滤的重要手段12J。互联网正从搜索时代进入到推荐时代,推荐系统将是未来十年的主流。推荐系统最早是出现在电子商务中。也有不少成功的案例。其中最著名的要数电子商务龙头亚马逊(Amazon)1。亚马逊的创始人贝索斯说:“我们不是通过卖东西赚钱,而是通过帮助顾客找到想要的商品而赚钱。”为此,亚马逊通过强大的数据分析向消费者推荐合适的商品。推荐系统上线后,亚马逊至少提高了30%的利润。而且,亚马逊有10%以上的订单是通过用户评论而产生。明尼苏达大学教授说推荐系统将成为未来十年里最重要的变革,社会化网络将由推荐系统所驱动。Facebook的运营总监说所有媒体都将在未来的3.5年内实现个性化。亚马逊的CEO说如果有2百万个网络顾客,就应该有2百万个网络商店。这一切,都表明了对个性化服务的迫切需求,预示着互联网将从用户主动搜索演变为网站主动向用户呈现他们的感兴趣的内容。推荐系统的研究受到了信息科学,计算数学,统计物理学,认知科学等多学科的关注,它与管理科学,消费行为等研究也密切相关【31。用户既是海量数据的“生产者”,也是数据的“消费者”,推荐系统过滤海量信息并为用户定制个性化的数据服务。引入个性化推荐系统对lhttp://www.amazon.ca西南大学硕士学位论文绪论用户、网站运营商、不易被发现的“暗信息”都有多处裨益:对于用户,信息被主动推送到用户面前,不用用户绞尽脑汁的去思考搜索策略,信息的获取变得更简单更为智能:对于网站运营商,挖掘用户潜在感兴趣的信息,“推销”更多信息给用户,可以成功吸引用户的关注,提高网站人气和信任度;对于被挖掘和正确推送的信息,被充分利用也可以让它们的价值得到呈现,使这些信息得以第二次利用,如果关键字搜索为第一次的话。如果说在网络社交的起点.电子邮件时代,网络仅仅可以满足人们5%的社交需求,那么社交网络(SocialNetworkService)作为网络社交的新形式,至少已经将这个数字提升了lO倍。目前,社交网络更是将其范围拓展到移动手机平台领域,借助移动终端的普遍性和无线网络的应用,利用各种交友/即时通讯/邮件收发器等软件,移动终端成为新的社交网络载体。近年来,社交网络的发展引人注目。目前,约有一半以上的中国网民通过社交网络沟通交流、分享信息,社交网络已成为覆盖用户最广、传播影响最大、商业价值最高的Web2.0业务。社交网络巨大的发展潜力更是一度被国内外各大风投机构与公司看好,纷纷注资。与此同时,随着社交网络用户数量的不断增加,投资者、广告商、程序开发商等利益相关者也越来越多的将目光投向社交网站。国内社交网络热潮正风起云涌,不仅构筑了一个庞大的网络社会,还为其带来无限商机,其盈利模式逐渐形成,盈利能力也渐入佳境。社交网络推荐系统的研究也成为热点。1.2国内外研究现状1.2.1推荐系统研究现状推荐系统的任务是根据用户偏好数据预测用户将来可能的兴趣所在。在学术界,自20世纪90年代出现第一批关于协同过滤的文章,推荐系统在各个领域一直保持很高的研究热度。推荐系统的方法按照研究对象主要可以分为四类:基于内容的推荐,协同过滤推荐,基于知识推荐和组合推荐14l。基于内容的推荐指根据用户选择的对象,推荐其他类似属性的对象作为推荐。对象特征的选取目前主要以对象的文字为主,常用的文本特征是词频.倒排文档频率(TermFrequency.InverseDocumentFrequency,TF-IDF)【5】。在用户-对象资料模型中常用的机器学习方法有:决策树嘲,贝叶斯分类算法【7】,神经网络【s】'基于向量的表示方法。但其基于相似内容推荐通常具有冷启动,数据扩展等引起的推荐偏置问题。协同过滤推荐(CollaborativeFilteringRecommendation)的出现某种程度上解决了这些问题,并且是目前最成功的推荐技术之一【91。协同过滤的基本思想是根据目标用户兴趣相似的用户来间接获得目标用户的推荐。协同过滤推荐算法主要可以分为两类:启发式(Heuristic—BasedorMemory—Based)和基于模型的方法。启发式方法的研究主要包括计算用户之间的相似度,计算相似度主要有基于关联(Correlation—Based)和基于余弦距离的(Cosine—Based)的用户特征向量计算。基于模型的推荐的算法包括:机器学习方法和统计模型,贝叶斯模型,概率相关模型,线性回归模型和最2西南大学硕士学位论文绪论大熵模型。推荐问题还可以被看作序列决策问题,可以马尔可夫决策过程方法,图模型方法,包括概率语义分析和LDAIlo】等。基于知识的推荐在某种程度上可以看成是一种推理技术。效用知识是一种关于一个对象如何满足某一特定用户的知识,因而能够解释需求和推荐的关系,用于推荐系统。效用知识在推荐系统中必须以机器可读的方式即本体(Ontology)形式存在。随着Web2.0技术的发展,社交网络已成为人们交往和获取信息的重要渠道之一。社会标签是一种网络上新兴的文档组织方法,用户可选择任意标注词作为标签。在社会标签网络中,按照研究对象,基于话题,基于标签,基于用户的方法成为推荐系统利用的主要方法【11】。Jin[121等利用LatentDirichletAllocation(LDA)建立了基于多话题多标签的话题概率分布。此方法不现实的一点是所有的标签都有同样长度的话题向量。Ziegler113]等提出将话题多样性的方法,并引进一个内部列表相似度矩阵来评价推荐列表的话题多样性。虽然此方法提供的名单可以提高用户满意度,但另一方面是不利于平均精度。Abel[14】等发现基于hashtag,基于实体和基于话题建立的临时档案能够从丰富语义的角度提高推荐质量。试验结果表明基于话题的方法比基于hashtag的方法表现更好,并且要求更少的运行时间和内存。Cantadorll副等认为在某些情况下,标签是用来描述主观素质或者与组织相关的条目。他们通过标签映射机制将标签映射到诸如WordNet和Wikipedia等语义实体,以此将标签分类和过滤。获得的概念被转换成到语义类别能够用来唯一的标志基于上下文的类别。但有点遗憾的是此文没有挖掘获得标签堆之间的语义关系。Krestel116】等通过对用户的标签和资源的标签建立概率模型,提出了一个个性化标签推荐方法。该方法先用LDA来估计未标注文集的话题.标签分布和资源话题分布,并用Dirichlet先验分布来计算一定话题下的概率分布。Durao【17】等提出了一种基于标签的推荐系统,此系统基于标签流行程度,标签的代表性和用户及标签的影响力来计算资源的相似度并进行推荐。语义相似度能够被用来解决歧义问题并且能够提高推荐准确性。。Nocera【18J等将用户按照他们所共享的标签进行聚类,并根据相似用户和资源进行推荐。而Nakatsuji11州等将用户的档案构造成一个类的层次结构,用户的兴趣权重被分配到每个类和实例,然后将相似度最高的用户分为一组。Yin[201等认为对于可信赖朋友提供的信息是值得重视的,并利用接受的信任信息设计了一个简单的预测模型框架。Firan[211等聚焦在标签是如何特征化用户以及被用来个性化推荐。通过对比分析标签在传统用户档案中的使用频率,他们提出了基于标签用户档案的个性化推荐系统。经典的PageRank通过分析有向图中网页之间的链接来为互联网的链接排序,与此算法类似,基于扩散的方法致力于将用户偏好作为输入数据来构建网络进而获得推荐。基于扩散的方法都是基于对象.对象网络中输入数据的特殊转换(投射)。一个用户的个性化推荐系统获得可以通过将该用户过去的偏好作为一个给定网络中的“资源”,然后将这些偏好扩散给待估计的对象。基于扩散的推荐主要有基于热扩散的算法,多层次扩散算法,概率扩散算法,混合西南大学硕士学位论文扩散方法【22-24]。绪论1.2.2基于地理位置的社交网络研究现状地理位置服务和移动通讯技术的发展使人们能从不同的途径通过在线社交网络使用地理位置数据,其被称为基于地理位置的社交网络(Location-basedSocialNetworks,LBSNs)1251。各大社交网站推出了自己的地理位置服务,如用户能够上传带有位置标签的照片到Flickr2,在Twitter网上评论特定位置发生的事件,在Foursquare3上分享当前位置,在GeoLife中用GPS记录旅行路线并分享旅行经验。在国内,新浪微博,大众点评网等也提供了基于地理位置的服务。网络位置服务为物理世界和在线社交网络服务建立了连接。目前,这方面已有很多有广度深度的代表性的工作。一部分研究工作集中在从历史位置数据来“理解”用户。该类工作主要利用个体用户的地理数据如GPS轨迹,签到记录等为用户建模,主要遵循的流程为:“传感器数据》地理空间位置(有意义的地点)》语义含义”。获取用户模型后,通过位置历史在地理空间和语义空问的距离来获得两个用户的相似度。获得的相似度的大小表示两个用户在基于位置的社交网络中关系的强弱程度。另外的研究工作主要是通过分析用户的移动特性来了解用户位置。首先通过用户产生的GPS轨迹挖掘最有趣的位置,比如城市中的旅行序列。然后就是制定旅行计划并且推荐计划。根据位置历史数据为用户提供两种推荐:1)在某个位置进行最流行的活动;2)在最流行的位置进行一个特定的活动。Hariharan126J等将“地理位置历史”看作一系列时间间隔上用户对于地理空间中实体位置的记录。他们提出一系列严格定义的数据结构和算法,用于分析和生成位置历史数据。通过定义位置停留和目标位置,他们提出了两种为位置建模的概率方法。其中,位置停留指的是目标用户在单一地点花费的时间的实例,目的位置指的是将停留聚类后得到的结果。他们以同样的方法讨论了用户的潜在位置,基于Markovian和不基于Markovian概率模型用来对位置历史建模。文中明确地指出对地理位置大小和停留时间长短的考虑,并基于位置集合构建了与时间相关的HMM。Quercia127J等研究了用户对社会事件的偏好和地理位置之间的联系。首先,他们采集估计100万移动电话用户的位置数据,并将同一地区的样本通过社会事件合并。基于该数据,测试多种算法为用户推荐社会事件。该文发现,最有效的算法推荐某一地区的居民之间流行的社会事件。最不具效率的算法,是推荐距该区域地理位置较近的区域发生的社会事件。因此,该文通过解决以下研究问题,解决冷启动问题,即如何才能将社交事件推荐给具有冷启动特性的用户,在只有该用户的家庭位置数据的情况下。‘http://www.flickr.com/https://foursquare.com/4西南大学硕士学位论文绪论Noulas[281等致力于在基于地理位置,含有丰富大量的社交网络中发掘用户喜好。使用的数据集是具有用户行为(用户访问过的街道),社会性(用户和其它用户的联系),距离的(街道间的距离)等特性的混合数据集。基于同时含有签到数据和社会信息的两个不同的基于地理位置的数据,该文研究了常用的几个过滤算法。通过对用户移动性进行约束条件假设,传统过滤方法,包括潜在空间模型等并没有产生特别高的推荐效率,因此,该文在通过用户社交网络和对街道访问频率的数据上构建的用户.位置对应图上应用随机游走算法。个性化位置推荐系统通过获取用户地理历史数据分析用户间相似度,从而构建基于用户的协同过滤。该模型能够对个人用户的行为进行准确建模,然而,这种模型在实际系统中会遇到用户数量的问题。基于此,提出了基于地理位置的协同过滤系统。该模型能够满足在用户位置历史中引入基于条目的CF模型,并且和基于用户的方法具有相似的效率和更好的扩展性。1.3研究目标与内容本文主要致力于研究设计合理的推荐系统,提高推荐查准率,提高用户满意度。其中涉及到了解推荐系统的相关知识,如社交网络的构成,标签一资源.用户三元组关系,基本的数学统计工具,如贝叶斯统计模型,LDA模型。序列分析模型如隐马尔可夫模型。语义分析工具,如著名的WordNet的组织结构。主要研究内容如图1所示,共分为4个部分:图1.1本项目研究内容1.算法研究相似度的计算是推荐系统最关键的问题之一。1)如何确定系统的元数据表示用户活动历史,那么就包含三个活动指向对象,即其他用户,资源,标签。资源的表示形式丰富,如何将他们以一个更简洁的方式表示。2)如何处理元数据之间的关系。不同的数据特征需要使用不同的模型来统计用户喜好或者为用户行为建模。即如何将搜集的元数据较为准确地转变为5西南大学硕士学位论文用户的喜好表示。3)如何在元数据表示的基础上,获取用户相似度。.绪论2.模型研究基于模型的推荐系统是推荐系统中的一个大类。或者说推荐系统中,或多或少的可以用到已有的模型,将已有的问题形式化,用户的数据具有多元性和数理特征,在设计模型时,可以将推荐问题看成是统计问题、序列决策问题等。如何将用户特征和模型充分联系,获取有效率的推荐结果。3.推荐系统框架如何合理的构成推荐的信息来源。社交网络中,用户在某种程度上更依赖于社交圈中的好友推荐,其选择更容易被好友左右;另一方面,用户同时也被在某方面具有高“专业度”的用户影响。如何来衡量两者之间的权重,是设计一个合理的推荐系统框架需考虑的重要因素。4.实验和结果分析通过对社交网络不同数据集的分析,根据数据集的特点,设计适合的推荐系统框架,运用程序语言实现框架,并且基于现实社交网络数据,对实验结果进行分析,验证算法的有效性。1.4论文组织结构论文结构安排如下:第一章,绪论。阐述本文的研究背景及意义,介绍相关研究现状,总结论文的主要工作。第二章,相关理论与基础知识介绍。学习并了解推荐系统的相关知识,如社交网络的构成,标签.资源.用户三元组关系,基本的数学统计工具,如贝叶斯统计模型,LDA模型。序列分析模型如隐马尔可夫模型。语义分析工具,如著名的WordNet的组织结构。第三章,实现以贝叶斯统计模型为核心的推荐系统框架,提高推荐查准率和用户满意度。第四章,将推荐问题看成序列决策问题,设计以隐马尔可夫模型为核心的推荐系统,提高推荐查准率和用户满意度。第五章,收集不同的社交网络数据集,并对其进行实验与结果分析。第六章,总结与展望。总结现有工作,指出未来研究的方向和思路。6西南大学硕士学位论文相关理论与技术基础第2章相关理论与技术基础在本章中,首先介绍了三个重要的模型,贝叶斯统计模型、隐马尔可夫模型和LDA模型。然后介绍本文涉及的推荐系统的相关知识,如社交网络的构成,标签.资源.用户三元组关系,语义分析工具,如著名的WordNet的组织结构,基于WordNet的语义相似度计算。2.1贝叶斯统计模型贝叶斯网络(Bayesiannetwork)[291,又称信念网络(Beliefnetwork),由一个有向无环图(DirectedAcyclicGraph,DAG)和条件概率表(ConditionalProbabilityTable,CPT)组成。贝叶斯网络分类模型(BNC)的形式化描述如下:N元随机变量X={Xa,五,...五)的贝叶斯网络模型是一个二元组B=(毽,Bp)。E=(X,E)是一个有向无环图(DirectedAcyclicGraph,DAG),其中X={墨,五,...以)为节点集,每个节点可看成取离散或连续值的变量(本文限定其只取离散值);E是有向边的集合,印={p(Zl兀工),五∈X)是贝叶斯网络模型的一组条件概率分布的结合。在节点取离散probabilitytables,CPTs)的集合。兀Z是在隐马尔可夫模型【30J由于其丰富的数据结构和广泛的用途变得越来越受欢迎。隐马尔可夫隐马尔可夫模型包含双重随机过程。其中一个是隐含有限状态集O=(qlq2,...,q丁),另P(q,Iqt-1,q,-2,..Ⅷq)=P(q,Iqt-1),2≤t≤Tr,,1、隐马尔可夫模型通常被定义为5元组,即兄=(Q,0,万,A,B),其中Q代表有限状态集;万是在Q上分布的初始概率矩阵:A是随机转移矩阵,其中,A:Q×Qj[0,1】,鸣=尸(吼+。=/Iq,=f)并且善鸣21;0代表观察有限状态集合;B是混淆矩阵,用来描Oj[o,1】,并且EI=P(D,=kq,=f),乏壤=l。隐马尔可夫模型通常能解决以下问题:评估问题:在给定一个隐马尔可夫模型(HMM)的情况下,生成输出序列O=0102…On的p(ol旯)=∑刀(g。)·吃q·^。:·%吧…厶埘。·%%(2.2)7每条边表示两节点间依赖关系,依赖程度由条件概率参数决定。称BS为BN模型网络结构。值的情况下,BP为一组条件概率表(ConditionalBs中五所有父节点的集合,表示节点五在其父节点某一取值组合状态下的条件概率分布。这说明,在贝叶斯网络模型中,节点的取值依赖于其父节点的取值状态。2.2隐马尔可夫模型模型被运用到各个领域,如语音识别和生物序列分析等领域。一个是观察序列0=(01,D2,...,or),其中观察序列是由状态序列生成的,即观察Df是由状态g,生成的。状态序列q=qlq2…qt满足以下被称作马尔可夫性质的条件概率:述状态和观察之间的转移,B:Qx概率的计算方式如公式(2.2)所示:西南大学硕士学位论文相关理论与技术基础公式(2.2)所示的概率能通过forward.backward算法有效地计算出来。概率p(ol兄)可以分别通过forward实例和backward实例获得。Forward实例定义为口,(J)=p(01D2…D,,吼=J|A),它表示在t时刻,在状态为j时观察到的序列为0102…0t的联合概率。因此概率p(oI五)能够通过forward实例不断递归得到,如公式(2.3)所示:p(ol兄)=∑%(/)jeQ(2.3)公式(2.2)表示的概率同样也可通过backward实例获得,backward实例被定义为屈(J)=p(o,+10,+2…0。,q,=Jl旯),它的计算方式和forward实例的计算方式相似。解码问题:解码要解决的问题如公式(2.4)所示:4(f)2p(gtgz…g卜·,g,=f,D·Dz…0,IA)(2.4)即,已知观察序列0=0102…0丁和模型旯=∽,A,B),如何找到生成该观察序列的状态序列q=qlq2…qⅣ,计算过程用在T时刻的露(f)表示,并且满足如公式(2.5)表示的最大likelihood准则:argm努e(o0)(2.5)Viterbi算法通常被引入来计算该概率。Viterbi算法计算过程概述如下:首先,获得公式(2.4)瓯(f)=万,6f(D。)所表示的实例,并且假设全局收益为、王,。(f)=0。然后,我们用谚“(歹)=m。a。xfi,(i)口l,0(Df+,)和、王,川(/)=argm。a。x6,(i)口{,l(D,+-)来递归至满足条件m。:,a:,x。fir(i)和argm.,。a:。x,fir(i)。参数学习问题:隐马尔可夫模型主要解决的问题就是调整隐马尔可夫模型九中的参数使公式(2.4)中的概率最大化。它主要是通过Baum.Welch算法,该算法通过迭代估计模型九的参数,迭代的同时使输出观察序列O的概率最大。2.3LDA模型LDA模型3u是一种利用概率对文本主题信息进行建模的方法。一个文本通常由若干隐含主题组成,而这些主题由文本中特定词汇体现。因此可将隐含主题看作词汇的概率分布,单个文档表示为这些隐含主题特定比例的随机混合。LDA模型是由词层、文档层和文档集合层组成有向概率图模型。@,∥)是文档集合层的参数,其决定了LDA模型。文档集合中口用于描述隐含主题间的相对强弱,隐含主题自身的概率分布用∥表示。随机变量目是文档层参数,目的分类表示目标文档中每个隐含主题的权重。(z,w)是词层的参数,z表示目标文档的隐含主题在每个词上份额,W是目标文档的特征词向量。假设隐含主题有T个,则在所给文本中的第i个词汇w出现概率为:三P(w)=∑P(wz,=j)P(z,=J)j=l(2.6)其中,Ⅵ是文本的第i个特征词,j表示第j个隐含主题,=J表明W取第J个隐含主8西南大学硕士学位论文相关理论与技术基础联系人可以发布和获取网络资源,但由于用户数目成千上万,每天操作的资源总和更是巨大的数目,因此如何对自己上传的资源进行简单描述,方便联系人网络中的其他人获取和发现,成为重要问题。标签的出现在一定程度上解决的该问题。用户上传资源时为上传的资源打上能够充分概括不同类型资源内容的标签,标签的形式多种多样,甚至可以是用户自己创造的词汇。这种做法能够方便其他用户的行为。其他用户通过操作标签从而更快捷的找到符合自己期望的资源。标签的使用能够使资源描述简化,但由于标签具有自由性,即标签内容多样,从标签到资源形成有效的映射,即从用户使用的标签轨迹,推测并找到符合用户喜好的资源。2.5WordNet的相关介绍WordNet1321是由普林斯顿大学的心理学家,语言学家和电脑工程师共同建立的基于认知语言学的大型语料数据库。它不仅将字典和分类词汇汇编结合起来使得用户能更直观的使用,同时,它也支持文本自动分类和人工智能程序。WordNet中的单词(Word)整理成大众认知的同义词集合,这些同义词集合被称为同义词集(Synset)。每个同义词集包含丰富的信息,比如对该同义词集的解释,属于该同义词集的单词等。WordNet由同义词集和连接同义词集之间的关系组成。不同类型的句子成分(POS)能够应用的关系不同。在WordNet中,主要存在4种句子成分,即名词,动词,名词形容词,动词形容词。WordNet中,名词和动词分别以上位.下位关系和IS.A关系组织成为层次结构。其中,上位一下位关系是名词同义词集建立起来关系的主要部分,并且占了整个关系的80%。例如,A是B的上位词,意思就是B是A的一种,或者说B是A的下位词。在WordNet2.0中的搜索框中,输入“sport”以查询,查询结果如图2.2所示。10西南大学硕士学位论文基于社会标注推荐系统的研究第3章基于社交标注推荐系统的研究本章在对社会标注网络的研究基础上,设计基于贝叶斯统计模型的推荐系统框架,该框架通过学习用户评论历史数据获取用户喜好模型,结合搜索工具对用户进行推荐。致力于向用户推荐条目,提高用户满意度。3.1社交网络特征分析目前,因特网上过载的信息量引起各种问题,例如如何有效利用不同格式的元数据,如何帮助用户快速准确地找到其感兴趣的数据等。标签,作为元数据的一种,主要用来处理数据异构问题。同时在如Fliekr,Delicious等的社交网络中,通过用户自己打标签形成的大众分类法,被当作管理社交网络数据信息的有效方法。社交网络中的推荐问题,主要是研究用户与条目之间,用户与用户之间,条目与条目之间的关系。大众标签作为联系用户与条目的桥梁,能够在一定程度上提高搜索效率。推荐问题的关键在于能否尽可能准确地抓住用户的爱好。实际上,很多文献对哪些是影响推荐的重要因素,进行了探讨:Xu[331将用户的兴趣在面向话题的图中基于话题建模,并设计一个面向话题基于标签的推荐系统。实验表明该方法比通常的协同过滤方法表现更好,尽管它还没有考虑用户联系人。Lerman【34】的工作清楚的表明用户联系人信息能有效提高搜索准确度。因此,在本实验中我们假定:1)用户喜欢该条目因为他确实被条目内容所吸引:2)用户喜欢该条目因为受朋友(联系人)的影响。3.2基于社交标注网络推荐系统的具体实现本文希望设计能充分挖掘用户、标签以及联系人的推荐系统。通过贝叶斯统计将用户的评论行为和用户喜好联系起来。基于上一节中的假设,本文通过分析用户关于某一朋友发布的某一话题类别的条目的喜欢程度,来为用户喜好建模。3.2.1偏好建模令likes(u。,f)表示主用户U。喜欢的条目,posted(ub)表ff≮ub发布的条目。令topic(i)表示条目i属于的话题类别,并且topic(i)∈C。条目i满足以下条件,1)为用户%上传,2)属于特定类别吱,3)并且被U。喜欢的概率表示为:P(1ikes(ua,i)ltopic(i)=巳,f∈posted(Ub))。根据贝叶斯条件概率和Gursel等【35J的工作,上面的概率能够用公式(3.1)所示表示:竺¨一型“坚印型m坐酬燮小12端西南大学硕士学位论文公式(3.1)中各个因子计算如下:基于社会标注推荐系统的研究p(f∈posted(Ub)topic(f)=Cx,likesUaf))=(%上传的,且属于话题类别Cx,并且被%喜欢的条目的数目)/(属于q并且被%喜欢的条目的数目);p(1ikesua,i)topic(f)=Cx)=(属于吱并且被甜。喜欢的条目的数目)/(属于巳的条目的数目);p(f∈posted(u6)topic(i)=c,)=(%上传的,并且属于话题类别巳的条目的数目)/(属于c,的条目的数目)。3.2.2话题类别映射大众分类法中,标签的关键优势在于它能以同样的形式表达异构数据内容。通常一个条目可以由几个标签标记,通过计算条目的标签属于类别C的程度,可以间接得到该条目属于类别C的程度。令topic(f)表示条目i所属于的话题类别,t:表示其标签集中位于k位置的标签,并用w(《)表示该标签的权重。因此,条目i属于类别c。的概率由公式(3.2)计算:LPr(topic(i)=q)=—盟-rt—————一∑∑w(《)×L绷f(◇,tk’)∑w(《)×L恍,(q,《)(3.2)当条目i只有一个标签,则该标签的权重为1。否则标签的权重,即w(rkl,由公式(3.3)获得,其中变量v表示条目i的标签数量。Level(Cx,《)用来获得标签《属于类别q的程度,其计算方式如公式(3.4)所示:歹+三丽狄V古+南㈧w(《)=1(3.3)ik2jLevel(c,,《)=(1一目)×IsC口tegory(c。,‘)+臼×similarf纱(q,‘)(3.4)预处理时,通过标签和类别名称共现的方式将标签进行聚类,以此获得标签和话题类别对应关系。即,若f,∈巳,‘∈T(u,,C),并且f,∈丁(扰,,is),由此可推出气∈Cx。初始启动时,用类别名称作为第一个属于相应的类别的标签名称。获得的类别文件中的标签能保留原社交网络的非正式形式,正是由于大众标注的非正式性,需要引入语义相似度,将标签和话题类别之间对应起来,这里该文引入基于WordNet的相似度计算方法。在公式(3.4)中,0<0<l,IsCategory(cx,‘)确定该标签是否与存在q的标签库中,其返回值为0和1。similarity(cx,ti)返回标签ti和Cx的语义相似度。西南大学硕士学位论文基于社会标注推荐系统的研究3.2.3语义相似度计算目前已有众多工作致力于计算语义词典WordNet中包含的语义关系,它们主要是基于最小公共祖先(LeastCommonSubsumer),路径长度,和关系结构【36】。Lin1371认为两个概念之间的相似度,例如概念1和概念2,能够通过它们之间的信息交集除以所有表示它们的信息总量所得到的比率计算,如公式(3.5)所示:由于Lin的计算相似度的优秀表现,本实验中,借鉴此方法来计算标签和类别名称的语义相似度。豇删M纱(conceptl,concept2)=等篙筹锱㈦5,3.3本章小结本章首先分析了社交标注网站的基本特性,讨论在社交标注网络中进行推荐的要点问题,并以此为基础构建基于贝叶斯模型的推荐系统,并将引入语义相似度计算解决大众标签和主题名称对应问题。14西南大学硕士学位论文荐系统基于隐马尔可夫模型的推第4章基于隐马尔可夫模型的推荐系统本章主要讨论基于隐马尔可夫模型的推荐系统的构建,问题定义,数据观察等。4.1移动签到社交网络移动通信技术,特别是移动手机上的应用的发展成为研究热点。通过社交网络中的位置服务(LocationBasedServices,LBS),用户能够快速找到当前位置附近的餐馆,并对于一个精确位置正在进行的活动进行评论。假设用户A正在逛街,并且他/她通常在逛街之后习惯性的会选择去一家餐馆、美容院或者健身房。如果事先知道该用户的行为模式,就能够更精确的为他下一刻要进行的活动推荐地方。通过分析用户的被序列化的签到历史,可以基于用户的签到时间段分析用户的签到模式,同时进行预测用户下次签到的时间间隔。由于用户在一周,一月或者一年中的特定的时间段可能进行相似的活动,我们可以推荐与时间段相关的地址给他。4.2基于隐马尔可夫模型的签到推荐系统本节讨论基于隐马尔可夫模型的推荐系统的构建,包括,问题定义,数据观察等。4.2.1问题定义通常,人们会在一天的相同时段做相对相似的活动。因此可以通过观察用户的签到历史,对用户行为进行建模。基于此,将签到时间段序列作为观察序列。因此,把一天的时间,即24小时分成几个时间段。如此一来,用户签到的确切时间就被映射到其中一个时间段中。将时间段定义为:C={c1,c2,...,ck)。因此观察序列,即带时序信息的签到时间段记为:Ctltlc∥t2~c|:“o通常由于社会趋势,心情变化,人们在不同的地方不同的时间段进行签到。但是具体签到的原因对我们来说是未知的,不确定的,因此考虑用一些复杂的技术如HMM来解决这种情况。因此,假定影响用户签到行为的隐藏因素为:H=(Jil,忽,...,啊)。用户的签到历史能够帮助识别用户行为模式,并最终发掘拥有相似行为模型的相似用户。4.2.2数据观察收集数据集后,首先观察该数据集有什么特点:1)收集的数据集中所有用户总共的签到次数;2)在其上签到次数大于平均签到次数的位置数;3)在其上签到次数小于平均数但大于平均数一半的位置数;4)在其上签到次数仅为1的位置数。通过统计收集的数据,得到的结果在5.2节中探讨。4.2.3算法流程设计算法时,需要解决以下问题:1)每个用户签到序列在数量和长短对模型的学习有限15西南大学硕士学位论文基于隐马尔可夫模型的推荐系统制;2)是否需要考虑与时间相关的模型。基于上节对数据集的分析,采用以下方法解决上述问题:1)首先将相同用户的签到序列用k-means聚类;2)由于用户行为与时间相关,因此考虑用户签到时间间隔。基于签到的隐马尔可夫模型用于学习用户行为。提出模型的观察序列是用户时间间隔序列。用户签到时间间隔变化受社会发展趋势,当时的心情,朋友等影响。但用户签到行为发生的原因仍是隐藏的,不为我们所知。据此,设计的算法流程如图4.1所示,其中各个符号变量的说明见表4.1。Input:tlletopicrepresentedctl“ct2‘2…ct”‘“ineachdatasetOutput:userclajisidentificationandtopicrecommendation1{札s盯class1},伽serclass2):…(userdassu)}_k-me8ns({cflct2。2·一Ct。tn})2{train1,test1’,{train2.test2)…,{train饥test珏}6-ltserclass1)13{itserdass2}….,{userclassH':4口争-r.0{一是,A4--.-mk_stochastic(rand(q、q”,5B卜mk—stochu.stic(_,‘and(q,D)),霄4-fmrmalise(rand(q,1)):B沁卜learnJtmm(trainl,竹,A,B);7A24--leavn.]tmm(train2.71",A,B);8………:9A“4--learn_hmm(train.就,'rjA.B);10foreach^A∈{Al,A2,…,A。}do11lforeachtesttest∈{testi,test2….,test“)doforeachtestsequencetsts∈testdo13Iloglikelih.ood卜log—hmm(ts{砷;14end156end7foreachtestptestp∈(te,t1,test2,…,test11),P∈{1,2,…,社}do18|foreachtestsextuencetsts∈testpdo19lforeachtimeperiodCi盘∈ei∈(1,知)do20lnewLsi卜substitute(ts,cd;21l|109likelihood卜log_brain(newtsi,Ap);22lend23lelld24end图4.1算法主要流程表4.1符号表示符号变量描述解释用户聚类的类别数∥R隐藏状态数目一天被分为的时间段数目K万观察状态的初始概率向量A观察状态间的概率转移矩阵B观察状态和隐藏状态之间的概率转移矩阵Q中的有限状态。中的观察状态获得随机的转移概率矩阵,并且保证每行的和为l归一化,保证矩阵参数加起来为1用Baum-Welch算法训练HMMq。一一~~一一一用Viterbi算法计算以“log”形式表示的概率保存“loghmm”计算获得的概率结果16西南大学硕士学位论文荐系统substitute基于隐马尔可夫模型的推执行“替代”过程的函数表4.1中,符号u,r,k分别表示用户聚类的类别数,隐含状态数,和将24小时分为的时间段数目。“mkstochastic”函数用来随机获取概率矩阵,并且保证每行的概率和为1。“normalise”函数使矩阵参数和为1。“learn—hmm”用Baum—Welch函数学习HMM参数。“log_hmm”函数用Viterbi算法计算以“log”形式的表示的概率结果。“loglikelihood”用于保存“loghmm”函数计算的结果值。“substitute”函数表示“替代”操作。该操作描述如下,比如,测试序列“ts”为{巳“Ct,“…Cln_1tn-ICtn。),分别用C1C2…C々替换最后一次观察到的Ct.L,并且将新得到的序列保存到“newts”中,因此新得到的“newts”集合为{{气1Ct2“…气一。‰c1‘),{cf。tlq:t2…。“In-IC2k>...Ctltlq:t2…qd~kt"))。图4.1表示的流程是整个设计框架的主要流程。它描述了用户聚类,为每个类别的用户学习模型和计算loglikelihood值。第l行表示用k-means对具有相同签到模式的用户聚类。聚类之前,输入的序列被剪裁成为同样的长度。第6行到第9行,引入Baum—Welch算法通过重复特定的步骤估计模型参数。在训练步骤之前,比如万,A,B参数的值是随机设定的。从第10行到第16行,在模型学习好之后,每类用户模型能够用来计算新加入用户的签到序列在该模型条件下的loglikelihood值。假设一个新用户的观察序YUYg:O=D1D2…0t,因此概率p(DI旯)表示在已学习模型兄的条件下,计算该观察序列出现的可能性大小。该值通过Viterbi算法中的前向.后向(forward.backward)过程计算。已知在时间序列f0‘..‘一1中获取的用户签到时间间隔序列,同样能够用Viterbi算法获得用户下一次最可能的签到时间间隔。从第17行到第24行,在替代掉每条测试数据后,可以重复使用Viterbi算法获取loglikelihood值。4。3本章小结本节我们研究预测用户签到的时间段和下一时刻最可能的签到位置。这是一个有趣的问题,因为用户偏好本来就是不断变化的。基于隐马尔可夫模型可用于学习用户的行为历史,同时可预测用户行为趋势。本文提出隐马尔可夫模型的推荐系统。该系统可用于学习的指定用户的签到行为模式,以及预测用户的签到趋势。17西南大学硕士学位论文实验结果与分析第5章实验结果与分析根据对推荐系统的研究,在不同的社交网络数据集上,分别对以上两个推荐系统进行实验设计和效果评估。5.1基于贝叶斯统计模型的推荐系统以VisualStudio作为开发平台,用C撑语言实现系统。在采集两个大众标注社交网站Flickr和Delicious的有效数据上,对系统进行测试评估。5.1.1数据集与评估标准数据集I:从Flickr上采集2009.12至2010.1两个月时间内的用户数据信息。以一个用户为主用户,记录其联系人ID和每个联系人上传的照片信息,分别记录在两个文件中。每张照片信息包括photo的标签列表。ID,contactID(上传该照片的联系人),评论过该照片的用户ID,描述该照片数据集II:由2011年召开的第二届因特尔研讨会4上提供的Delicious的标签集,该数据集的信息被整理在了7个文件夹中。关于两个数据集的统计信息被列在表5.1中:表5.1实验数据统计实验中,对于一个给定的用户,将条目根据话题.联系人矩阵排序产生前20进行推荐。候选条目在采集的数据库中选择。假定I。是根据话题一联系人矩阵所得值排序的前20条,或表示根据关键字搜索返回的20个条目。12表示数据库中的条目。Il是根据每个用户专属的话题.联系人矩阵和每次输入的关键字返回的,因此11是不同的,12在同一个数据集中是相同的。返回最匹配用户的兴趣的20个条目是非常有意义的。在本实验中,评估标准是查准率,查全率和F-measure。对于用户“喜欢”该图片,我们认为某用户的ID包含在某照片的评论列表中表示该用户喜欢该照片。一opreclslonofitemslikedby%in11I一fnumberL—————■———————————————————i■——二Inumberofitemsin11lhttp://ir.ii.uam.es.hetrec201118西南大学硕士学位论文实验结果与分析rPc口ll=—In—u——m—b——e—r—o—f———i—te——m—s——l—ik—e—d——b—y——u——a—i—nI—l-IlnumberofitemslikedbyxF一,竹P口szf,P:—2precisi—onxU。in厶Irecallprecision+recall5.1.2结果与讨论首先,对提出的方法与仅用关键字搜索的方法【381进行评估。总共从12中随机选取了100个标签作为搜索的关键字。基于WordNet2.0,针对每个数据集,我们分别学习了3个用户的偏好。选择他们的原因由于其在各自的网站中非常活跃。查准率在下图5.1中比较。∞∞"∞I。“们∞叫图5.1两种方法上的查准率比较在图5.1(a)和图5.1(b)中,横轴表示用户,纵轴表示对应于每个用户的查准率。由于对于每个用户,测试了100个不同的标签,并记录下每次搜索的最大查准值和平均查准值。用于在不同的网站上用户的目的不一样,因此用于测试的100个标签在Flickr网站和Delicious网站上不一样,但是在其中一个网站上是一样的。图中图例依次表示我们提出的方法(后文用New指代)能获得的最大查准值,关键字搜索方法(后文用Key指代)能获得的最大查准值,提出方法的平均查准值(New)和关键字方法(Key)获得的平均查准值。New方法中用到相似度计算,其中令公式3.4中的0=0.4,0的用法将在下图中讨论到。图5.1中结果表示提出的方法能够很好的影响排序结果,使结果能更符合主用户的兴趣。让我们看看图5.1(a)中Flickr网站上的数据。大部分情况下我们提出的方法比基准方法表现好。测试结果在Flickr和Delicious的两个网站不同由于两个网站不同的关键字和每个用户各自不同的偏好。至于图5.1(b)中Delicious的用户,Delicious的每个用户的联系人数目比收集的Flickr中的用户数目少,并且最大的数目是90。以图5.1(b)中第一个Delicious用户作为例子,在该用户的偏好矩阵中,只有一行记录。将它作为考虑提出的方法的方法。在图5.1(b)Delicious中,联系人数量从用户1到用户3的联系人数量递增。系统学习样本更多,能达到的推荐精准度更高。并且可以看到,提出的方法和基线方法之间的差距增加的很小。根据Flickr中每个用户的联系人数量平均在300,显而易见的是,在Flickr中的用户更频繁地与他们的朋友联系,因此他们的朋友有助于他们搜索的需求。数据还显示,该系统相对于基线方法在Flickr中提高19西南大学硕士学位论文站(后文用B代表)。实验结果与分析Gowalla数据集:Gowalla是基于位置的社交网络,用户可以通过它分享签到。本文所用的数据集是从2009年2月到2010年10月的一共141,150个签到。Brightkite数据集:Brightkite也是基于位置的社交网络,用户可以通过它分享签到。本文所用的数据集是从2008年4月到2010年10月的一共102,550个签到。收集数据集之后,对数据集进行了初步统计分析。统计结果表示:数据集中所有用户的签到总数是159773;平均每个用户的签到次数为20,某一位置上的签到次数大于平均次数的位置数是30836;某一位置上签到次数小于平均次数并大于10的位置数是74643,某一位置上签到次数等于1的位置数是11447。结果表明,用户在每个位置签到次数的相对平均。并且每个位置的平均签到次数为20。据此分析,可总结如下:1)每个用户的签到次数足以让我们学习用户签到轨迹;2)假设收集在一个时间段中的时间序列化用户的签到位置,可以得到位置序列。由于用户在每个位置的签到次数是相对平均,因此在位置序列中,一个位置会重复出现。鉴于此,可以利用模型学习用户行为模式,并尝试为用户推荐。根据观察序列,需要对获得的时间信息进行预处理。需记得,用户在哪个地点签到和用户正在从事的活动密切相关,用户正在从事的活动和当前所处的时间段也有紧密的关系。在两个数据集中,本文将一天24小时分为6个特定的时间区间。分隔的时间区间为:00:00—08:00,08:00—12:00,12:00·14:00,14:00-18:00,18:00-20:00,20:00.24:00,将每个时间段命名为:C。=1,C:=2,C3=3,C。=4,C,=5,C。=6,k=6。由于在每个时间段中的活动的强度是不同的,因此每个时间段的长度的也不同。例如,在时间段G:3,即在时间12:00—14:00中,它很可能意味着午餐时间,活动和用户签到的位置可能是和午餐相关的餐厅,美食等,即有一些共同的东西。5。1.2结果与讨论首先,使用K.means分别为两个数据集中的用户聚类,类别数为U。然后分别将两个数据集的每个类中的数据分割成两部分:80%的训练数据和20%的测试数据。其次,使用80%.i)J1练数据分别训练适合每个类别的模型,剩下20%的测试序列作为测试数据。在两个数据集Gowalla和Brightkite中分别做了3个评估。数据集上进行的第一个评估如下所述。以U=3,,.=6为例,即将用户分为3类,并假定存在6中隐含状态,每一类都将训练为一个隐马尔可夫模型(后用HMM代替)。即每个数据集中将存在3个HMMs(用HMMl,HMM2,HMM3指代)。训练后,结果由公式2.1计算并由图5.6中表示的“log”形式表示。图5.6中的前3幅图Fig.(a)-Fig,(c)分别表示Gowalla中训练出来的3个HMMs的loglikelihood值,其中,U=3,,.=6。图5.6中的后3幅图Fig.(d)一Fig.(f)分别表示Brightkite中训练出来的3个HMMs的loglikelihood值,其中U=3,,I=12。同时,西南大学硕士学位论文实验结果与分析要高。这表示,该模型可以识别这些测试序列来自的用户类。即,给定用户的观察序列时,受过训练的HMM可以用来识别用户属于哪个类别。此外,可以从获得的结果中进行有用的推荐行为。同时,讨论了U和r的取值,Brightkite数据集和Gowalla数据集上的讨论结果分别表示在表5.1和表5.2中。表中每一行对应u和r不同的值。每一列对应于由每个用户群训练出来的HMM。表中的每个元素用百分比的形式表示。它是指测试序列的loglikelihood值在其相应的HMM模型中大于在其他HMM模型的百分数。表5.1Gowalla数据集中讨论U和r的取值(单位:%)HMM一123456789101112Averageu=3r=391.198.675。588.4r=695.893.687.992.4r=971.589.397.286.0r=1298.686.378.王87.7u=6r=374.736.625.870.059,324.7~一~~~~48.5r=663.614.962.266.159。727.4~~一~~~49.Or=944.141.039.378.025。O63.6~一~一~一48.5r=1251.357.85l。532.365。872.7~~一一一一55.2u=9r=337.360.020。811.160.060.373.039.220.0一~~42.4r=613.833.333.361.767。520.52王.149.155.2…~39.5r=913.18.248。354.317.947.759.148.848.8一一一38.5r--1256.87.850.O9.350.O21.771.823.152.2一一一38.1u=12r=353.312.563.411.923.416.753.5l1.4《1.715.061.878.O36.9r=647.756.110.230.324.415.029.410.617。040.932.669.832.0r=958。363。618。645.54.323.95。461.848.138.528.29.533.8r=1262.818.450.986.152.014.628。05.4ll。422.658.319.435。8表5.2Brightkite数据集中讨论u和r的取值(单位:%)HMM一123456789101112Averageu--3r=360.086.056.6一一一一一一一一~67.6r=663.459.192。0一一一一一一…一一69.5一一一一一~一一71.5r=977.870.060.8r=1270.386.669.9u=6r=342.956.766。265.240.O25.O一…一…一49.3一一…一一75.6r=675.O44.437.276.052.862.5一一一一一一48.6r=974.179.240。828.347.O63.9一一一一一一44.3r=1226.088.933。332.09.872.543.8u=9r=371.864.638.王56.833.354,8017.822.239.3r=654.413.734.714.341.255.35王.233.315。834.9r=950.89.560.O50.89.344.440.021.912.035.4r=1223.265.414.731.827.828.163.321.983.339.9u=12r=360.014.661。533.314.365.111.16.77,116.74.067.730.1r=622.720.O62.26.524.114.323。877.876.09.010.729.43王.4r=912.554.410.732.064.06.99.517.234.824.18.769.728.7r=1222.233.3O47.622.712.172.5lO.316.044.43。377.830.2表5.1和表5.2的结果表示,在Gowalla中u=3,r=6和在Brightkite中u=3,r=12,,训练出来24西南大学硕士学位论文的模型最能表示用户群中的用户特性。实验结果与分析第二个评估是,用提出的模型预测下一次用户最可能的签到时间段。首先,每个测试数据的最后一个签到时间段记录被故意拿走。然后依次用之前定义的6个时间段替代最后一个位置,这样,每个用户群中的测试序列数量就会比以前多5倍。最后,在对应的HMM下计算所有替代序列的loglikelihood值,并统计测试数据集中真实观察到的数据在和它被替代后生成的所有测试数据中,能获得最大loglikelihood值的测试序列数目。在图5.7中,仍然假设在Gowalla中u--3,r=6,Brightkite申u=3,r=12,横轴表示Gowatla中的3个HMMs(Fig.5.7(a)),和Brightkite中的3个HMMs(Fig.5.7(b))。纵轴表示上一段提到的符合条件的数目。图例表示的意思如下:“testNum”在替代之前的在相应的模型中的测试数据的总数;“topNum”表示测试数据集中真实观察到的数据在替代的后生成的所有测试数据中,获得的loglikelihood值排在前三;“topl”表示测试数据集中真实观察到的数据在替代的后生成的所有测试数据中,获得的loglikelihood值最大。(a)Gowalla数据集(b)Brightkite数据集图5.7序列的loglikelihood值比较图5.7中,当测试数据集中真实观察到的数据在替代的后生成的所有测试数据中,获得的loglikelihood值最大时,表示训练的HMM能最大程度的生成观察到的数据。即,提出韵模型能够根据对应的用户的HMM进行推荐。一个特定用户的下一个最有可能的签到在某种程度上能够用提出的方法预测。测试数据中用户签到序列中的最后一个时间段可以用于推荐。同时,将提出的基于HMM的方法和cosine相似度方法做比较。在获得用户的签到序列并隐藏每条签到序列的最后一个时,计算目标序列和其它序列的cosine相似度,然后按照降序对结果进行排序。使用SR@20评估并发现最大的Successrate值是0.2,最小的Successrate值是0,平均的SUCCESSrate值是0.1。以上结果表示提出的方法能够在某种程度上预测用户下一时刻可能的签到时间段。第三个评估是,我们意图向用户下一时刻可能去的特定地址进行推荐。在用户被分为多个数据组并且每个组内的数据分为学习数据和训练数据。在每个用户类别中,记录对应每个时间段的所有位置ID。然后记录用户在不同时间段可能感兴趣的签到位置。结果以百分数形25西南大学硕士学位论文实验结果与分析式表示。这个百分数通过“CorrectNum”除“TotalNum”来表示。其中“CorrectNum”表示用户签到的序列的确发生在它的地址列表中。“TotalNum”表示对应模型中的所有测试数据数目。结果Gowalla数据中u=3,r=6,为32.54%,26.39%,和26.74%。结果表示,提出的模型能在某种程度上向用户推荐位置。5。3本章小结本章根据不同的数据集设计的不同的推荐系统框架,并做了一系列对比试验。实验结果表示,设计的系统能在某种程度上为用户解决兴趣发现等问题。26西南大学硕士学位论文总结和展望第6章总结和展望6.1全文工作总结目前几乎所有大型的电子商务系统,如Amazon、CDNOW、Netflix等,都不同程度地使用了各种形式的推荐系统。而近来以“发现”为核心的网站正开始在互联网上崭露头角,比如侧重于音乐推荐的八宝盒,侧重于图书推荐的豆瓣等等。那么,到底什么是推荐引擎,个性化推荐的前提、基本形式、具体应用有哪些呢?这些问题一直困扰着许多发达国家和发展中国家。解决推荐问题,不能盲目地靠增大学习数据集,人们认识到,只有科学的规划和设计推荐系统,才能更好地解决这一问题。对推荐系统的研究涉及的研究范围较广,需要一个宏观的系统分析方法。社交网络推荐系统主要围绕人与人之间的关系,人与人之间的相同的感兴趣内容。社交网络推荐系统可以借鉴运用多种模型处理数据,可以从多样的角度来看待问题,我们可以将推荐问题看做预测问题,或者将推荐问题看作传播问题,扩散问题,这些都给我们提供了解决提高推荐精准度问题的新思路。对社交网络推荐系统的研究还在热切发展中,本文主要从两个方向解决推荐问题。第一,就是依照传统推荐系统设计的思路,用贝叶斯模型统计分析用户偏好,运用LDA话题分析工具来剖析条目所属的话题,运用WordNet计算标签与话题之间的相似度,设计话题.用户矩阵为用户的偏好进行建模。第二,我们将推荐问题看作预测问题,运用隐马尔可夫模型预测用户下一时刻的签到时间段,通过将时间段与位置对应关系上,为用户推荐位置。6.2未来工作展望推荐系统的研究涉及的研究范围较广,包括信息科学,计算数学,统计物理学,认知科学等等多个方面,我们目前对它的研究和分析还比较肤浅,还有很多工作可以做,包括:将理论成果运用于实际问题,观察其效果,对现有工作进行评估和改进。兴趣图谱是社交网络发展的未来,社交网络是一个中表明“我认识你”的网络图谱,而兴趣图谱则是一种表明“我喜欢这个”的网络图谱。未来的社交网络必定是两个网络的整合物。使用LDA分析话题分布,为用户构建兴趣图谱。细化好友程度、信息源程度,计算每个条目对用户来说的可信任度。例如,将信息来源分为好友关系网1级,弱关系网2级。再根据用户本次信息需求进行推荐。可以全方位的考虑用户信息。考虑信息内容和用户关系对用户决策的影响程度,这是相对于每个用户的个性化参数。另外,对推荐系统的研究还有很多空白,已有的模型还有许多值得改进的地方,包括个性化程度、信息评级等。针对不同的数据集,推荐系统要考虑的参数不一致,针对不同的用户个体,推荐系统应当有不同的推荐偏重。未来,每个人都将有一个像“知己”一样了解自己的推荐系统,对于用户,省去很多思考环节就能阅读到自己感兴趣的数据,对于信息生产方,能够定点定投,提高推荐效果。对于网站运营商,能够更好的抓住客户源,推荐系统的引入能使多方裨益。27西南大学硕士学位论文参考文献参考文献[1】FreeMan,L.C.,CentralityinSocialNetworks:ConceptualClarification.SocialNetworks,V01.1(3),PP.215—239(1979)【2】余力,刘鲁.电子商务个性化推荐系统研究.计算机集成制造系统.10(10).Yu,L.,Liu,L.:PersonalizedRecommendationSystem.ComputerIntegratedE—CommerceManufacturingSystems,V01.10(10)(2004)[3】刘建国,周涛,汪秉宏.个性化推荐系统的研究进展.自然科学进展,19(1).Liu,J.G.,Zhou,T.,Wang,B.H.:PersonalizedScience,V01.1RecommendationSysteminProgress,ProgressinNatural9(1)(2009)[4】许海玲,吴潇,李晓东,阎保平.互联网推荐系统比较研究.软件学报,20(2).Xu,H.L.,Wu,X.,Li,X.D.,eta1.:ComparisonStudyofIntemetRecommendationSystem.JournalofSoftware,V01.20(2)(2009)[5】Salton,G.,Wong,A.,Yang,C.S.:AVectorSpaceModelforAutomaticIndexing.CommunicationsoftheACM,V01.18(11),NY,USA(1975)【6】Safavian,S.R.,Landgrebe,D.:ASurveyofDecisionTreeClassifierMethodology.Systems。ManandCybemetics,IEEETransactions,V01.21(3),PP.660—674(2002)[7】Cheeseman,P.,Self,M.,Kelly,J.,etal:BeyesianClassification.InConferenceonProc.:thefifthInternationalMachineLearning,V01.27(11),PP.54-64(1988)analysisand【8】Rowley,H.A.,Baluja,S.,Kanade,T.:NeuralNetwork-basedfaceDetection.PatternMachineIntelligence,IEEETransactions,V01.20(1),PP.23-38(2002)[9】Lu,L.Y.,Medo,M.,Yeung,C.H.,et97-169(2012)al:RecommenderSystems.PhysicsandSociety.V01.5,PP.[10】张晓艳,王挺,梁晓波.LDA模型在话题追踪中的应用.计算机科学,38(10).Zhang,X.Y.,Wang,T.,Liang,X.B.:LDAModelV01.38(10)(2011)[11】Shepitsen,A.,Gemmell,J.,Mobasher,B.,eta1.:PersonalizedRecommendationinSocialintheTopicTrackingApplications.Computer.Science,TaggingSystemsUsingHierarchicalClustering.InRecSys’10:ProceedingsofthefourthACMconferenceonRecommendersystems,NewYork,USA(2010)Ranking[12】Jin,Y.A.,Li,R.,Wen,K.:Topic-basedinFolksonomyviaProbabilisticModel.ArtificialIntelligenceReview,V01.36(2),PP.139—151(2011)[13】Ziegler,C.N.,McNee,S.M.,Konstan,J.A.,eta1.:ImprovingRecommendationListsthroughonTopicDiversification.InProc.ofthe14一thinternationalconferenceWorldWideWeb,NewYork,USA(2005)28西南大学硕士学位论文参考文献a1.:AnalyzingUserModelingon【14】Abel。FGao,Q.,Houben,G.J.,etTwitterforPersonalizedNewsRecommendations。LectureNotesinComputerScience,V01.6787,PP.1—12(2011)TagstoImproveFolksonomy。basedon【15】Cantador,I.,Konstas,I.,Jose,J.M.:CategorisingSocialRecommendations.WebSemantics:Science,ServicesandAgentstheWorldWideWeb,Voi.9(1),PP.1.15(2011)[16]Krestel,R.,Fankhauser,P.:PersonalizedV01.76(1),PP.61—70(2012)[17】Durao,F.,Dolog,P.:APersonalizedTag-BasedRecommendationinProceedingsofthe2010ACMSymposiumonTopic-basedTagRecommendation.Neurocomputing,SocialWebSystems.InAppliedComputing,NewYork,USA(2010)a[18】Nocera,A.,Ursino,D.:AnApproachtoProvidingUserofa“socialfolksonomy”withRecommendationsofSimilarUsersandPotentiallyInterestingResources.Knowledge—BasedSystems,V01.24(8),PP.1277一I296(2011)【19】Nakatsuji,M.,Yoshida,M.,Ishida,T.:DetectingOntology.WebSemantics:Science,Services107—120(2009)【20】Yin,C.X.,Peng,Q.K.,Chu,T.:PersonalPreferenceNetwork.PhysicalArtistRecommendationviaanditsaInnovativeTopicsbasedononUser-interestandAgentstheWorldWideWeb,V01.7(2),PP.ListeningandTrustA:StatisticalMechanicsApplications,V01.391(5),PP.1991-1999(2012)[21】Firan,C.S.,Nejdl,W.,Paiu,R.:The2007LatinAmericanBenefitofUsingTag-BasedProfiles.InProceedingoftheWebConferenceIEEEComputerSociety,Washington,USA(2007)on【22】Liu,J.G.,Zhou,T.,Che,H.A.,etal:EffectsofHigh—orderCorrelationsA:StatisticalPersonalizedanditsRecommendationsforBipartiteNetworks.PhysicalMechanicsApplications,V01.389(4),PP.881-886(2010)【23】Shang,M.S.,Zhang,Z.K.:Diffusion·BasedSystems。ChinesePhysicsRecommendationinCollaborativeTaggingLeRem,Vol。26(11)(2009)viaIntegratedDiffusionandon[24】Zhang,Z.K.,Zhou,T.,Zhang,Y.C.:PersonalizedRecommendationUser-Item-TagTripartiteGraphs.PhysicalA:StatisticalMechanicsitsApplications.V01.389(1):PP.179·186(2010)[25】YuZ.:TutorialonLocation-BasedSocialNetworks.(2012)andmodelinglocationhistories.In【26】Hariharan,R.,Toyama,K.:ProjectLachesis:parsingGeographicInformationScience,PP.106-124(2004)events[27】Quercia,D.,Lathia,N.,Calabrese,F.,eta1.:Recommendingsociallocationdata.InProcofICDM’10,PP.971-976(2010)frommobilephone【28】Noulas,A.,Scellato,S.,Lathia,N.,etal:ARandomWalkAroundtheCity:NewVenue西南大学硕士学位论文参考文献RecommendationinLocation.BasedSocialNetworks.InSocialCom2012:IEEEInternationalConferenceonSocialComputing.Amsterdam,TheNetherlands(2012)[29】张兵利,裴亚辉.贝叶斯网络模型概述.电脑与信息技术.16(5).Zhang,B.L.,Pei,Y.H.:andInformationTechnology,V01.1BayesianNetworkModelOverview.Computer[30】Visser,I.:SevenThingsto6(5)(2008)MarkovianRememberaboutHiddenMarkovModels:ATutorialonModelsfortimeseries.JournalofMathematicalPsychology,v01.55(6),PP.403-416(2011)【3l】Blei,M.,Ng,A.Y.,Jordan,M.I.:LatentResearch,W01.3,PP.993—1022(2003)DirichletAllocation.JournalofMachineLearning【32】WordNetW3COntology[EB/OL].http://www.w3.orgCXR/wordnet—rdf/[33]Xu,G.D.,Gu,Y.H.,Zhang,Y.C。:TOAST:AWISE’1l:Proceedingsofthe12thTopic·orientedTag-basedRecommenderSystem.onintemationalconferenceWebinformationsystemengineering,Berlin,Heidelberg(2011)[34】Lerman,K.:SocialNetworksColorado,USA(2007)[35】Gursel,A.,Sen,S.:ImprovingSearchinSocialNetworksbyAgentbasedMining.IJCAI’09:onandSocialInformationFilteringonDig.ICWSM’2007Boulder,Proceedingsofthe21stinternationaljointconferenceArtificialintelligence,SanFrancisco,USA(2009)[36】Wu,Z.B.,Palmer,M.:VerbSemanticsandLexicalSelection.ACL一94:Proceedingsofthe32ndAnnualMeetingoftheAssociationforComputationalLinguistics,LasCruces,NM(1994)ofthe15th[37】Lin,D.K.:AnInformation-theoreticDefmitionofSimilarity.InProceedingsInternationalConf.onMachineLearning,SanFrancisco,CA(1998)[38】Boneh,D.,Crescenzo,G.D.,Ostrovsky,R.,eta1.:PublicLectureNotesinComputerKeyEncryptionwithKeywordSearch.Science,V01.3027,PP.506-522(2004)a1.:Item—BasedCollaborativeFiltering[39】Sarwar,B.,Karypis,G.,Konstan,J.,etRecommendationConferenceonAlgorithms.InProceedingWWW’0tProceedingsofthe10也IntemafionalWorldWideWeb,NewYork,USA(2001)30西南大学硕士学位论文致谢致谢时光飞逝,硕士研究生的学习即将结束,三年的学习生活使我受益匪浅,获益良多。硕士论文终于完稿,回首大半年来收集、整理、思索、停滞、修改直至最终完成的过程,我得到了许多关怀和帮助,现在,我要向他们表达我最真挚的感谢。感谢我的导师,李莉教授。在论文写作和三年的专业学习中,我的导师给予了我最大的帮助,本论文的完成,离不开老师悉心的指导和严格要求。导师严谨的治学态度,精益求精的工作作风对我今后的生活工作中都影响深远。在导师的帮助下,我不仅树立了自己的学术目标,掌握了基本的研究方法,解决问题的办法,我也学会了许多待人接物与为人处世的道理。导师百忙之中,还时刻关注我们的研究工作,为我们提供及时的指点和帮助,许多重要的进展都与提供的各种资料和建议有关,令我非常佩服和由衷的感谢。感谢实验室的闻晓老师、伍胜老师对我学习的帮助。向你们的敬业专注学习,祝你们工作顺利!感谢实验室的全体同学们和可爱的师弟师妹们,感谢你们的付出和帮助。祝你们学业有成!将来一切顺利。感谢我的好朋友吴雨横,他对我的学业给予了很多帮助,让我的求学之路走得更加顺畅!感谢他在生活上和学业上的照顾。最后,感谢我深爱的家人,感谢你们对我默默的支持。李佳玲2013年4月于西南大学西南大学硕士学位论文发表论文与参与课题硕士期间发表的论文和参与的课题发表的论文:.JialingLi,LiLi,YuhengWu,ShangxiongChen.AnImprovedRecommenderBasedonHiddenMarkovModel[C].PRICAI2012:870—874.JialingLi,LiLi,XiaoWen.ACollaborativeFiltering2012.RecommendationSystemCombiningSemanticsandBayesianReasoning[C].AusDM32基于社交网络的推荐系统研究
作者:
学位授予单位:
李佳玲西南大学
本文链接:http://d.g.wanfangdata.com.cn/Thesis_Y2308330.aspx