基于社交数据挖掘的个性化新闻推送研究
胡玮 首都经济贸易大学信息学院 摘要:本文通过研究在个性化推荐领域的相关研究成果,针对新闻推送实时性、准确性、新颖性等几个方面的需求,针对其时效性问题、冷启动问题、数据稀疏性问题、可扩展性问题,提出采用社交数据挖掘的方式进行个性化新闻推送的想法与研究思路。 关键词:社交数据 新闻推送 个性化 一、引言 随着计算机技术和互联网技术的飞速发展,为人们自由获取全球范围内的信息提供了条件。信息获取经历了手工、计算机以及当前的网络信息获取。通过互联网,用户可以接触到各种各样的信息,但随着大数据时代的到来,面对爆炸式的信息增长使人们面临着一个迫切而严重的问题,那就是信息过剩。能够在最短时间内获取需要的信息是人们当前的迫切需求。 为解决信息过剩,更好的服务用户的目的,个性化信息推送应运而生。个性化信息推送技术通常是建立在海量数据挖掘基础上,通过对用户的历史信息、行为的分析,过滤用户不感兴趣的信息,并预测其偏好及潜在的兴趣而进行有效的推荐,它使用户不必“大海捞针”式地搜集信息,而由服务器主动、及时把用户感兴趣的信息推送给用户,用户可以“以逸待劳”地坐等信息到来。人机系统中,机器是为用户工作的。如果机器能够主动地为用户工作,就会减轻用户的脑力或体力劳动强度。因而在很多领域和环境中,被服务者都要求对方为自己提供主动的服务。 由于新闻实时性、准确性和新颖性的特点,新闻媒体同样面临着信息量过大等问题,正是信息的过于丰富,往往使浏览网站的用户无法快速找到自己需要的内容,造成时间的浪费。网站本身的无用信息过多,也造成了资源的浪费。因此新兴的新闻媒体开始釆用个性化新闻推送机制这方面的研究也不断涌现。 二、国内外研究综述 1、国外研究状况 国外对于个性化推荐技术方面在各领域的应用研究较早。在个性化广告方面,2003年,Google创立了AdWords盈利模式并添加了个性化元素。不仅仅关注单次搜索的关键词,而且对用户近期的搜索历史进行记录和分析,据此了解用户的喜好和需求,更为精确地呈现相关的广告内容。由于精确定位的广告营销方式引领了一个新的个性化应用领域,精准营销,在近年来得到越来越多的大数据公司的采用。比如,2007年雅虎的SmartAds广告方案。2009年ChoiceStream公司制作的个性化横幅广告方案等都创造了很高的点击率和商业价值。 电子商务领域,亚马逊是第一个将协同过滤机制的推荐大规模应用于电子商务网站的商品推荐的公司,在亚马逊购物的过程体验中,用户所得到的商品推荐会随着用户交互的增多而变得更加准确。 新闻与内容阅读推荐的研究方面,A.Borchers等人在研究信息过载的问题时就指出协同过滤是解决信息过载和推荐问题的有效方式,Mai-Vu Tran等对于用户兴趣模型的研究将新闻推荐研究与实体与个人兴趣模型联系在一起。近年来,随着移动互联网的不断发展,移动新闻个性化推荐也成为新的热点。 2、国内研究现状 近几年以来,为满足用户及时获取个性化信息的需求国内许多专家也对此提出新的方向。周文鹏利用数据挖掘中的聚类分析方法对Web 日志数据进行聚类, 对网站已有用户的访问行为进行划分, 得出各类别用户网页推送的数据集;采用关联规则方法提取聚类结果中各个簇的访问规则,完成个性化页面推送服务。徐青云通过研究信息推送技术的特点,提出了相应对策,并认为在目前“ 推送” 技术的基础上融入人工智能、知识发现技术、Internet 及数据库技术, 从而形成“智能信息推送” 技术, 是“ 推送” 技术的一个发展方向。 为了解决在移动网络环境中信息推送不可靠、推送方式和推送信息类型单一等问题,在传统基于固定网络的信息推送技术的基础上,廖轶宸开发了一套适合移动网络的混合型信息推送系统。结合用户身份信息、用户订阅的主题、用户所属的任务信息、用户所在位置和通过数据挖掘获取的用户潜在兴趣等信息,对系统中的信息进行过滤,并将过滤结果推送到客户端。允许管理人员选择推送方式,支持多种信息类型推送,并对推送结果进行反向跟踪,从而有效满足了移动环境下信息推送的需求,在实际的应用中也取得了很好的使用效果。 目前基于信息用户兴趣、爱好的个性化的信息推送服务有了更大的发展空间。郑晓宇研究了构建基于用户兴趣挖掘的个性化信息推送模型与方法体系, 并以此为基础提出个性化信息推送服务框架。于辉辉等研究在对农业信息化技术发展现状和农户的实际需求分析的基础上,构建了用户兴趣模型,利用信息推送技术设计实现了个性化农业信息推送系统。该系统可构建动态用户兴趣模型并对其实时更新,实现了有效、准确的农业信息推送。 当前围绕泛在信息推送服务的研究主要聚焦于情境感知和物联网技术,却忽略了不断累积的情境数据会形成一个海量的历史情境数据库。随着大数据技术的不断发展和成熟,可尝试引入数据挖掘技术,分析聚类用户兴趣模型,辅助泛在信息的推送决策。张静将情境感知技术和数据挖掘技术同时引入泛在信息推送服务,以物理层和知识资源层为泛在信息服务,推出基于情境感知和数据挖掘的泛在信息推送服务体系。 在国内,个性化推荐领域从商业到研究机构也不断涌现出不少新的应用领域和产品,如淘宝网当当网的电子商务网站商品推荐系统、北京百分点的相关内容推荐引擎、杭州载言网络的推荐系统、无觅网的新闻推荐、今日头条推荐等都在内容个性化推荐方面做出了很多尝试。 三、研究方案 1、研究目标 国内新闻网站在新闻推荐方面的尝试相对还比较新,之前的国内新闻网站往往为了抓住用户眼球,提高用户点击量,在其主页放置大量的新闻信息入口,因为网站无法得知用户喜欢的内容是什么。几大门户网站在这方面最近已经有所精简,但仍然有着非常庞大的主页。用户往往需要从首页的幵始浏览到底,找到自己喜欢的大类,或者感兴趣的冷门小类的突发事件,点击进入后还要在大类或者小类内部进行二次査找,用户所花费的时间和精力都很高。 新闻推荐系统需要为用户提供更加方便的新闻阅读体验,因此,在整个的系统设计当中需要考虑实时性、准确性、新颖性等几个方面的需求: 实时性:新闻的一大特点就是实时性要求高,尤其是对于突发事件或者爆炸性的新闻,需要达到分钟级别甚至更快的反应速度,因为新闻属于免费的快消品,各大新闻网站比拼的就是速度。另外一个实时性要求就是在用户幵始使用系统的时候就需要有一定的新闻推荐内容已经呈现给用户了。 准确性:准确性主要用和来衡量,用户所看到的推荐内容需要达到较高的用户兴趣匹配。如果用户翻了两屏仍然没有发现自己兴趣内的新闻,说明匹配算法本身的准确性需要提高。另外,在相关新闻推荐部分,和当前阅读的新闻相关的内容也需要达到很高的相关准确度,确保有相关但是无重复。很多的研究也在围绕解决这一问题而进行。 新颖性:这一需求在前面的算法描述的章节中有所涉及,如果呈献给用户的都仅仅是用户自己兴趣范围内的新闻而没有新的内容,用户会对推荐内容感到疲劳。因为系统没有发掘新兴趣的能力。 为了满足这几个方面的需求,基于四种现有主流的个性化推荐系统,针对其时效性问题、冷启动问题、数据稀疏性问题、可扩展性问题进行比对研究,提出采用社交数据挖掘的方式来增强推荐的准确度,提高推荐精准度和召回率,改善系统可扩展性和自动更新能力。 2、研究思路 针对需要目前现状的需求,提出以下想法: (1)了解个性化新闻推荐技术的现状、相关技术以及应用。与新闻推荐相关的推荐技术总是在不断地发展和完善过程当中,釆用何种推荐技术作为基础,需要针对不同的场景解决不同的问题。了解需要涉及到的主要推荐相关技术,为算法的改进和系统的实现进一步提供了清晰的解释。 (2)了解、分析现有的相似度计算方法的优缺点,研究冷启动问题和信号数据稀疏性问题一般来说,新闻中的冷启动问题分为三种:A、用户冷启动:无用户历史记录;B、新闻冷启动:目前不在用户兴趣范围内的新闻可能用户也感兴趣;C、系统冷启动:系统新上线,如何在没有用户行为而且只有有限的物品信息的前提下给用户推荐。针对遇到的冷启动问题提出解决方案,并分析内容推荐的主要方法。 (3)研究目前个性化推荐中基于内容的推荐以及基于协同过滤的推荐,并分析其优点和不足。将社交信号集成到混合推荐模型的信号当中。 (4)将社交网络的信号引入新闻推荐当中,基于sql server平台实现上述的个性化新闻推荐技术,使其能够并行化执行。 (5)以新的混合式推荐方法为基础,研究如何较好改进用户推荐结果的方法,实现最终的个性化新闻推送。 通过研究并综合了在个性化推荐领域的相关研究成果,本人认为将社交化的用户信号量应用在个性化新闻推荐系统当中,主要思路包括:在新闻网站登录社交账号,将用户的社交信号与新闻用户的点击历史记录相结合;更加准确的判断用户兴趣,给出更合理、准确、综合的推荐结果。创新性地提出以用户社交维度为辅助信号量计算用户兴趣模型,并且通过公众兴趣以及反馈机制提高推荐准确度。以上述思路为出发点,结合实时性、数据规模、推荐准确度等因素,实现了一个个性化的新闻推送。为改进新闻推荐的实时性、新颖性、准确性、冷启动等问题提供了一种新的思路,在此基础上,可以进一步细化用户信号对于推荐过程的作用,扩展到其他信号量如搜索记录或者其他社交来源从而进一步提高用户、新闻的匹配精确度。 四、总结 近几年我国互联网的飞速发展,互联网上的文字、图片、视频等信息量已极大丰富,传统的单向浏览点播的模式效率已越来越低。个性化信息推送服务已是目前比较流行的技术,应用相当广泛。新浪微博,百度地图等都有信息推送的业务。随着网络的飞速发展,个性化信息推送这项技术必将越来越重要。 虽然已经出现了很多个性化信息服务模式,但是仍有很多理论和技术值得继续研究。比如,如何将大量的用户信息和企业的商业信息聚集到一个平台上,如何通过用户的上网记录分析他们的偏好,如何更合理地挖掘用户的数据,并对此进行精准推送,如何将商业信息推送到客户端层面而又使他们乐于接受。这些方面仍需要我们对此进一步的研究。 参考文献: [1]维基百科[EB/OL]. [2]Linden G,Smith B,York J. Amazon.com recommendations: item-to-item collaborative filtering. Internet Computing[J].IEEE (2003), 76-80. [3]A. Borchers,J.Herlocker,J.Konstan and J.Riedl.Ganging up on information overload[J].Computer,2005, 31(4):106-108. [4]Mai-Vu Tran, Xuan-Tu Tran, Huy-Long Uong.User Interest Analysis with Hidden Topic in News Recommendation System[C]. International Conference on Asian Language Processing,2010. [5]K. Yeung, Y Yang.A Proactive Personalized Mobile News Recommendation System[C].Proc, 3rd Int. Conf. on Developments in eSystems Engineering, IEEE, 2010. [6]周文鹏.基于数据挖掘的个性化网页推送服务模式研究[J].计算机与数据工程,2010. [7]徐青云.信息推送在个性化信息服务中的发展趋势[J]现代情报,2010 [8]廖轶宸.基于移动网络的混合型信息推送系统的研究[J].计算机工程与设计.2012 [9]郑晓宇.基于用户兴趣挖掘的个性化信息推送服务[J].情报探索,2011 [10]于辉辉,屠星月,郭承坤.基于用户兴趣模型的个性化农业信息推送系统[J].江苏农业科学,2015 [11]张静.基于情境感知和数据挖掘的泛在信息推送服务研究.[J]现代情报,2014 [12]江秀佳,何源光.国内点子上购物个性化推荐系统改进研究闭.图书情报工作,2009,53(16):137-140. [13]蒲国林,王刚,向伟,杨勇智.基于内容的个性化新闻推荐[J].四川文理学院学报,2013,5:57-60. |