大数据背景下用户画像的统计方法实践分析
张毅 对外经济贸易大学 摘要:大数据背景下用户画像的统计方法实践,需要掌握基础数据以及用户画像的内涵,根据用户画像体系研究以及统计方法分析,结合协同过滤统计算法,准确归纳用户画像相关内容。目的在于帮助用户画像更好的融入到智能化生产体系中,推动智能化发展。 关键词:大数据;用户画像;标签体系;协同过滤 大数据发展范围拓展,用户画像统计方法研究是大数据发展以及数据传输的重要内容。据相关报道,2018年中国移动互联网市场规模达11.39万亿,至2018年底,我国网民规模达到8.29亿,全年新增网民5663万,互联网普及率达59.6%,较2017年底提升3.8个百分点,超过全球平均水平2.6个百分点。 由于智能移动设备的广泛应用,用户数据迅速增加。在此背景下数据工作者更应该进一步确保数据的准确性、动态性、实时性以及空间性,结合大数据大容量、高效性、速度快等优势,以数据建模的形式进行用户群体划分,做好用户画像统计,发挥出用户画像的应用价值。 一、用户画像浅析 用户画像又被称之为用户角色,是用户数据分析的主要内容[1]。用户画像针对明确的目标用户加以勾画、联系与设计,使其本身具备具象化特征。用户画像的勾画,必须清楚掌握用户姓名、产品信息等,还需要具备真实性、独特性、目标性,能够应用准确词汇描述用户画像,这样才能将不同维度的标签抽象的描绘出来,这也同时实现了企业发展中信息标签化的要求。用户画像属于用户信息标签集合,属于用户信息勾画的实体,是在现实中真实存在的。用户画像信息多元化,由目标、组织、验证、方式以及标准等组成,包含文字、视频、各种数据信息、语言以及图像等,打造成共识体系,详细对人物进行刻画,形成数据建模。用户画像包括多个标签,其本身作为标签集包括不同层级,不同层次划分不同空间,体现不同内容,其中包括人口属性、购物偏好、营销特征等内容,从微观示例角度将不同层级贴上不同标签。 二、大数据背景下用户画像体系统计方法研究 (一)标签体系统计分析 大数据背景下,用户画像统计方法中,标签体系是统计分析的主要内容,统计数据类型较多,关系信息、业务系统等,大数据弥补了传统数据分析中信息缺失或者统计不及时等不足,实现了全方位的用户画像,提高了准确性。尤其是物联网、互联网发展速度加快,数据信息渠道增多,在这种情况下,实现更加准确地描绘用户,必须囊括尽可能多的用户信息,产生不同的信息维度。用户画像的对象可以是企业、用户或者某一固定事物等,通过不同维度进行信息描绘与匹配,从而衍生出其他系统,进一步满足客户需求[2]。结合用户画像信息的深入研究,实现实时性数据观察,做到用户画像统计的前后贯穿,跟随信息变化不断增加用户画像内容,及时对用户画像内容加以修正以及完善。 (二)标签体系应用情景分析 标签体系统计方法的实践应用,必须明确标签体系在建立期间所涉及到的各种信息内容,及时对这些内容进行总结,标签体系在信息分析与研究下基本构成。积极以统计分析角度出发,明确用户画像中的指标,做好主观、客观指标的转换,从而获得用户画像更详细的特征,确保其与用户群体信息更为接近,为精准服务的提供创造有利条件。 (三)标签体系研究 标签体系研究,必须认识到标签属于特殊符号,标签本身具备种群性特征,能够科学归纳事物,并且完成抽样分析。标签以符号的形式体现画像内容,其体系主要以层级构成为主,通过标签内容汇集成用户画像信息,因此标签体系十分重要。根据标签体系,才能完成用户画像的数据清洗以及挖掘、建模以及归纳。用户画像标签层级一般包括业务层、模型预测层、营销模型预测层、原始输入层、事实层等。其中原始输入层,主要针对用户数据信息展开,比如会员信息、网络数据信息以及各种消费、出行信息等,为事实层提供依据。事实层则包括用户信息验证,具体涉及到性别、籍贯、身高、年龄、学历等,事实层信息具有具体性特点,是信息检验的主要对象[3]。模型预测层以统计建模为主,通过获取的数据信息完成建模统计,随后完成用户画像预测,从中挖掘更多用户画像信息,满足用户画像统计的要求。营销模型预测的主要对象为服务质量,这是统计方法中的重要步骤,利用标签为基础,打造适当的营销模型,以此做好预测工作,提升营销模型服务质量。业务层的标签体系主要为反馈层面,通过业务逻辑的方式体现出用户画像特点,得到新的用户画像数据,作为后期统计分析的原始数据。 三、大数据背景下用户画像属性的统计方法 大数据背景下用户画像统计方法,简单概括就是针对用户属性加以统计,结合用户画像标签体系,及时统计用户属性,从而深入挖掘特征,准确对用户流失情况进行预测。 首先创建标签体系,以用户使用手机的情况为例,选定用户常使用的APP,从中划分游戏类、实用类、生活类、通讯类、多媒体类。结合APP分类详细划分二级分类、三级分类。 其次详细描述用户属性,从自然属性角度进行划分,将标签体系中的内容分为可以衡量的属性与不可以衡量的属性,由此掌握用户画像属性与用户标签之间的关系。根据不同类型其分析用户偏好,此次衡量的主要方法为TF-IDF,用户对于不同类型的喜欢会呈现出不一样的衡量数值,从中得知用户画像自然属性,并且深入剖析分类内容的关系。 最后根据属性分析与大数据技术,构建用户画像结构。其中大数据技术在应用中有固定的生命周期,根据分类内容将生命周期划分为数据生成、获取、存储与分析。数据生成阶段,根据用户使用客户端所提供的信息,获取相应数据。根据生成的数据内容获取其中的有价值信息,并且进行信息存储,为后期用户画像统计提供参考。 四、用户画像在大数据背景下的统计方法 (一)以内容为主的用户画像统计推荐方法 根据大数据提供的信息与数据统计技术,用户画像中早期内容统计,主要以信息检索、信息过滤为主。结合数据内容为载体所进行的推荐算法,主要以现有的数据统计内容,去分析各种用户行为。以电商购物场景为例,通过分析用户所喜欢的物品或者已经购买的物品,进而从相似角度加以推荐。具体推荐主要包括三方面,首先是详细浏览用户所喜欢的物品记录,及时提取相关特征;其次是统计浏览的数据资料,结合购买记录与收藏记录积累更多特征信息;最后是根据所掌握的特征信息去选择最具相似的相关物品。以内容为主进行用户画像推荐,具备操作简单、统计便捷、计算成本低等优势。并且此方法不需要进行过于详细的用户数据分析,当然这也导致该方法在应用中频繁出现稀疏、准确定低等问题。虽然能够很好的掌握用户购买过的物品特征,但是却不能保证其为用户感兴趣的信息,实际性的数据特征较少,所以统计准确性受到质疑。 (二)协同过滤推荐统计算法 用户画像协同过滤推荐统计算法的应用与实践,结合用户画像分类属性中社交网络类别为基础,去统计其中隐藏的关系,这需要收集相关的历史行为数据,通过历史行为数据去统计用户感兴趣的内容,并且进行数据计算。协同过滤统计中,必须将分散的数据集中起来进行整体性分析,挖掘其中隐藏的用户组关系,准确掌握数据变化的逻辑性。数据逻辑性变化关系还可以从物品信息中获得,及时上传到用户画像统计系统中。从系统不同对象细化类别,可以以用户协同过滤算法为主,同样也可以选择物品过滤算法为主,选择的对象不同,所得到的用户数据信息存在一定差别,统计的结果也会出现不同[4]。协同过滤统计推荐算法的实际应用,首先明确协同过滤的目标,根据目标数据统计找到与之相关的相似用户,创建用户数据集合体系;其次及时提取相关数据,统计用户个人喜好,并且推荐相关产品。 协同过滤统计算法研究,根据收集数据信息的相似度不同,去统计感兴趣的物品,同时推荐没有购买过的物品,提供更多建议。用户画像协同过滤统计,必须以大数据平台为载体,对相关数据进行准确分析,这样才能确保用户行为特征统计准确,并且从中发现用户之间所存在的关联性。协同过滤统计方法首先需要准确计算物品数据信息,评估物品相似程度,其次是根据目标用户画像与相关历史行为,从中分析出购买习惯,结合相似度进行综合统计分析。相似物品之间不需要重复推荐,拟定高度相似列表,为用户画像统计推荐提供方便。历史行为下的数据信息统计,针对单独物品进行行为分析,其准确性不高,甚至还会影响到统计的最终结果。 五、大数据技术下的用户画像统计方法实践应用 (一)构建大数据平台技术框架 统计方法的实践应用主要以大数据技术为基础,结合用户画像相关信息资源,构建大数据平台技术框架,存储大数据信息资料,有效分析与处理信息,挖掘其中的数据信息价值,并且将用户画像相关的基本信息及时存储在大数据资源文件中。数据信息多元化,并且基数十分大,大数据计算分析与统计,要以MapReduce/Spark技术展开,确保数据计算、统计的准确性。 (二)选取适当的统计挖掘工具 大数据平台背景下,用户画像的统计方法实践操作,要求准确选择适当的统计挖掘数据,常用挖掘工具以怀卡托智能分析环境为主,简称为WEKA。作为数据挖掘算法的关键性数据分析与统计平台,WEKA不仅能够对数据进行有效的预处理,同时包含大量机器学习算法,及时进行数据回归、分类、关联以及聚类等处理,真正实现用户画像统计的可视化。联合Hadoop,有效将大数据信息存储与用户画像统计相结合,真正做到大数据基础上的用户画像统计。 (三)用户画像数据构架详细统计 用户画像数据构架的详细统计研究,第一步是及时将用户画像相关信息进行提取,从不同维度完成提取,将信息划分为用户画像的兴趣动态类型与属性静态类型。其中属性静态类型的数据信息,主要从用户画像信息统计中注册的账户信息获取,还包括部分人工标注信息。用户兴趣动态类型下数据信息的获取,主要以用户画像相关数据归纳总结为主。用户画像系统运行期间,统计分析的难点在于标签处理以及存储。在数据平台中创建标签数据库,及时将数据标签内容加以展示。按照信息的属性与不同维度,确保标签属性不随意发生变化。但是在动态信息下信息维度会出现变化,其变化主要以时间为主。标签存储中需要随时添加或者删减用户信息,确保标签信息的准确性与实时性。 (四)协同过滤算法下的统计引擎 协同过滤算法作为用户画像统计的主要方法,其统计的关键在于兴趣爱好统计以及用户画像推荐相似统计。结合大数据统计去分析用户兴趣偏好,这样就可以准确锁定相似物品,并且及时推荐相似产品,寻找相近目标,形成目标推荐体系,确保用户画像统计的准确性与广泛性。结合统计计算的方式衡量用户画像向量,设定阈值,寻找相似的用户画像信息,从中统计出数据属性,及时为目标用户推荐相近物品。 六、结束语 综上所述,用户画像统计方法在大数据背景下,创建标签体系,及时将数据信息加以归纳,同时挖掘与提取有价值的信息,以此获得信息特征,并且完成统计数据建模。协同过滤推荐统计算法下,及时反馈数据信息,通过动态调整的方式,确保统计准确性。 参考文献: [1]董丽.基于用户画像的高校图书馆精准服务研究——以美国北卡罗来纳州立大学和中国社科院为例[J].图书馆界,2018,167(06). [2]王庆,赵发珍.基于“用户画像”的图书馆资源推荐模式设计与分析[J].现代情报,2018(3). [3]席岩,张乃光,王磊.结合大数据技术的用户画像推荐方法研究[J].有线电视技术,2018,341(05). [4]谈松英,杨敏.大数据分析视野下的用户画像及其在开放教育中的运用研究综述——基于知网2010-2017年全文收录文献的数据分析[J].中国教育信息化·基础教育,2018(8). |