当今社会,智能手机已经成为人们日常生活中必不可少的一部分。智能手机有很多不同的功能,用户可以通过安装应用程序(Apps)来获取多种服务。近年来移动应用市场迅速发展,据统计,截止到2020年第三季度,苹果的AppStore里有近196万个Apps,谷歌的安卓应用市场里有近287万个Apps。智能手机Apps被认为是用户获取各种服务的入口。用户可以根据自己的兴趣、需求、习惯等来安装和使用Apps。而在用户使用Apps的过程中,会产生丰富的历史数据。Apps数据能够有效地传递用户个性化信息,成为一种新的用户画像途径。利用手机Apps进行用户画像,是指分析手机Apps数据,探索用户属性与Apps数据之间的相关性,并从中提取关键特征,挖掘和描述用户特性。近年来已有很多通过手机Apps进行用户画像的工作,例如推测用户基本属性、兴趣、偏好和习惯等。
常用的Apps数据收集方式有三种:(1)设计开发专门的软件,收集需要的Apps数据,例如AppSensor、AppJoy。由于开发权限的限制,目前大部分的Apps数据收集软件是在安卓系统上实现的,iOS系统上的比较少。(2)开发收集手机感知数据的平台,例如Funf、Aware、Caratproject,其中包括Apps相关的数据,例如运行的Apps、安装的Apps列表等。(3)由与学术机构合作的公司提供。公司在保护用户隐私的前提下收集数据,学术机构与该公司签订保密协议,合法使用数据集。我们将手机Apps数据大致分为4类:Apps安装列表、Apps使用记录、Apps安装行为以及Apps基本信息。
Apps安装列表是指安装在一部手机上的所有Apps。手机Apps安装列表相对容易获取,列表数据通常包含匿名用户ID、App安装包名(一个App安装包名对应唯一的一个App)以及App安装包对应的App名称。手机上安装的Apps能够比较直观地反映用户的兴趣或需求,但在有些情况下不是很准确。例如,用户只是想试用某个App,安装后就不再使用或者很快卸载。
Apps使用记录反映了手机用户与Apps的交互情况,包括使用Apps的时间、时长以及使用频率。常见的Apps使用记录收集方法有两种:(1)事件驱动的采样,当某个App被使用或者被启动时,收集对应的记录;(2)按时间采样,在一定的时间间隔内收集Apps的使用记录。不同的用户在Apps使用方面存在一定的差异。这些差异可以帮助我们从Apps使用记录中推测用户的特性。但是,目前Apps使用记录数据集仍存在一些不足。例如,Apps使用记录采集的时间粒度比较粗,可能会导致一些信息丢失;或者不能收集所有Apps的使用记录,一些在后台运行的Apps使用记录未被收集。
Apps安装行为包括Apps的安装、更新、卸载以及对应的时间戳。Apps安装行为记录包括匿名后的用户ID、时间戳、对应的App安装包名以及行为类型。目前规模较大的Apps安装行为数据集的安装行为日志由豌豆荚管理软件记录并收集。一些Apps的安装或卸载通常是手动完成的,这些行为能比较有效地反映用户对某个App的偏好。但用户不经常手动更新Apps,甚至默认Apps自动更新,这样的行为日志会存在一定的偏差。
Apps基本信息包括图标、介绍App功能的文本描述、App类别、评论以及下载量。相对于其他Apps数据,Apps基本信息比较容易获取,可以从Apps应用市场上爬取到。Apps基本信息可以帮助我们进一步理解用户安装某个App的意图。因此,Apps基本信息,尤其是Apps描述和Apps类别,通常与其他类型的Apps数据一起使用。虽然Apps基本信息相对容易获取,但也存在一些局限性。例如,一些Apps的评价和评分非常稀疏,同一个App在不同的应用市场被标记的类别不一致,很多Apps的文本描述十分有限等。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.