数智资源网
首页 首页 人工智能 查看内容

40亿移动设备的用户画像和标签架构实践

木马童年 2020-10-17 08:49 30 0

大家好,我是王鹏,很高兴在这里和大家一起探讨大数据的应用。说起大数据的应用可能很多朋友们脑子里边第一映像就是画像,我想从以下几个方面跟大家聊聊画像相关的事情:1、什么是画像;2、画像的用处;3、如何进行用 ...

大家好,我是王鹏,很高兴在这里和大家一起探讨大数据的应用。

说起大数据的应用可能很多朋友们脑子里边第一映像就是画像,我想从以下几个方面跟大家聊聊画像相关的事情:1、什么是画像;

2、画像的用处;

3、如何进行用户画像;

4、画像应用中的难点。

40亿移动设备的用户画像和标签架构实践

什么是画像呢?

可能大家看到过一些外文资料或者演讲中出现过profile一词,其实和画像是一个概念,都是从不同的维度来表达一个人,这些维度可以是事实的,可以是抽象的;可以是自然属性,比如性别、年龄;可以是社会属性,比如职业、社交特征;可以是财富状况,比如是否高收入人群,是否有固定资产;可以是家庭情况,比如是否已经结婚,是否有孩子;可以是购物习惯,比如喜欢网购还是喜欢逛商场;可以是位置特征,比如在哪个城市生活;可以是其他行为习惯。总之,所有大家能想到的描述一个人的特征的都可以算作是画像的范畴,画像其实就是想方设法用数据来描述人的特征。

画像有什么用处呢?

大家之所以要进行用户画像,就是为了解决业务问题,或者为了拓展一个新用户,或者为了获得一个新订单。想要获得新用户,首先必须知道自己产品定位的用户画像(也就是用户长什么样子,有什么行为特征),而很多产品设计的时候可能由于定位不清晰,对用户的了解不够,导致最后产品上线后效果与预期大相径庭。

这里举一个例子,A银行的电子支付团队计划与Uber公司合作,在春节后以短信推送优惠劵的方式进行营销,选择了多类人群进行投放,其中有“有打车需求且有车”和“有打车需求且无车”两类人群,本以为“有需求且无车”人群的广告触达的营销效果会更好,结果却完全相反,“有需求且有车”人群的广告触达的比例反而最高。这可能映射出无论是开车还是打车,习惯了车反而离不开车。用数据来画像正是帮助企业了解用户和定位产品的最直接的方法。

综上我们可以看到要向更好的解决业务问题,首先必须明确业务目标,而用户画像是帮助企业明确目标客群的重要手段之一。当企业了解了自己的用户都长什么样子以后,接下来的任务就是如何将有类似画像特征人群的潜在用户变成自己的用户,也就是在营销上获新客的过程。所以,从大的框架来看,用户画像承载了两个业务目标:一是如何准确的了解现有用户;二是如何在茫茫人海中通过广告营销获取类似画像特征的新用户。

如果仔细琢磨这两个目标,其实在根源上逻辑是有些相悖的。了解现有用户的画像,需要的是少量、画像特征覆盖度全面的无倾斜的精准样本,这样能更精确的定位产品的用户。而通过画像结果做广告营销获取新用户,在一定程度上需要的是大量的相似样本。量的大小和精准度的不同决定了后续画像模型在应用设计中的不同。

提到用户画像就不得不提到一个词“标签”。标签是表达人的基本属性、行为倾向、兴趣偏好等某一个维度的数据标识,它是一种相关性很强的关键字,可以简洁的描述和分类人群。标签的定义来源于业务目标,基于不同的行业,不同的应用场景,同样的标签名称可能代表了不同的含义,也决定了不同的模型设计和数据处理方式。

举个例子,如果一款卖男装的app想在近期做营销,只筛选“男性”和“网络购物”这两个标签进行投放,可能效果并不一定理想。因为“性别(男/女)”可能有多种维度,真实性别男女是一种维度,网络购物特征男女是一种维度,性取向男女可能又是另外一种维度。因为网络的发展,你甚至都不知道网络的另一端是不是一个人,更何况是男女呢。想要正确的设计标签模型和计算处理数据,必须了解画像标签应用的场景和目标。

接下来如何进行用户画像呢?

这完全取决于业务目标(需要什么样的画像标签)和有什么样的原材料(有什么类型的数据源),基于这两样才能确定使用什么样的模型设计和数据计算处理方式。就像做菜一样,要做一顿美味的晚餐,必须知道客户是想吃中餐还是西餐,配菜都有哪些鱼蛋肉和蔬菜,然后才能确定牛肉是红烧还是煎炸。

仍然以性别(男/女)为例,尝试演绎一下刚才的三个场景。

如果业务是征信场景,想知道的是这个人的真实性别(男/女),在没有全量真实数据的前提下可以采取如下的方法来处理,可以选取少量真实样本,使用这些真实样本追加一些特征因子,使用lookalike算法进行样本扩展,将该少数样本特征扩展到大量或者全量数据。当然,这些数据的准确度取决于样本的均衡程度和算法的质量。

如果业务是网络购物的电商场景,我们先不尝试判断真实购买男装的是否是男性(很多已婚人士是妻子负责网购丈夫的装备),仅仅考虑将来该网络账户实体是否会购买男装的角度考虑,需要的是“男装购买倾向”的标签,可以直接基于所有账户实体以往购买记录来计算处理该标签。

如果是业务场景是blued(一款同志交友app)定义的男性又是另外一个特殊群体,基于客户想拓展新客,这里定义的特殊男性群体或许可以定义为“男性同志”标签,而实现该标签可以考虑通过安装了类似同志交友的app人群或者以同志人群经常出现的聚集地进行计算处理。

所以说针对不同的行业,不同的应用场景,需要使用不同的数据源进行不同的标签设计和计算。

说起标签,可能每个行业有每个行业的标签体系,各个公司基于自己的数据源和特征不同也设立了不同的标签体系。我认为这些标签都可以归纳为以下几个方面。

人口属性:包含性别、年龄等人的基本特征

资产情况:车辆、房产、收入等资产特征

兴趣特征:阅读资讯、运动健康等兴趣偏好

消费特征:网上/线下消费类别品牌等特征

位置特征:常驻城市、职住距离等

设备属性:所使用终端的特性等

要支持以上这些标签的设计和计算,需要多种维度的数据源,从产生维度来看:可以包含PC端的数据、移动终端的数据、线下的数据;从数据拥有者来看:可以包含一方客户自己的数据、外部官方渠道的数据、市场采集的数据;从数据类型来看:有社交数据、交易数据、位置数据、运营商数据等。                

大数据 用户画像 社会属性 产品设计 电子支付 应用场景
0

最新评论(0)