数智资源网
首页 首页 大数据 大数据分析 查看内容

预测分析技术让你做客户“肚子里的蛔虫”

木马童年 2020-10-16 09:30 17 0

阿里云ET团队带来了题为《创新业务中的预测分析技术实践》的分享,他主要与大家分享创新业务中的预测分析,并结合具体案例来讲述这些预测技术的具体应用和使用经验。以下为现场分享观点整理。机器学习简介 开篇之前 ...

阿里云ET团队带来了题为《创新业务中的预测分析技术实践》的分享,他主要与大家分享创新业务中的预测分析,并结合具体案例来讲述这些预测技术的具体应用和使用经验。

以下为现场分享观点整理。

机器学习简介

  预测分析技术让你做客户“肚子里的蛔虫”

开篇之前,首先介绍一下机器学习。机器学习是人工智能的科学其中的一个方向,这个领域主要解释如何用经验学习来去改善具体算法的性能。机器学习主要分为有监督学习、无监督学习、半监督学习和增强学习四类。

本文所提到的预测技术就是有监督学习,如上图右侧所示;上图的左侧是无监督学习。通俗点讲,有监督的过程就是老师教授知识的过程,让你在脑海中形成一个模型,从而大脑就储存了多个模型并识别。机器学习就是用一些程序让机器自动学习。

增强学习是指机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。与监督学习的区别:增强学习是试错学习(Trail-and-error),由于没有直接的指导信息,智能体要以不断与环境进行交互,通过试错的方式来获得最佳策略。

  预测分析技术让你做客户“肚子里的蛔虫”

为什么需要机器学习呢?按照阿里云的宣传语,就是为了无法计算的价值。这两年人工智能之所以发展这么快:其一,因为廉价的高性能计算以及大规模的存储。以前的计算机基本上是512M内存,而现在标配8G,现在手机的处理器也已经远远超过小学时期PC机的处理性能。像阿里云大规模的集群存储机,上万台机器同时计算,足以表明其高性能计算及大规模存储;其二,目标问题有多种因素来决定。例如4月8号我们预测李汶获得《我是歌手》的冠军,影响她获得冠军的因素可能有上千种,这上千种因素综合决定了其结果。其三就是简单的规则难以处理。如果有多种因素、多种规则糅合在一起,就无法判断,这个时候特别需要机器学习、算法来进行处理。

有监督学习那些事

  预测分析技术让你做客户“肚子里的蛔虫”

现在具体分析下监督学习,即预测技术。它是机器学习中的一个方法,由训练资料中学到或建立一个模式。比如刚出生的小孩,学说话,学认知,在自己的大脑中建立一个模式,并且以此模型来推测新的实例。上图可以直观地表示。有监督就是这样一个过程。我们把预测技术中连续的输出值称为回归分析。

  预测分析技术让你做客户“肚子里的蛔虫”

上图是有监督学习的流程,在工业界中,有监督学习是更常见和更有价值的方式,占据机器学习任务的80%。以刚才小朋友学习的例子解释上图。左上角是一个训练集,即训练的资料;下面是类别,特征向量为小孩识别的物体特征,那么我们要用机器把这些特征抽取出来,装到一个算法模型里,其次把特征对应到的东西交给算法,接着算法学习一个模型,把这个模型装在机器的内存里面。如果再来一个新的物体,就通过摄像头把图像的特征向量采集下来,再传到机器内存中,机器内存就会根据已有的模型做一个预测。若模型训练的不好,容易预测错误。

上图中蓝色的箭头是离线过程包含数据筛选和清洗、特征抽取、模型训练和优化模型等环节;绿色箭头为应用流程,对需要预估的数据抽取特征,应用离线训练得到的模型进行预估。现在用一个具体实例解释预测的步骤。比如王菲要在南京开演唱会,预测粉丝购买演唱会门票的意愿。她的代理公司就要考虑南京有多少粉丝,粉丝中有多少人愿意去买票。若预定了一个5万人的体育场,票是800块钱一张,结果来了几千个人,那完全是亏本。

  预测分析技术让你做客户“肚子里的蛔虫”

要预测,第一步就是问题建模,把问题转成数学模型。首先把它当成一个业务目标,运营公司的业务目标就是判断王菲的粉丝会不会买演唱会的门票,然后转成一个技术目标;预测里面的技术目标分为回归、排序和分类。买或不买,可以当成一个分类问题;然后考虑这个模型的评价目标,评估模型的好与坏,模型预测的准确率。还要确定一下所建模型的评价指标,紧接着做一些模型的优化指标。

  预测分析技术让你做客户“肚子里的蛔虫”

在建模过程当中,我们踩过一些坑。一是业务目标与模型的优化目标不一致,以刚才的演唱会为例,我们预测粉丝会不会买门票,这是一个业务目标,若你用了另外一种分类器或预测技术,数学建模就有问题;二是准备的训练数据以及特征与选择的模型是否相符,准备的训练数据包括买没买过王菲的门票,有没有浏览过王菲周边的商品,有没有听过王菲的歌,每天听多少次,历史上有没有参加过她的演唱会,若演唱会在周日,根据历史信息判断周日是不是有空等;这些都是根据互联网的信息来进行决策,把这些信息一块交给模型来判断。要看准备的训练数据与选择的模型是否一致,基本需要考虑两个问题,训练数据的多与少,高阶特征与低阶特征。高阶特征就是业务经验的特征;低阶就是没有业务经验、直接的特征;三是是否被工业界广泛采用,这个很关键,因为工业界有各种限制,例如模型非常耗时,训练一个模型要跑很久,无法并行化等等。四要考虑是否需要多模型融合。比如我们可以把演唱会门票问题拆成几个子问题分别进行预测,再把这几个子模型融合到一起再预测。

  预测分析技术让你做客户“肚子里的蛔虫”

第二步就是准备训练数据。演唱会采用的训练数据,首先就是年龄、性别等粉丝的属性数据,有没有听过她的歌等行为数据,还包括label数据,即有没有在网上买过她的门票,互联网通过服务器把这些行为数据、日志都记录下来,我们再把这些当成标注label。其次就是艺人属性及行为数据。比如说艺人流行不流行,流行的年龄段,歌的风格,花边新闻,关注度,粉丝量,百度指数等;行为数据包括最近的网络曝光率等。第三个就是粉丝和艺人的交互数据,比如听过多少次王菲的歌,一个月下载了几次,有没有参加过粉丝见面会等。以上就是我们要准备的训练数据。

  预测分析技术让你做客户“肚子里的蛔虫”

准备训练数据采用三大类的特征。第一类是粉丝自身的特征;第二类是艺人自身的特征;第三类是粉丝与艺人之间的交互关系。采集数据过程中会出现一些坑,首先要保证预测数据与训练数据的分布尽可能一致。比如说训练数据里买演唱会门票的人是1千万,不买的是9千万,就是1:9,然后训练模型出来,拿到业务中心应用,业务中心应用可能真实的数据分布是1:50,那训练集就有问题了。其次,目标变量噪音尽可能少。再次,尽量不要采样,建模之后,准备训练数据,然后开始进行预测。要出具特征,以人脸识别为例,判断一个人是谁,肯定要提取如棱角、眉毛、鼻子、嘴唇、头发等特征,把特征交给大脑。这也就是第三步:抽取特征。

  预测分析技术让你做客户“肚子里的蛔虫”
阿里云 预测分析 机器学习 人工智能 智能体 计算机
0
为您推荐
Jsp日记本系统项目实战,资源教程下载

Jsp日记本系统项目实战,资源教程下载

课程名称Jsp日记本系统项目实战,资源教程下载课程目录【Jsp日记本系统】视频教程第00…...

大规模高性能分布式存储系统设计与实现,负载均衡+安全+高性能+监控及原理等内容,资 ...

大规模高性能分布式存储系统设计与实现,负

课程名称大规模高性能分布式存储系统设计与实现,负载均衡+安全+高性能+监控及原理等…...

小蚊子数据分析-Python数据分析实战,视频教程下载

小蚊子数据分析-Python数据分析实战,视频

课程介绍:跟小蚊子学数据分析-Python数据分析实战,简单、实用的Python数据分析视频…...

Dubbo高可用架构篇 Dubbo分布式系统架构视频教程-ZooKeeper-第三方支付项目精华课下载

Dubbo高可用架构篇 Dubbo分布式系统架构视

课程名称Dubbo高可用架构篇 Dubbo分布式系统架构视频教程-ZooKeeper-第三方支付项目精…...

2017最畅销的Python图书TOP10,pdf与epub格式下载

2017最畅销的Python图书TOP10,pdf与epub格

过去的2017年这一年,Python 开发者在全球快速增长,国内小伙伴学习 Python 的热情一…...

JS实战开发 联动日历/瀑布流/分页特效/下拉菜单 等等功能视频教程 妙味课堂实战开发功 ...

JS实战开发 联动日历/瀑布流/分页特效/下拉

课程名称JS实战开发 联动日历/瀑布流/分页特效/下拉菜单 等等功能视频教程 妙味课堂实…...