首页 首页 大数据 查看内容

数据就是杀手锏!优酷多端多场景下的视频推荐系统探索之路

木马童年 2019-4-29 11:25 23 0

在本篇文章里,我们将带来视频推荐系统的技术解析和最新的进展,为此,我们专门采访到了优酷技术推荐算法负责人夏颉。 与图文推荐和音频推荐不同,视频推荐系统要考虑的元素更多,有的时候影响推荐结果的甚至是一些 ...

在本篇文章里,我们将带来视频推荐系统的技术解析和最新的进展,为此,我们专门采访到了优酷技术推荐算法负责人夏颉。

与图文推荐和音频推荐不同,视频推荐系统要考虑的元素更多,有的时候影响推荐结果的甚至是一些细微的因素。从 2017 年正式引入推荐算法到现在,优酷推荐系统到底经历了哪些迭代与创新?对于视频推荐系统来说,到底还有哪些可以探索的方向?本文将为你一一解答。

优酷推荐系统概况

夏颉告诉记者:“优酷是在 2017 年下半年开始进行算法化升级的。”

“刚开始是在某些重点场景实现单场景的千人千面,当我们在这些场景拿到很多不错的收益之后,才开始逐渐在全站推广。”夏颉说,直到去年,优酷才逐渐将单场景的推荐进行了多端、多场景上进行的融合,形成全网站一致化的推荐体验,用户现在在页面上看到的推荐内容就是在这时完成的。

至于为什么会在去年才逐渐向全站推广,夏颉解释说,视频推荐系统与文字推荐系统还是有很多不同的。由于文字提取主题和标签(tag)的方式更加容易,加之 NLP 技术发展了这么多年,技术理论与工业实践已经到达了相对可用的级别,所以实现起来会比较容易。

而计算机视觉领域虽然在近几年取得了比较迅速的发展,但还是停留在比较具象的层次,比如识别屋子里有一把椅子,或者识别桌子上有一瓶水等等。而对于画面中的人物正在进行的活动主题——譬如“屋子里的人正在家长里短或者激烈争吵”等等,推荐系统对这类主题的建模与识别还是相对来说比较困难的。

另外,夏颉补充道,用户对文章的消费很多时候是因为文章的主题,但是对于视频的消费是很多元化的,甚至可能是因为其中某一个很不起眼的因素所吸引。可能是因为某个场景的背景音乐,或者说主角使用的某个道具等等。所以,如何去判断一段视频中,哪些因素是吸引用户的关键,对于视频推荐系统来说是非常重要的。

“数据就是杀手锏”

在介绍完优酷推荐系统的概况后,记者进一步向夏颉了解了推荐系统技术层面的内容。

依托于阿里巴巴的数据储备,优酷拥有了大量的数据,并绘制出了更加精准的文娱知识图谱,夏颉说,数据就是优酷推荐系统的杀手锏。

首先,从算法上来说,夏颉表示,对于视频推荐系统来说,最重要的是通过多模态的视频分析和内容标签的提取来充分理解视频;其次,要建立一个文娱领域的知识图谱,譬如某位男明星和女明星之间是夫妻关系,在用户观看这位男明星的视频时,是否能推荐他妻子的相关视频给用户;另外,怎样把知识图谱更好地应用在推荐系统的召回和排序中,也非常重要;同时,怎样把有联系的用户之间建立一个行为网络,通过这个行为网络更好地进行用户之间的熟人视频消费内容推荐,也是优酷在考虑的问题。

夏颉以用户画像为例进行了更详细的介绍。在优酷的用户群中,有一类叫做“小嫂子”,组成这个群体的核心成员是一些全职的家庭主妇,在进行视频推荐的时候,更多地会为这类用户推荐家庭伦理情感类的视频。

对于毫无数据的新用户,推荐算法又是如何进行精准推荐的呢?

夏颉说,这是一个非常有意思的话题,如果单独对优酷来讲,这会是一个大问题,但是现在,优酷是阿里经济中很重要的一环,这个问题就不再是难题了。

阿里巴巴基本上覆盖了当前大多数中国人线上线下的消费,例如某个用户可能在大麦上买过某场演唱会的票,或者可能在淘票票上买过某部电影的票,亦或者他可能在天猫上经常购买某一类动漫的手办等等,通过用户在衣食住行上的偏好或消费习惯,哪怕他没有进行内容消费,也是可以通过这些信息对他做出比较准确的推荐。

如果这个用户甚至都不在阿里经济覆盖范围之内,也有很多别的办法可以进行画像,比如从人口属性判断,用户来自哪个城市、属于哪个年龄层等等,根据和他相似人群的观看习惯,仍然可以为新用户做一些个性化的推荐。

除了算法上的优化,在推荐方式上,优酷也是下了一番功夫的。

夏颉举例说,在视频封面上,优酷已经开始大规模使用个性化配图推荐了。

夏颉告诉记者,封面个性化配图是在 2018 年下半年的时候大规模展开的。优酷对于上百部影视作品,每部都会配有至少十张以上的封面图,由设计进行产出,而算法会根据用户不同的行为消费偏好,推荐他可能更感兴趣的封面图,促进用户对内容的转化和消费。

而对于短视频,夏颉表示,优酷内部也有足够的技术储备:“我们现在能够智能生成短视频的封面图,并根据用户对短视频的消费进行个性化分发,在线上取得了很不错的收益。”

对于刚刚添加的新视频,优酷也能做到实时推荐。夏颉说,这一功能的实现得益于内部的一套冷启动算法系统,该系统能够保证每天百万级的短视频,在 24 小时内冷启动完毕,从而实现精准推荐。

除了上面提到的各种技术,近年来比较流行的强化学习、图像学习等技术也已经在优酷内部进行实验,或许在不久之后,用户就能体验到这些技术带来的便利。

未来规划

由于推荐系统技术也在不断迭代,在采访的最后,夏颉也谈了谈自己正在研究的方向和对推荐系统未来发展的一些规划。他表示自己也在关注着很多领域的进展,希望将最新的技术应用在推荐系统中。

比如多模态视频内容分析,它不仅可以对一些具象进行分析,还可以对一些抽象概念进行提取,就像前文中说的,可以理解某一个场景中正在发生什么事;另外,基于图计算的推荐系统也是夏颉正在研究的方向。

夏颉告诉记者,阿里文娱是一个覆盖了全端全场景的娱乐消费平台,怎么样在多端、多场景下做到消费体验一致化,并尽可能的提升用户在整个娱乐生态系统里的消费体验和市场,是一个需要长期不断探索的问题。

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

计算机视觉 阿里巴巴 知识图谱 视频分析 用户画像 阿里
0
为您推荐
大数据技术改变城市的运作方式,智慧城市呼之欲出

大数据技术改变城市的运作方式,智慧城市呼

纽奥良虽像大多数城市一样有火灾侦测器安装计划,但直到最近还是要由市民主动申装。纽…...

大数据分析面临生死边缘,未来之路怎么走?

大数据分析面临生死边缘,未来之路怎么走?

大数据分析开始朝着营销落地,尤其像数果智能这类服务于企业的大数据分析供应商,不仅…...

什么是工业大数据,要通过3B和3C来理解?

什么是工业大数据,要通过3B和3C来理解?

核心提示:工业视角的转变如果说前三次工业革命分别从机械化、规模化、标准化、和自动…...

大数据普及为什么说肥了芯片厂商?

大数据普及为什么说肥了芯片厂商?

科技界默默无闻的存在,芯片行业年规模增长到了3520亿美元。半导体给无人驾驶汽车带来…...

大数据技术有哪些,为什么说云计算能力是大数据的根本!

大数据技术有哪些,为什么说云计算能力是大

历史规律告诉我们,任何一次大型技术革命,早期人们总是高估它的影响,会有一轮一轮的…...

个人征信牌照推迟落地,大数据 重新定义个人信用!!

个人征信牌照推迟落地,大数据 重新定义个

为金融学的基础正日益坚实。通过互联网大数据精准记录海量个人行为,进而形成分析结论…...