首页 首页 大数据 大数据入门 查看内容

用大数据估价对付房价虚高,关键在于大数据保证的“房源真实”

木马童年 2018-10-13 16:33 29 0

每个人都需要住房,房地产行业历史悠久,数据积累下来是非常可观的。链家成立了15年,这15年里积累了百万级别的成交数据,用户画像数量超过2000万,日志数据6T。链家依托房地产行业累积的海量数据,从中挖掘出最有价 ...

每个人都需要住房,房地产行业历史悠久,数据积累下来是非常可观的。链家成立了15年,这15年里积累了百万级别的成交数据,用户画像数量超过2000万,日志数据6T。链家依托房地产行业累积的海量数据,从中挖掘出最有价值的数据,进行房屋估价、房源推荐等等,从而改善行业体验,推动行业进步。

我们对蔡白银进行了访谈,从多方面了解链家的技术,同时他也结合自身经验给大家讲述了大数据人需要的知识技能,以及如何更好的提升自己。

受访嘉宾介绍

蔡白银,毕业于北京大学。目前任链家网大数据架构师,负责链家网大数据体系的建设,运用大数据挖掘技术助力房产领域的O2O,提升房屋买卖体验;在大数据数据挖掘领域有多年的经验。加入链家网之前就职于百度,负责百度口碑后端策略架构,使得口碑的污染率低于2%,有效的保证了内容的准确性和公正性。

问:请您介绍下您的背景经历吗?百度口碑如何利用大数据?和链家的业务有类似的地方吗?为什么选择了链家?

蔡白银:我毕业于北京大学物理学院, 原来学的是理论物理的分支——宇宙学。 毕业之后先在nvidia做了一年多基于cuda的高性能计算,然后加入到百度,从事算法策略, 如今在链家网从事大数据相关工作。 这项工作,本身对于数学的要求略高,这一点理论物理的数学训练还是颇有帮助的。

在百度时作为百度口碑的策略负责人,带领7个小伙伴搭建了百度口碑的策略体系。百度口碑是个ugc产品,用户可以在口碑中点评自己所知晓或者接触过的商家,我们需要使用百度的海量用户行为数据来让用户快速触达评论实体 ,然后通过算法对评论内容进行排序和反作弊。

从业务上来说,口碑和链家的业务没有很相似的地方。

至于为何选择链家。之前一直在纯互联网行业工作,对于传统行业和互联网密切联系的垂直领域O2O一直很感兴趣,同时也知道自己的几个非常优秀的同事加入了链家, 仔细了解了链家的规划和愿景后,就毫不犹豫的加入链家了。目前很庆幸自己当初的选择,深感当前的平台宽广而深远,工作内容能够带来助力行业进步的成就感,也充满挑战性。加之周围同事都很优秀,『每个人都像一支队伍』,这种感觉我很喜欢。

问:链家的数据源如何获取的?如何保证数据的实时性?

蔡白银:链家的数据来源于线下和线上两个渠道。线下渠道包括经纪人录入的数据,例如用户的带看行为,带看反馈等等,还不得不说的是链家网的6000万楼盘字典数据, 是我们的工作人员一栋一栋梳理出来的第一手的房屋数据, 十分珍贵。

线上数据包括在掌上链家app,链家网web端和链家网m站的各种行为数据,以及经纪人在link作业app上的行为数据等。

线下渠道的数据,在link上线前,经纪人是每天晚上必须要将今天自己涉及到的全部用户的线下行为数据录入进SE体系; link上线后, 这些行为数据也已经全部线上化,实时性进一步得到了保证。 至于用户的线上行为,通过日志流,这些数据实时的进入大数据仓库,实时性自是有保障的。

问:如果靠爬虫爬取链家网上的数据,这些数据是否可有效利用?有什么反爬措施没?

蔡白银:链家网的数据都是真实的房源数据、成交数据和挂牌数据,所以这些数据都是可以拿来做分析使用的。 链家集团和其他地产公司的一些对数据比较敏感的经纪人,会持续收集链家的数据,形成自己的分析知识体系。

目前链家网做了一些简单的反爬措施,例如针对ip的访问频次限制。整个反爬系统正在建立中。

问:大数据能帮助链家解决哪些房地产方面的痛点?

蔡白银: 上次在Qcon2016北京全球软件开发者大会的分享中有提到,房地产行业自古而今,一直存在的痛点可以总结为:

1) 房源真假如何判断

2)用户如何找到合适自己的房源,用合适的价格,从而高效率的成交

3)对于卖房者同样如此

4)经纪人如何才能更好的了解客户的真实需求,从而提升服务体验。

这几个问题的解决都仰赖于大数据。 楼盘字典的7000万数据解决了房源真假的问题;基于大数据的房屋估价可以供用户和卖家定出合适的价格;房源和小区推荐,让用户快速触达适合自己的房屋;基于用户画像的房客图谱和客源解读,让经纪人的服务能力得到更好的体现,让用户感知到越来越好的服务体验。总结一句话就是:技术推动行业进步,让买卖房屋不再难。

问:如何避免虚假房源?安全上有哪些措施保障?

蔡白银:虚假房源中影响最大的就是那些价格虚假的房源,这个时候,大家可以使用下我们掌上链家的估价功能,预估下这个房子当前的价格到底如何,从而有个明确的认知。

和虚假房源对应的就是真实房源,所以这个问题也可以翻译成链家在保障房源真实性上做了哪些保障。 那么,如何定义“真房源”?侠义上来说,“真房源”的4个标准:

1)房源“真实存在”,不是虚构或虚拟房源;

2)“真实价格”,在各渠道发布房源价格以业主委托报价为基准;

3)“真实在售”,房源的在租在售状态均反映业主真实意愿;

4)“真实图片”,房源图片与真实房屋一对一匹配

基于此, 链家在真房源的保障上,做了如下几件事:

1)从技术和数据上来说:链家首先建立了一个楼盘字典。这个字典里包含有30多个城市,近7000万套房屋的关键信息,除此之外还采集了小区物业费、采暖设施和配套设施等大家公认的信息

2)管理范围上,实现了房源的全生命周期管理,实现了房源的新增录入、库存、核销的全链条管理。

3) 从机制上说,品控检查,内部经纪人监督检举以及消费者监督。链家承诺假一赔百。

三管齐下,保证了房源的真实性。

问:针对不同地域、不同房型、政策等,如何自动制定一个买方和卖方都认可的价格?

蔡白银:分别回答如下:

1)地域的考虑是这样的: 我们的估价是分城市做的,在同一个城市内,每个商圈有自己的单独的模型,同时我们正在做不同地铁线路沿线的估价模型,也考虑针对准确率偏低的商圈交界处单独做模型。

2)至于房型,极端的例子是同一个商圈里既有别墅,又有普通户型。由于链家的楼盘字典里,将房屋类型都做了明确的标记,因此基于我们的历史成交数据有丰富的房源类型和成交价格之间的关系。建模时,我们的样本里将房源类别特征做了离散化,因此模型能够很好的判断出房型对价格的影响

3)至于政策,政策的影响对价格的影响是很大的,未来会有什么样的政策出台以及会带来多少影响,也不能尽知。政策的影响也不太容易做特征化。 因此,我们在估价模型的训练样本的选择上,我们只选择了近半年的成交房源,同时样本特征里加入时间因子,把政策的影响放在时间因子中,让非线性模型自己去学习政策对价格带来的持续性影响。                

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

房地产 数据积累 用户画像 海量数据 大数据 架构师
0
为您推荐
大数据分析:PC端VS移动端中的搜索引擎

大数据分析:PC端VS移动端中的搜索引擎

还没搞清楚PC的时候,移动互联网来了,还没搞清楚移动互联网的时候,大数据来了。今天…...

数据挖掘领域十大经典算法之—K-Means算法(超详细附代码)

数据挖掘领域十大经典算法之—K-Means算法

简介 又叫K-均值算法,是非监督学习中的聚类算法。 基本思想 k-means算法比较简单…...

2014年全球及中国互联网数据全景

2014年全球及中国互联网数据全景

全球活跃社交用户于 2014 年 8 月突破了 20 亿人;全球独立移动设备用户渗透率于 2014 …...

Hadoop能够风行十年吗

Hadoop能够风行十年吗

Hadoop技术已经无处不在。不管是好是坏,Hadoop已经成为大数据的代名词。短短几年间,…...

大数据技术之争:PIG对Hive

大数据技术之争:PIG对Hive

Pig与Hive已经成为企业实现大规模数据交互的必要工具,其突出优势在于无需编写复杂的M…...

阿里双11大数据  移动电商的名头已坐实

阿里双11大数据 移动电商的名头已坐实

全民网络购物狂欢节已经结束,最终的成交额定在571亿,这与阿里早期的预估值不相上下…...