数智资源网
首页 首页 大数据 大数据入门 查看内容

大数据时代,“未来战警”应该长什么样?

木马童年 2020-10-18 09:50 17 0

“老和山极客”团队用大数据开发了一套智能警务系统,看看数据侠们心中的“未来战警”是什么模样。“未来战警”:一个智能警务平台说起“未来战警”,脑海中首先浮现的是浑身钢筋铁骨,拿着高科技装备威风凛凛的的模 ...

“老和山极客”团队用大数据开发了一套智能警务系统,看看数据侠们心中的“未来战警”是什么模样。

大数据时代,“未来战警”应该长什么样?

“未来战警”:一个智能警务平台

说起“未来战警”,脑海中首先浮现的是浑身钢筋铁骨,拿着高科技装备威风凛凛的的模样。不过这种设定显然观赏性大于实用性,对于解决真正的城市犯罪问题,还是得真正的数据侠出马。

在“老和山极客”团队眼里,“未来战警”不是个体,而是一个基于先进算法的人工智能平台,通过自然语言处理、机器学习等方法建立起犯罪预控预与调配机制。这样一个智能平台,被叫做“云沪卫”。

下图是云沪卫展示的警力调度图,你们可以先感受一下:

  大数据时代,“未来战警”应该长什么样?

(图片来源:老和山极客)

在开发时,“老和山极客”团队主要使用了SODA开放的犯罪数据、派出所数据等资源,此外他们还融合了百度API的地理信息数据、上海天气数据、交通卡数据、网络舆情数据等,打造了一个基于数据挖掘和机器学习技术,通过自学习实现犯罪监控、热点预测和警力调配的智能警务系统。

“老和山极客”团队觉得,在大数据时代,智能警务系统对改善城市治安有巨大作用。实际上,在美国已经出现了如Predpol等智能警务系统,它们能够帮助警察预测犯罪、智能调配警力等,帮助一些地区的抢劫犯罪率和入室盗窃犯罪率降低了15%到30%,还减少了日常的巡逻开支。

不过,中国的警务系统与国外有较大差异,云沪卫这个平台又是如何适应中国国情的呢?

“定制”词库深度学习,计算犯罪热度

基于自然语言处理的文本分析技术,是“老和山极客”处理中国警务数据的核心方法之一。

要搭建这个云沪卫平台,首先要收集犯罪记录,计算犯罪事件发生的“热度”。原始的派出所出警日志数据数量庞大,而且具有重复性、事件并发性与语言模糊性的特点,很难让机器去识别他们。

于是,与很多使用自然语言处理技术的团队相似,“老和山极客”也是先将文本转化成向量,再利用半监督学习的方法对文本进行分词和聚类。


在机器学习阶段,由于网络上目前没有中文犯罪信息词库,“老和山极客”团队邀请了一些业内专家,亲自来标定了训练文本词库。在复赛阶段,他们标定了8万条训练样本;决赛阶段,他们添加了新的微博数据,把训练量扩大到了十倍,达到80万条文本。充足的样本数据能够极大优化机器学习的精度。结果表明,9类犯罪事件中,6类事件的分类准确率都在95%以上,其余3类也超过了85%。

接下来,团队根据类型对每一次的案件进行了量化打分,然后对每个派出所每个时段的分数进行统计求和,计算出犯罪热度。

核心算法帮助制作犯罪预测地图

要实现对犯罪热点的预测,仅有犯罪热度的数据显然是不够的,“老和山极客”团队还采集了包括:日期属性、区域属性、时间段、交通、人流、摄像头数据、天气、历史数据等9个特性信息,精准描述犯罪事件的各个维度。

团队采用了GBDT (Gradient Boosting Decision Tree)算法作为预测犯罪热点的算法原型。GBDT又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法。该算法由多棵决策树组成,所有树的结论累加起来做最终答案。近年来,GBDT算法在预测类比赛中凭借优异的性能表现突出,常用来做预测、分类等工作,也适用于类别特征较多的样本。

云沪卫将之前搜集到的9个特征纳入GBDT算法进行统计学习,得到了预测模型。


虽然目前已经开发出了测试版原型,但是如果要真正应用这套警务系统,“老和山极客”团队坦言,还需要更多真实的数据。如果接下来继续有实时数据的支撑,搜集到的数据就能够被系统自动分析纳入预测模型中,不断优化调整预测结果,实现对实时犯罪热点的预测。

“警务数据是非常敏感的数据信息,如果使用不当,甚至会造成很严重的安全后果。”“老和山极客”队长宣羿表示,对于这类敏感数据的安全问题,在创造价值的同时,也需要警方、政府等官方机构用更完善的标准来衡量把控。

接下来,云沪卫希望能和警方等政府部门合作,在保证数据安全的情况下,使用更真实、完整的数据对平台进行优化改进。另一方面,他们还会再平台上开通舆情监控、举报监控等功能,让普通民众也参与到城市安全的建设中去,加强警民联动,打造一个真正的“未来战警”。

大数据 智能 人工智能 自然语言处理 机器学习 数据挖掘
0
为您推荐
北风网Spark大型项目实战138讲,资源教程下载

北风网Spark大型项目实战138讲,资源教程下载

课程名称北风网Spark大型项目实战138讲,资源教程下载课程目录001.课程介绍002.课程环…...

Hadoop&Spark企业应用实战,资源教程下载

Hadoop&Spark企业应用实战,资源教程下载

课程名称HadoopSpark企业应用实战,资源教程下载课程目录第一周:企业级Hadoop应用概…...

小象《金融数据分析》第二期,资源教程下载

小象《金融数据分析》第二期,资源教程下载

课程名称小象《金融数据分析》第二期,资源教程下载课程目录01 数据分析基本知识复习0…...

加强版吴超Hadoop七天培训视频完整版,Hadoop视频教程精华版下载

加强版吴超Hadoop七天培训视频完整版,Hadoop视频教程

课程名称加强版吴超Hadoop七天培训视频完整版,Hadoop视频教程精华版下载课程介绍云计…...

SWPU-ACM每周算法讲堂,资源教程下载

SWPU-ACM每周算法讲堂,资源教程下载

课程名称SWPU-ACM每周算法讲堂,资源教程下载课程目录1.动态规划入门2.搜索算法入门3.…...

2017最新某团购网站大型离线电商数据分析平台实战演练视频教程配套软件文档齐全138课 ...

2017最新某团购网站大型离线电商数据分析平台实战演练

课程名称2017最新某团购网站大型离线电商数据分析平台实战演练视频教程配套软件文档齐…...