首页 首页 大数据 查看内容

教你如何获取IP地址侦测用户来源可视化分析

木马童年 2019-4-30 16:40 22 0

假设一家商业网站开发了软件产品,他们希望知道都是来自哪里的用户下载或更新我们的软件,并进行可视化分析。 需要解决的问题是: 是否有一个IP地址库,能够表征一个geoIP地址的具体位置(至少到国家或具有服务器IS ...

假设一家商业网站开发了软件产品,他们希望知道都是来自哪里的用户下载或更新我们的软件,并进行可视化分析。

需要解决的问题是:

  1. 是否有一个IP地址库,能够表征一个geoIP地址的具体位置(至少到国家或具有服务器ISP位置)
  2. Weblog记录了用户下载或更新软件的IP地址
  3. 能够将下载用户的IP地址匹配到geoIP地址数据库
  4. 在地图上可视化呈现用户来源

下面我们通过案例来说明实现上述想法的软件操作和挖掘算法。

首先我们了解到有一家网站提供了IP地址的开源数据库(收费数据库更精细和更新更快) Http://www.maxmind.com

教你如何获取IP地址侦测用户来源可视化分析

GeoIP2 Precision Insights服务提供IP地址所在地点Maxmind所掌握的最准确信息,可以将其精确定位到邮政编码层面。它包括地理定位数据的置信因数,描述ISP/机构,并显示某个IP背后的用户类型。

GeoIP2 Precision Insights 现在可以提供人均收入(美元)以及每平方公里的人口数量(仅限美国)。借助平均收入,精调广告定向和优惠券发放;加入人口密度数据,作为渠道分析和评估市场需求的一项因素。

从上面描述我们可以看到几点应用:

  1. 一个IP地址库具有什么信息
  2. 一个IP地址的可信度或安全性如何评估
  3. 一个IP地址的来源访问如何侦测和风险是电子商务或在线支付的验证手段
  4. 可以通过GeoIP的API接口通过Python进行访问验证和其他应用REST

另:该网站提供了一个免费的GeoIP数据库

下面我们通过编辑一个SQLite的下载路径文件

教你如何获取IP地址侦测用户来源可视化分析

教你如何获取IP地址侦测用户来源可视化分析

教你如何获取IP地址侦测用户来源可视化分析

通过执行这个流可以在分钟级别下载到200万的geoIP数据库(可以永久保存在本地)

教你如何获取IP地址侦测用户来源可视化分析

我们可以将GeoIP数据库保持下来,以后就不用每次运行再下载了,当然这个库如果付费的话每天都在更新,也就可以保证实时运行最新数据库了。

从数据库中我们可以看到有ip_start和ip_end数据值区间范围内的分配ip数量和这个范围ip地址所属国家、地区、城市,以及ISP的经纬度坐标。

接下来我们假设该某家网站Apache的weblog能够记录下载和更新软件的用户浏览log数据(假设有1万个请求weblog)

教你如何获取IP地址侦测用户来源可视化分析

我们先用正则表达或Like匹配抽取或者过滤所以的下载download或更新updata的用户请求地址Url

$Request$ LIKE “GET /knime_downloads/*” => TRUE

$Request$ LIKE “GET /update/*/org.knime.features.base_*” => TRUE

教你如何获取IP地址侦测用户来源可视化分析

接下来需要将IP地址的四位地址段整合为一个整数值,以便实现IP地址的匹配。

教你如何获取IP地址侦测用户来源可视化分析

首先将IP地址的四分地址段拆分成四列字段,然后在合并成IP对于数据戳。在运算前需要进行IP地址的汇总,因为可能有多个访问来自同一个IP地址。

IP值=($IP_Arr[0]$ * 16777216) + ($IP_Arr[1]$ * 65536) + ($IP_Arr[2]$ * 256) + $IP_Arr[3]$

教你如何获取IP地址侦测用户来源可视化分析

下面进行字段匹配,也就是需要将IP-number与IP_start和IP_end进行匹配,由此获得每个IP地址的所属位置(国家、经纬度坐标)

教你如何获取IP地址侦测用户来源可视化分析

这里通过标注行ID,利用Binner模块进行RowID进行匹配

教你如何获取IP地址侦测用户来源可视化分析

匹配结果如下:

教你如何获取IP地址侦测用户来源可视化分析

匹配完成后就是基本统计和地图可视化了。

教你如何获取IP地址侦测用户来源可视化分析

通过统计IP地址数量,排序、下载量大小的size、颜色、形状等特征后可以采用地理信息可视化方法,这里用了OSM(open street map)

教你如何获取IP地址侦测用户来源可视化分析

这样我们就可以知道下载或更新我们软件的用户都来自哪个国家地区城市和数量。

接下来主要是可视化技术了,我们可以用更丰富的地理信息可视化进行展现或实时分析。

后续,我们可以通过Python进行实时分析和流分析纳入用户分析系统。

关于作者

沈浩老师(微信号:artofdata),中国传媒大学新闻学院教授、博士生导师;中国传媒大学调查统计研究所所长;大数据挖掘与社会计算实验室主任;中国市场研究行业协会会长

本文出处:,链接:,采用「CC BY-SA 4.0 CN」协议转载学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请联系「我们」处理。

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

可视化分析 数据库 市场需求 安全性 电子商务 流分析
0
为您推荐
大数据技术改变城市的运作方式,智慧城市呼之欲出

大数据技术改变城市的运作方式,智慧城市呼

纽奥良虽像大多数城市一样有火灾侦测器安装计划,但直到最近还是要由市民主动申装。纽…...

大数据分析面临生死边缘,未来之路怎么走?

大数据分析面临生死边缘,未来之路怎么走?

大数据分析开始朝着营销落地,尤其像数果智能这类服务于企业的大数据分析供应商,不仅…...

什么是工业大数据,要通过3B和3C来理解?

什么是工业大数据,要通过3B和3C来理解?

核心提示:工业视角的转变如果说前三次工业革命分别从机械化、规模化、标准化、和自动…...

大数据普及为什么说肥了芯片厂商?

大数据普及为什么说肥了芯片厂商?

科技界默默无闻的存在,芯片行业年规模增长到了3520亿美元。半导体给无人驾驶汽车带来…...

大数据技术有哪些,为什么说云计算能力是大数据的根本!

大数据技术有哪些,为什么说云计算能力是大

历史规律告诉我们,任何一次大型技术革命,早期人们总是高估它的影响,会有一轮一轮的…...

个人征信牌照推迟落地,大数据 重新定义个人信用!!

个人征信牌照推迟落地,大数据 重新定义个

为金融学的基础正日益坚实。通过互联网大数据精准记录海量个人行为,进而形成分析结论…...