数智资源网
首页 首页 大数据 查看内容

基于Hadoop生态系统的一高性能数据存储格式CarbonData(性能篇)

木马童年 2019-9-12 12:13 197 0

CarbonData在数据查询的性能表现比Parquet好很多,在写一次读多次的场景下非常适合使用;社区比较活跃,响应也很及时。目前官网发布版本1.3.0与最新的Spark稳定版Spark2.2.1集成,增加了支持标准的Hive分区,支持流数 ...

基于Hadoop生态系统的一高性能数据存储格式CarbonData(性能篇)

CarbonData在数据查询的性能表现比Parquet好很多,在写一次读多次的场景下非常适合使用;社区比较活跃,响应也很及时。目前官网发布版本1.3.0与最新的Spark稳定版Spark2.2.1集成,增加了支持标准的Hive分区,支持流数据准实时入库等新特性,相信会有越来越多的项目会使用到。

一、评测环境

1)网络拓扑图

基于Hadoop生态系统的一高性能数据存储格式CarbonData(性能篇)

2)配置参数

服务器配置

基于Hadoop生态系统的一高性能数据存储格式CarbonData(性能篇)

二、性能对比

目前主流hadoop的文件存储格式有行存储的CSV格式,列式存储的ORC和Parquet等。本章给出的是Parquet+Spark和CarbonData+Spark在过滤查询场景和聚合计算场景的性能测试结果。

1)测试数据

创建沈阳社保的数据仓库,导入、集成1年的测试数据,如下表:

基于Hadoop生态系统的一高性能数据存储格式CarbonData(性能篇)

生成CarbonData格式文件,如下表:

基于Hadoop生态系统的一高性能数据存储格式CarbonData(性能篇)

2)过滤查询场景测试

基于Hadoop生态系统的一高性能数据存储格式CarbonData(性能篇)
基于Hadoop生态系统的一高性能数据存储格式CarbonData(性能篇)

Parquet和CarbonData在过滤查询场景下的性能对比

3)聚合计算场景测试

Parquet和CarbonData在聚合计算场景下的性能对比

4)总结分析

在过滤查询中,CarbonData的查询效率比parquet效率好,主要体现在列数据的索引查询,极大地提高了精确查询的性能。在聚合查询中,CarbonData通过使用全局字典编码来加快计算速度,这使得处理、查询引擎可以直接在编码好的数据上进行处理而不需要转换数据,数据只有在返回结果给用户的时候才转换成用户可读的形式,通过索引有效过滤文件数据块减少磁盘的IO,提高查询性能。

三、小结

CarbonData在数据查询的性能表现比Parquet好很多,在写一次读多次的场景下非常适合使用;社区比较活跃,响应也很及时。目前官网发布版本1.3.0与最新的spark稳定版Spark2.2.1集成,增加了支持标准的Hive分区,支持流数据准实时入库等新特性,相信会有越来越多的项目会使用到。

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

文件存储 性能测试 数据仓库 计算速度
0
为您推荐
廖雪峰-2019大数据分析精品资料价值1980元,资源教程下载

廖雪峰-2019大数据分析精品资料价值1980元,资源教程

课程介绍:廖雪峰大神历时3个月打磨出来的《数据分析必备技能》的视频学习资料,由浅…...

社交网络分析与挖掘,视频教程下载

社交网络分析与挖掘,视频教程下载

课程介绍:社交网络和数据挖掘是计算机学科相关研究中的热点,其具体研究涵盖理论、关…...

尚硅谷-大数据项目之电商数仓教程下载

尚硅谷-大数据项目之电商数仓教程下载

课程介绍:本课程以国内电商巨头实际业务应用场景为依托,对电商数仓的常见实战指标以…...

python金融实务从入门到精通,视频教程下载

python金融实务从入门到精通,视频教程下载

课程介绍:Python已成为国内很多顶级投行、基金咨询等泛金融、商科领域的必备技能。中…...