首页 首页 大数据 大数据入门 查看内容

没有基础学习大数据,先看下大数据的入门知识

木马童年 2018-10-12 09:32 27 0

首先,大数据的定义是什么?很多人都在说要进入大数据行业,要学习大数据技术,但往往对大数据都是一知半解,大家来看看百度百科对大数据的定义: 来抓重点,常规的软件工具处理不了的,就必须要用新的技术,那能 ...

 

    首先,大数据的定义是什么?很多人都在说要进入大数据行业,要学习大数据技术,但往往对大数据都是一知半解,大家来看看百度百科对大数据的定义:

    没有基础怎么学大数据?怎样进行大数据入门级

    来抓重点,常规的软件工具处理不了的,就必须要用新的技术,那能解决以上问题的技术就是大数据技术。

    大数据的技术是一个技术群落,想全部学习短期内是不现实的,那么我们怎么样科学的有逻辑有规划的来学习,怎么进行大数据的入门学习呢?我们得了解大数据行业里,有哪些岗位,我们直接从工作岗位的技能需求来倒推我们如何学习大数据,如何有侧重点的来学习。

    第一,先看看有哪些岗位,当然大公司会分的比较详细,中小企企业相对要求会全面一些

    先看看如下这幅图,图没有很详细,我再做解答

    没有基础怎么学大数据?怎样进行大数据入门级

    我们从整个数据项目的业务流程出发,(以上所有岗位都对编程有要求,所以编程基础是必不可少的)

    第一, 大数据工程师,众所周知,在没有大数据以前,行业应用已经非常成熟了,最早大家只关注功能的实现,接着重视前台的界面,前端工程师因此火了一段时间,因为以前数据量不大,所以在功能上并不重视,由于移动互联网的发展,数据量非常庞大了,这个时候单机服务器不能解决问题,那么分布式集群就出现了,大数据工程师的职责就是搭建大数据平台,所以从上图可以得知,大数据工程师,需要有java基础(行业应用大部分是java语言编写的),所以,今后想从事该岗位的,那么学习的路线图如下

    java基础----linux----hadoop-----hive、hbase----scala---Spark

    第二, 算法工程师,该岗位零基础的小伙伴就请止步吧,更适用于数学专业的研究生及以上学历,对数据基础要求比较高。

    第三, 数据挖掘工程师,建议从python入手,毕竟python里面有大量的数据科学的包,也有pyspark,直接从spark里面调数据,不用学习Scala语言(spark的编程语言是Scala),学习的路线如下:

    python基础—python web(强化编程基础)--数学基础补充(线性代数、概率统计、离散数学)--python numpy pandas包---机器学习算法---深度学习

    第四, 数据分析师,该岗位对数学基础要求不高,但对综合素质要求非常高,能充分的理解行业行情、公司运营、产品运作、对市场敏锐度较高。具备一定的编程基础,建议学习python,能熟练使用相关的工具,如excel,sas、spss等,能写漂亮的文章做PPT就行,数学基础不好的女生可以建议走该方向。

    学习路线:python基础—python numpy pandas包---excel—spss---sas

    第五, 大数据可视化,该岗位需要前端的相关基础,大数据运维工程师,也不多做介绍了。

    根据以上的岗位介绍,对自己做一个整体的规划

    个人是建议从大数据工程师入手,从java基础开始学,毕竟编程基础是每个岗位都需要的,而且java的适用面是最广的,虽然现在python的势头很足,但相对java来说,python比较简单,只要java能熟练使用了,要学会python,两周的时间就没问题,从长远的职业规划来说,学习没有速成的方法,脚踏实地才是最重要的。

    我这有大数据工程师详细的学习的计划,分享给大家,希望对你们有帮助。

    第一阶段:静态网页基础(HTML+CSS)

    1. 难易程度:一颗星

    2. 主要技术包括:html常用标签、CSS常见布局、样式、定位等、静态页面的设计制作方式等

    第二阶段:JavaSE+JavaWeb

    1. 难易程度:两颗星

    2. 主要技术包括:java基础语法、java面向对象(类、对象、封装、继承、多态、

    抽象类、接口、常见类、内部类、常见修饰符等) 、异常、集合、文件、IO、

    MYSQL(基本SQL语句操作、多表查询、子查询、存储过程、事务、分布式事务)

    JDBC、线程、反射、Socket编程、枚举、泛型、设计模式

    第三阶段:前端框架

    1. 难易程序:两星

    2. 主要技术包括:Java、Jquery、注解反射一起使用,XML以及XML解析、解析dom4j、jxab、jdk8.0新特性、SVN、Maven、easyui

    第四阶段:企业级开发框架

    1. 难易程序:三颗星

    2. 主要技术包括:Hibernate、Spring、SpringMVC、log4j slf4j 整合、myBatis、struts2、Shiro 、redis、流程引擎activity, 爬虫技术nutch,lucene,webService CXF、Tomcat集群和热备 、MySQL读写分离

    第五阶段: 初识大数据

    1. 难易程度:三颗星

    2. 主要技术包括:大数据前篇(什么是大数据,应用场景,如何学习大数据库,虚拟机概念和安装等)、Linux常见命令(文件管理、系统管理、磁盘管理)、Linux Shell编程(SHELL变量、循环控制、应用)、Hadoop入门(Hadoop组成、单机版环境、目录结构、HDFS界面、MR界面、简单的SHELL、java访问hadoop)、HDFS(简介、SHELL、IDEA开发工具使用、全分布式集群搭建)、MapReduce应用(中间计算过程、Java操作MapReduce、程序运行、日志监控)、Hadoop高级应用(YARN框架介绍、配置项与优化、CDH简介、环境搭建)、扩展(MAP 端优化,COMBINER 使用方法见,TOP K,SQOOP导出,其它虚拟机VM的快照,权限管理命令,AWK 与 SED命令)

    第六阶段:大数据数据库

    1. 难易程度:四颗星

    2. 主要技术包括:Hive入门(Hive简介、Hive使用场景、环境搭建、架构说明、工作机制)、Hive Shell编程(建表、查询语句、分区与分桶、索引管理和视图)、Hive高级应用(DISTINCT实现、groupby、join、sql转化原理、java编程、配置和优化)、hbase入门、Hbase SHELL编程(DDL、DML、Java操作建表、查询、压缩、过滤器)、细说Hbase模块(REGION、HREGION SERVER、HMASTER、ZOOKEEPER简介、ZOOKEEPER配置、Hbase与Zookeeper集成)、HBASE高级特性(读写流程、数据模型、模式设计读写热点、优化与配置)

    第七阶段:实时数据采集

    1. 难易程序:四颗星

    2. 主要技术包括:Flume日志采集,KAFKA入门(消息队列、应用场景、集群搭建)、KAFKA详解(分区、主题、接受者、发送者、与ZOOKEEPER集成、Shell开发、Shell调试)、KAFKA高级使用(java开发、主要配置、优化项目)、数据可视化(图形与图表介绍、CHARTS工具分类、柱状图与饼图、3D图与地图)、STORM入门(设计思想、应用场景、处理过程、集群安装)、STROM开发(STROM MVN开发、编写STORM本地程序)、STORM进阶(java开发、主要配置、优化项目)、KAFKA异步发送与批量发送时效,KAFKA全局消息有序,STORM多并发优化

    第八阶段:SPARK数据分析

    1. 难易程序:五颗星

    2. 主要技术包括:SCALA入门(数据类型、运算符、控制语句、基础函数)、SCALA进阶(数据结构、类、对象、特质、模式匹配、正则表达式)、SCALA高级使用(高阶函数、科里函数、偏函数、尾迭代、自带高阶函数等)、SPARK入门(环境搭建、基础结构、运行模式)、Spark数据集与编程模型、SPARK SQL、SPARK 进阶(DATA FRAME、DATASET、SPARK STREAMING原理、SPARK STREAMING支持源、集成KAFKA与SOCKET、编程模型)、SPARK高级编程(Spark-GraphX、Spark-Mllib机器学习)、SPARK高级应用(系统架构、主要配置和性能优化、故障与阶段恢复)、SPARK ML KMEANS算法,SCALA 隐式转化高级特性。

 

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

大数据 大数据技术 大数据学习 工程师 移动互联网 大数据平台
0
为您推荐
Python数据分析之pandas

Python数据分析之pandas

前言 前面一篇文章我们介绍了numpy,但numpy的特长并不是在于数据处理,而是在它能非…...

如何解决Docker的大坑小洼

如何解决Docker的大坑小洼

Docker成为云计算领域的新宠儿已经是不争的事实,作为高速发展的开源项目,难免存在这…...

大数据之HBase MapReduce的实例分析

大数据之HBase MapReduce的实例分析

跟Hadoop的无缝集成使得使用MapReduce对HBase的数据进行分布式计算非常方便,本文将以…...

大数据培训编程知识学习永无止境

大数据培训编程知识学习永无止境

  原以为在学校学过,可以轻松点,但是这种想法才几天就被打破了。在这儿的知识量远…...

Hadoop+HBase+ZooKeeper三者关系与安装配置之搭建

Hadoop+HBase+ZooKeeper三者关系与安装配置

搭建完全分布式集群 HBase集群建立在hadoop集群基础之上,所以在搭建HBase集群之前需…...

spark2.1.0之配置与源码分析

spark2.1.0之配置与源码分析

任何优秀的软件或服务都会提供一些配置参数,这些配置参数有些是内置的,有些则是可以…...