博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
大数据成神之路
阅读量:5786 次
发布时间:2019-06-18

本文共 1942 字,大约阅读时间需要 6 分钟。

很多人都知道大数据很火,就业很好,薪资很高,想往大数据方向发展。但该学哪些技术,学习路线是什么样的呢?用不用参加大数据培训呢?如果自己很迷茫,为了这些原因想往大数据方向发展,也可以,那么大讲台老师就想问一下,你的专业是什么,对于计算机/软件,你的兴趣是什么?是计算机专业,对操作系统、硬件、网络、服务器感兴趣?是软件专业,对软件开发、编程、写代码感兴趣?还是数学、统计学专业,对数据和数字特别感兴趣。

其实这就是想告诉你的大数据的三个发展方向,平台搭建/优化/运维/监控、大数据开发/设计/架构、数据分析/挖掘。请不要问我哪个容易,哪个前景好,哪个钱多。

必须技能10条

1.Java高级(虚拟机、并发)

2.Linux 基本操作

3.Hadoop(此处为侠义概念单指HDFS+MapReduce+Yarn )

4.HBase(JavaAPI操作+Phoenix )

5.Hive(Hql基本操作和原理理解)

6.Kafka

7.Storm

8.Scala需要

9.Python

10.Spark (Core+sparksql+Spark streaming )

11.一些小工具(Sqoop等)

高阶技能6条

1.机器学习算法以及mahout库加MLlib

2.R语言

3.Lambda 架构

4.Kappa架构

5.Kylin

6.Aluxio

第一章:初识Hadoop

1.1 学会百度与Google

1.2 参考资料首选官方文档

1.3 先让Hadoop跑起来

1.4 试试使用Hadoop

1.5 你该了解它们的原理了

1.6 自己写一个MapReduce程序

第二章:更高效的WordCount

2.1 学点SQL吧

2.2 SQL版WordCount

2.3 SQL On Hadoop之Hive

2.4 安装配置Hive

2.5 试试使用Hive

2.6 Hive是怎么工作的

2.7 学会Hive的基本命令

第三章:把别处的数据搞到Hadoop上

3.1 HDFS PUT命令

3.2 HDFS API

3.3 Sqoop

3.4 Flume

3.5 阿里开源的DataX

第四章:把Hadoop上的数据搞到别处去

4.1 HDFS GET命令

4.2 HDFS API

4.3 Sqoop

4.4 DataX

第五章:快一点吧,我的SQL

5.1 关于Spark和SparkSQL

5.2 如何部署和运行SparkSQL

第六章:一夫多妻制

6.1 关于Kafka

6.2 如何部署和使用Kafka

第七章:越来越多的分析任务

7.1 Apache Oozie

7.2 其他开源的任务调度系统

第八章:我的数据要实时

8.1 Storm

8.2 Spark Streaming

第九章:我的数据要对外

通常对外(业务)提供数据访问,大体上包含以下方面:

离线:比如,每天将前一天的数据提供到指定的数据源(DB、FILE、FTP)等;离线数据的提供可以采用Sqoop、DataX等离线数据交换工具。

实时:比如,在线网站的推荐系统,需要实时从数据平台中获取给用户的推荐数据,这种要求延时非常低(50毫秒以内)。

根据延时要求和实时数据的查询需要,可能的方案有:HBase、Redis、MongoDB、ElasticSearch等。

OLAP分析:OLAP除了要求底层的数据模型比较规范,另外,对查询的响应速度要求也越来越高,可能的方案有:Impala、Presto、SparkSQL、Kylin。如果你的数据模型比较规模,那么Kylin是最好的选择。

即席查询:即席查询的数据比较随意,一般很难建立通用的数据模型,因此可能的方案有:Impala、Presto、SparkSQL。

这么多比较成熟的框架和方案,需要结合自己的业务需求及数据平台技术架构,选择合适的。原则只有一个:越简单越稳定的,就是最好的。

第十章:逼格高的机器学习

关于这块,大讲台老师只是简单介绍一下了。

在我们的业务中,遇到的能用机器学习解决的问题大概这么三类:

分类问题:包括二分类和多分类,二分类就是解决了预测的问题,就像预测一封邮件是否垃圾邮件;多分类解决的是文本的分类;

聚类问题:从用户搜索过的关键词,对用户进行大概的归类。

推荐问题:根据用户的历史浏览和点击行为进行相关推荐。

大多数行业,使用机器学习解决的,也就是这几类问题。

PS:

关注微信公众号“程序员OfHome”,发送“领取资料”可以免费领取视频资料。

群里有都是从事或者在学习大数据的朋友,在此我也邀请你进群一起学习,群内没有广告,也是禁止打广告的,大家也可以关注一下我的微信公共号“程序员OfHome”下方扫扫可关注。

转载地址:http://dfxyx.baihongyu.com/

你可能感兴趣的文章
CentOS 7 防火墙操作
查看>>
关于 top 工具的 6 个替代方案
查看>>
程序员最讨厌的9句话,你可有补充?
查看>>
PAT A1037
查看>>
浅谈RPC
查看>>
Docker 容器的通信(十二)
查看>>
从windows server的文件服务到分布式文件服务(九)
查看>>
《MySQL管理之道:性能调优、高可用与监控》china-pub首发!
查看>>
尝试登录 VMware vCenter Server 5.5 时,“别名”值为空如何解决
查看>>
安全威胁情报实战
查看>>
Cocos2d-x 坐标系及其坐标转换
查看>>
SFB 项目经验-05-共存迁移-Lync 2013-SFB 2015-边缘服务器复制状态不正常
查看>>
九、OLTP 性能调整与优化--结语
查看>>
2011年度总结
查看>>
linux下的 lib文件的学习思考
查看>>
微软MCITP系列课程(十)WSUS服务器搭建
查看>>
华为HCC2014的变与不变
查看>>
Outlook替代Hotmail:社交很重要,但邮箱是根本
查看>>
大卫谈学习
查看>>
层次化防御保证企业门户网站安全
查看>>