大数据入门(2)——学习实战路线

大数据的计算模型分为:离线计算和实时计算。

1. 首先学习编程语言

  • Java –> Java SE 的内容,Java 基础
  • Scala –> 学习Spark,注意:Scala是基于Java的,需要JVM环境

2. 需要学习Hadoop:

  • 数据的存储:HDFS——Hadoop Distributed File System
  • 数据的计算:MapReduce
  • 生态圈(组件):HBase、Hive、Flume、Pig、HUE、Sqoop等等

3. NoSQL 数据库:Redis 内存数据库

4. 学习Apache Storm 实时计算

5. Spark

  • Scala
  • Spark Core 内核(处理引擎)
  • Spark SQL:类似MySQL数据库,支持SQL
  • Spark Streaming: 类似Apache Storm 实时计算

6. 将来:机器学习、深度计算、人工智能

注意:大数据和关系型数据库有什么关系?没有关系!!!

学习大数据的时候,重点要:

  • 掌握原理和体系结构
  • 动手实验
  • 写程序