hadoop编程的介绍（简述hadoop搭建步骤）

前言

之前工作中,有接触到大数据的需求,虽然当时我们体系有专门的大数据部门,但是由于当时我们中台重构,整个体系的开发量巨大,共用一个大数据部门,人手已经忙不过来,没法办,为了赶时间,我自己负责的系统的大数据相关操作,由我们自己承担了。此前对大数据的知识了解的很少，于是晚上回去花时间突击大数据知识，白天就开始上手干，一边学一边做，总算在部门规定的时间，跟系统一起上线了。后来的维护迭代就交给大数据去了，虽然接触大数据的时间不长，但是对我来说，确是很有意思的一段经历，觉得把当时匆匆学的知识点，再仔细回顾回顾，整理下。

01 大数据概述

大数据: 就是对海量数据进行分析处理，得到一些有价值的信息，然后帮助企业做出判断和决策.

处理流程:

1:获取数据
2:处理数据
3:展示结果

02 Hadoop介绍

Hadoop是一个分布式系基础框架,它允许使用简单的编程模型跨大型计算机的大型数据集进行分布式处理.它主要解决两个问题

大数据存储问题： HDFS
大数据计算问题：MapReduce

2.1 问题一: 大文件怎么存储?

假设一个文件非常非常大，大小为1PB/a.txt, 大到世界上所有的高级计算机都存储不下, 怎么办?

为了保存大文件, 需要把文件放在多个机器上
- 文件要分块 block(128M)
- 不同的块放在不同的 HDFS 节点
同时为了对外提供统一的访问, 让外部可以像是访问本机一样访问分布式文件系统
- 有一个统一的 HDFS Master
- 它保存整个系统的文件信息
- 所有的文件元数据的修改都从 Master 开始

2. 2 问题二: 大数据怎么计算?

从一个网络日志文件中计算独立 IP, 以及其出现的次数
如果数据量特别大，我们可以将,整个任务拆开, 划分为比较小的任务, 从而进行计算呢。

2.3 问题三: 如何将这些计算任务跑在集群中?

如果能够在不同的节点上并行执行, 更有更大的提升, 如何把这些任务跑在集群中?

可以设置一个集群的管理者, 这个地方叫做 Yarn这个集群管理者有一个 Master, 用于接收和分配任务这个集群管理者有多个 Slave, 用于运行任务

2.4 Hadoop 的组成

Hadoop分布式文件系统(HDFS) 提供对应用程序数据的高吞吐量访问的分布式文件系统

Hadoop Common 其他Hadoop模块所需的Java库和实用程序。这些库提供文件系统和操作系统级抽象，并包含启动Hadoop所需的必要Java文件和脚本
Hadoop MapReduce 基于YARN的大型数据集并行处理系统
Hadoop YARN 作业调度和集群资源管理的框架

2.5 Hadoop前生今世

Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。
2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。

——分布式文件系统（GFS），可用于处理海量网页的存储

——分布式计算框架MAPREDUCE，可用于处理海量网页的索引计算问题。

Nutch的开发人员完成了相应的开源实现HDFS和MAPREDUCE，并从Nutch中剥离成为独立项目HADOOP，到2008年1月，HADOOP成为Apache顶级项目.

狭义上来说，hadoop就是单独指代hadoop这个软件，

HDFS ：分布式文件系统

MapReduce : 分布式计算系统

广义上来说，hadoop指代大数据的一个生态圈，包括很多其他的软件

hadoop编程的介绍（简述hadoop搭建步骤）

Reduce 大致分为 copy、sort、reduce 三个阶段，重点在前两个阶段。copy 阶段包含一个 eventFetcher 来获取已完成的 map 列表，由 Fetcher 线程去 copy 数据，在此过程中会启动两个 merge 线程，分别为 inMemoryMerger 和 onDiskMerger，分别将内存中的数据 merge 到磁盘和将磁盘中的数据进行 merge。待数据 copy 完成之后，copy 阶段就完成了，开始进行 sort 阶段，sort 阶段主要是执行 finalMerge 操作，纯粹的 sort 阶段，完成之后就是 reduce 阶段，调用用户定义的 reduce 函数进行处理

详细步骤:

Copy阶段，简单地拉取数据。Reduce进程启动一些数据copy线程(Fetcher)，通过HTTP方式请求maptask获取属于自己的文件。
Merge阶段。这里的merge如map端的merge动作，只是数组中存放的是不同map端copy来的数值。Copy过来的数据会先放入内存缓冲区中，这里的缓冲区大小要比map端的更为灵活。merge有三种形式：内存到内存；内存到磁盘；磁盘到磁盘。默认情况下第一种形式不启用。当内存中的数据量到达一定阈值，就启动内存到磁盘的merge。与map 端类似，这也是溢写的过程，这个过程中如果你设置有Combiner，也是会启用的，然后在磁盘中生成了众多的溢写文件。第二种merge方式一直在运行，直到没有map端的数据时才结束，然后启动第三种磁盘到磁盘的merge方式生成最终的文件。
合并排序。把分散的数据合并成一个大的数据后，还会再对合并后的数据排序。
对排序后的键值对调用reduce方法，键相等的键值对调用一次reduce方法，每次调用会产生零个或者多个键值对，最后把这些输出的键值对写入到HDFS文件中。

4.6 Shuffle具体流程

map 阶段处理的数据如何传递给 reduce 阶段，是 MapReduce 框架中最关键的一个流程，这个流程就叫 shuffle
shuffle: 洗牌、发牌 ——（核心机制：数据分区，排序，分组，规约，合并等过程）

Collect阶段：将 MapTask 的结果输出到默认大小为 100M 的环形缓冲区，保存的是key/value，Partition 分区信息等。
Spill阶段：当内存中的数据量达到一定的阀值的时候，就会将数据写入本地磁盘，在将数据写入磁盘之前需要对数据进行一次排序的操作，如果配置了 combiner，还会将有相同分区号和 key 的数据进行排序。
Merge阶段：把所有溢出的临时文件进行一次合并操作，以确保一个 MapTask 最终只产生一个中间数据文件。
Copy阶段：ReduceTask 启动 Fetcher 线程到已经完成 MapTask 的节点上复制一份属于自己的数据，这些数据默认会保存在内存的缓冲区中，当内存的缓冲区达到一定的阀值的时候，就会将数据写到磁盘之上。
Merge阶段：在 ReduceTask 远程复制数据的同时，会在后台开启两个线程对内存到本地的数据文件进行合并操作。
Sort阶段：在对数据进行合并的同时，会进行排序操作，由于 MapTask 阶段已经对数据进行了局部的排序，ReduceTask 只需保证 Copy 的数据的最终整体有效性即可。Shuffle 中的缓冲区大小会影响到 mapreduce 程序的执行效率，原则上说，缓冲区越大，磁盘io的次数越少，执行速度就越快

缓冲区的大小可以通过参数调整, 参数：mapreduce.task.io.sort.mb 默认100M

hadoop编程的介绍（简述hadoop搭建步骤）

前言

01 大数据概述

02 Hadoop介绍

2.1 问题一: 大文件怎么存储?

2. 2 问题二: 大数据怎么计算?

2.3 问题三: 如何将这些计算任务跑在集群中?

2.4 Hadoop 的组成

2.5 Hadoop前生今世

4.6 Shuffle具体流程

相关推荐

私人打电话追债技巧(追债说话技巧最有效的方法)

梵蜜琳是微商还是品牌(梵蜜琳属于什么档次)

新手抖音运营教程(抖音直播怎么赚钱)

好物联盟加入有什么条件(好物联盟怎么加入)

键盘快捷键大全及使用方法(输入法快捷键设置)

餐饮行业什么最有前景(2018餐饮创业项目推荐)

发表回复