hadoop编程的介绍(简述hadoop搭建步骤)

前言之前工作中,有接触到大数据的需求,虽然当时我们体系有专门的大数据部门,但是由于当时我们中台重构,整个体系的开发量巨大,共用一个大数据部门,人手已经忙不过来,没法办,为了赶时间,我自己负责的系统的大数据相关操作,由我们自己承担了。此前对大数据的知识

前言

之前工作中,有接触到大数据的需求,虽然当时我们体系有专门的大数据部门,但是由于当时我们中台重构,整个体系的开发量巨大,共用一个大数据部门,人手已经忙不过来,没法办,为了赶时间,我自己负责的系统的大数据相关操作,由我们自己承担了。此前对大数据的知识了解的很少,于是晚上回去花时间突击大数据知识,白天就开始上手干,一边学一边做,总算在部门规定的时间,跟系统一起上线了。后来的维护迭代就交给大数据去了,虽然接触大数据的时间不长,但是对我来说,确是很有意思的一段经历,觉得把当时匆匆学的知识点,再仔细回顾回顾,整理下。

01 大数据概述

大数据: 就是对海量数据进行分析处理,得到一些有价值的信息,然后帮助企业做出判断和决策.

处理流程:

  • ​ 1:获取数据
  • ​ 2:处理数据
  • ​ 3:展示结果

02 Hadoop介绍

Hadoop是一个分布式系基础框架,它允许使用简单的编程模型跨大型计算机的大型数据集进行分布式处理.它主要解决两个问题

  • 大数据存储问题: HDFS
  • 大数据计算问题:MapReduce

2.1 问题一: 大文件怎么存储?

假设一个文件非常非常大,大小为1PB/a.txt, 大到世界上所有的高级计算机都存储不下, 怎么办?

  • 为了保存大文件, 需要把文件放在多个机器上
    • 文件要分块 block(128M)
    • 不同的块放在不同的 HDFS 节点
  • 同时为了对外提供统一的访问, 让外部可以像是访问本机一样访问分布式文件系统
    • 有一个统一的 HDFS Master
    • 它保存整个系统的文件信息
    • 所有的文件元数据的修改都从 Master 开始

2. 2 问题二: 大数据怎么计算?

从一个网络日志文件中计算独立 IP, 以及其出现的次数
如果数据量特别大,我们可以将,整个任务拆开, 划分为比较小的任务, 从而进行计算呢。

2.3 问题三: 如何将这些计算任务跑在集群中?

如果能够在不同的节点上并行执行, 更有更大的提升, 如何把这些任务跑在集群中?

  • 可以设置一个集群的管理者, 这个地方叫做 Yarn这个集群管理者有一个 Master, 用于接收和分配任务这个集群管理者有多个 Slave, 用于运行任务

2.4 Hadoop 的组成

  • Hadoop分布式文件系统(HDFS) 提供对应用程序数据的高吞吐量访问的分布式文件系统
  • Hadoop Common 其他Hadoop模块所需的Java库和实用程序。这些库提供文件系统和操作系统级抽象,并包含启动Hadoop所需的必要Java文件和脚本
  • Hadoop MapReduce 基于YARN的大型数据集并行处理系统
  • Hadoop YARN 作业调度和集群资源管理的框架

2.5 Hadoop前生今世

  1. Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。
  2. 2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。

——分布式文件系统(GFS),可用于处理海量网页的存储

——分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题。

  1. Nutch的开发人员完成了相应的开源实现HDFSMAPREDUCE,并从Nutch中剥离成为独立项目HADOOP,到2008年1月,HADOOP成为Apache顶级项目.

狭义上来说,hadoop就是单独指代hadoop这个软件,

HDFS :分布式文件系统

MapReduce : 分布式计算系统

广义上来说,hadoop指代大数据的一个生态圈,包括很多其他的软件

hadoop编程的介绍(简述hadoop搭建步骤)

Reduce 大致分为 copy、sort、reduce 三个阶段,重点在前两个阶段。copy 阶段包含一个 eventFetcher 来获取已完成的 map 列表,由 Fetcher 线程去 copy 数据,在此过程中会启动两个 merge 线程,分别为 inMemoryMerger 和 onDiskMerger,分别将内存中的数据 merge 到磁盘和将磁盘中的数据进行 merge。待数据 copy 完成之后,copy 阶段就完成了,开始进行 sort 阶段,sort 阶段主要是执行 finalMerge 操作,纯粹的 sort 阶段,完成之后就是 reduce 阶段,调用用户定义的 reduce 函数进行处理

详细步骤:

  1. Copy阶段 ,简单地拉取数据。Reduce进程启动一些数据copy线程(Fetcher),通过HTTP方式请求maptask获取属于自己的文件。
  2. Merge阶段 。这里的merge如map端的merge动作,只是数组中存放的是不同map端copy来的数值。Copy过来的数据会先放入内存缓冲区中,这里的缓冲区大小要比map端的更为灵活。merge有三种形式:内存到内存;内存到磁盘;磁盘到磁盘。默认情况下第一种形式不启用。当内存中的数据量到达一定阈值,就启动内存到磁盘的merge。与map 端类似,这也是溢写的过程,这个过程中如果你设置有Combiner,也是会启用的,然后在磁盘中生成了众多的溢写文件。第二种merge方式一直在运行,直到没有map端的数据时才结束,然后启动第三种磁盘到磁盘的merge方式生成最终的文件。
  3. 合并排序 。把分散的数据合并成一个大的数据后,还会再对合并后的数据排序。
  4. 对排序后的键值对调用reduce方法 ,键相等的键值对调用一次reduce方法,每次调用会产生零个或者多个键值对,最后把这些输出的键值对写入到HDFS文件中。

4.6 Shuffle具体流程

map 阶段处理的数据如何传递给 reduce 阶段,是 MapReduce 框架中最关键的一个流程,这个流程就叫 shuffle
shuffle: 洗牌、发牌 ——(核心机制:数据分区,排序,分组,规约,合并等过程)

hadoop编程的介绍(简述hadoop搭建步骤)
  1. Collect阶段 :将 MapTask 的结果输出到默认大小为 100M 的环形缓冲区,保存的是key/value,Partition 分区信息等。
  2. Spill阶段 :当内存中的数据量达到一定的阀值的时候,就会将数据写入本地磁盘,在将数据写入磁盘之前需要对数据进行一次排序的操作,如果配置了 combiner,还会将有相同分区号和 key 的数据进行排序。
  3. Merge阶段 :把所有溢出的临时文件进行一次合并操作,以确保一个 MapTask 最终只产生一个中间数据文件。
  4. Copy阶段 :ReduceTask 启动 Fetcher 线程到已经完成 MapTask 的节点上复制一份属于自己的数据,这些数据默认会保存在内存的缓冲区中,当内存的缓冲区达到一定的阀值的时候,就会将数据写到磁盘之上。
  5. Merge阶段 :在 ReduceTask 远程复制数据的同时,会在后台开启两个线程对内存到本地的数据文件进行合并操作。
  6. Sort阶段 :在对数据进行合并的同时,会进行排序操作,由于 MapTask 阶段已经对数据进行了局部的排序,ReduceTask 只需保证 Copy 的数据的最终整体有效性即可。Shuffle 中的缓冲区大小会影响到 mapreduce 程序的执行效率,原则上说,缓冲区越大,磁盘io的次数越少,执行速度就越快

缓冲区的大小可以通过参数调整, 参数:mapreduce.task.io.sort.mb 默认100M

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 55@qq.com 举报,一经查实,本站将立刻删除。转转请注明出处:https://www.szhjjp.com/n/45179.html

(0)
nan
上一篇 2021-11-14
下一篇 2021-11-14

相关推荐

  • 私人打电话追债技巧(追债说话技巧最有效的方法)

    有人说:“成年人关系的开始和结束都是以借钱开始的。”没错,成年人的关系,从来只有拿钱能够考验出来,很多次的背叛,其实也是因为彼此之间借钱。小李在公司是出名的“老实人”,遇到一位新到的同事,即便关系不是很熟,小李也愿意主动伸手帮忙。结果,正是他的善良,

    2022-01-10 创业分享
    0
  • 梵蜜琳是微商还是品牌(梵蜜琳属于什么档次)

    随着火爆全网的热门综艺节目《乘风破浪的姐姐》的持续播出下,冠名该节目的总冠名商梵蜜琳也凭借该节目红透网内外。然而与此同时梵蜜琳也遭到了来自媒体的质疑,陷入“微商”“代工厂”“高价”的舆论压力。产品为代加工,价格虚高据企查查显示,梵蜜琳品牌

    2021-11-23 创业分享
    0
  • 新手抖音运营教程(抖音直播怎么赚钱)

    先说抖音直播的优势,可以“零粉丝”直播带货,也就是不依赖账号的粉丝,单纯靠直播间当天的表现,用很小量的用户观看,撬动很大的精准用户,从而达到带货的结果。成功案例是,前几天我老家的一个弟弟,做了好多个小号,开通抖音小店,想办法买了3000粉丝

    2021-12-01
    0
  • 好物联盟加入有什么条件(好物联盟怎么加入)

    最近小编分享了几篇关于快手好物联盟的文章深受小伙伴的追捧,然而还是有还多小伙伴不知道商家怎样加入快手好物联盟!!无论你是供应商,还是快手小店商家,或者是粉丝几百万的达人,都必须知道好物联盟是什么!怎样加入快手好物联盟!下面我再给大家介绍一下

    2021-12-01
    0
  • 键盘快捷键大全及使用方法(输入法快捷键设置)

    超实用的Ctrl快捷键大全Ctrl+A全选(字体、文件或文件夹)Ctrl+B整理收藏夹Ctrl+C复制(字体、文件或文件夹)Ctrl+D将当前Web页添加到收藏夹Ctrl+E打开系统或Internet搜索Ctrl+F

    2021-12-03
    0
  • 餐饮行业什么最有前景(2018餐饮创业项目推荐)

    现在大家只要有点本钱都想自己做个小生意,那么什么小生意回本快、利润高呢?当然是餐饮界创业小项目,不但成本低而且利润特别高,现在市场上小成本的餐饮创业项目有很多,来自西安唯典陕西小吃培训中心的小编今天就为大家简单介绍几个受欢迎,利润可观的餐饮

    2021-11-29 创业分享
    0

发表回复

登录后才能评论