Hadoop简介

大数据(Big Data):指的是传统数据处理应用软件不足以处理(存储和计算)它们的大而复杂的数据集。

主要解决海量数据的存储和海量数据的运算问题。

Hadoop简介

Hadoop产生背景

1、Hadoop 最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题 ——如何解决数十亿网页的存储和索引问题。

2、2003 -2004年谷歌发表的三篇论文为该问题提供了可行的解决方案

  • 分布式文件系统 GFS,可用于处理海量网页的存储;(HDFS)
  • 分布式计算框架 MapReduce,可用于处理海量网页的索引计算问题;(MapReduce)
  • 分布式数据库 BigTable,每一张表可以存储上 billions 行和 millions 列;(HBase)

3、Nutch的开发人员完成了相应的开源实现HDFS 和 MapReduce,并从Nutch中剥离成为独立项目Hadoop,到 2008 年 1 月,Hadoop 成为Apache 顶级项目,迎来了它的快速发展期。

什么是Hadoop

1、Hadoop 是 Apache 旗下的一套开源软件平台 。

2、Hadoop 提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理存储+运算。

3、Hadoop 的核心组件有:

  • Common(基础功能组件)

  • HDFS(Hadoop Distributed File System 分布式文件系统)

  • YARN(Yet Another Resources Negotiator 运算资源调度系统)

  • MapReduce(Map 和 Reduce 分布式运算编程框架)

4、广义上来说,Hadoop 通常是指一个更广泛的概念–Hadoop 生态圈

5、官网介绍:http://hadoop.apache.org/

6、Hadoop 三大发行版本:Apache、Cloudera、Hortonworks

打赏
  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!
  • Copyrights © 2022-2024 归一
  • 访问人数: | 浏览次数:

请我喝杯咖啡吧~

支付宝
微信