大数据(Big Data):指的是传统数据处理应用软件不足以处理(存储和计算)它们的大而复杂的数据集。
主要解决海量数据的存储和海量数据的运算问题。
Hadoop简介
Hadoop产生背景
1、Hadoop 最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题 ——如何解决数十亿网页的存储和索引问题。
2、2003 -2004年谷歌发表的三篇论文为该问题提供了可行的解决方案
- 分布式文件系统 GFS,可用于处理海量网页的存储;(HDFS)
- 分布式计算框架 MapReduce,可用于处理海量网页的索引计算问题;(MapReduce)
- 分布式数据库 BigTable,每一张表可以存储上 billions 行和 millions 列;(HBase)
3、Nutch的开发人员完成了相应的开源实现HDFS 和 MapReduce,并从Nutch中剥离成为独立项目Hadoop,到 2008 年 1 月,Hadoop 成为Apache 顶级项目,迎来了它的快速发展期。
什么是Hadoop
1、Hadoop 是 Apache 旗下的一套开源软件平台 。
2、Hadoop 提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理存储+运算。
3、Hadoop 的核心组件有:
Common(基础功能组件)
HDFS(Hadoop Distributed File System 分布式文件系统)
YARN(Yet Another Resources Negotiator 运算资源调度系统)
MapReduce(Map 和 Reduce 分布式运算编程框架)
4、广义上来说,Hadoop 通常是指一个更广泛的概念–Hadoop 生态圈
5、官网介绍:http://hadoop.apache.org/
6、Hadoop 三大发行版本:Apache、Cloudera、Hortonworks
打赏