Hadoop项目如何组成

这篇文章主要为大家展示了“Hadoop项目如何组成”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“Hadoop项目如何组成”这篇文章吧。

创新互联长期为1000+客户提供的网站建设服务，团队从业经验10年，关注不同地域、不同群体，并针对不同对象提供差异化的产品和服务；打造开放共赢平台，与合作伙伴共同营造健康的互联网生态环境。为绥阳企业提供专业的成都网站设计、做网站，绥阳网站改版等技术服务。拥有十年丰富建站经验和众多成功案例,为您定制开发。

Hadoop由以下几个项目构成

总体结构图如下

1、Hadoop Common ：Hadoop体系最底层的一个模块，为Hadoop各子项目提供各种工具，如：配置文件和日志操作等。
2、HDFS：分布式文件系统，提供高吞吐量的应用程序数据访问，对外部客户机而言，HDFS 就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件，等等。但是 HDFS 的架构是基于一组特定的节点构建的（参见图 1），这是由它自身的特点决定的。这些节点包括 NameNode（仅一个），它在 HDFS 内部提供元数据服务；DataNode，它为 HDFS 提供存储块。由于仅存在一个 NameNode，因此这是 HDFS 的一个缺点（单点失败）。
存储在 HDFS 中的文件被分成块，然后将这些块复制到多个计算机中（DataNode）。这与传统的 RAID 架构大不相同。块的大小（通常为 64MB）和复制的块数量在创建文件时由客户机决定。NameNode 可以控制所有文件操作。HDFS 内部的所有通信都基于标准的 TCP/IP 协议。
3、MapReduce ：一个分布式海量数据处理的软件框架集计算集群。
4、Avro ：doug cutting主持的RPC项目，主要负责数据的序列化。有点类似Google的protobuf和Facebook的thrift。avro用来做以后hadoop的RPC，使hadoop的RPC模块通信速度更快、数据结构更紧凑。
5、Hive ：类似CloudBase，也是基于hadoop分布式计算平台上的提供data warehouse的sql功能的一套软件。使得存储在hadoop里面的海量数据的汇总，即席查询简单化。hive提供了一套QL的查询语言，以sql为基础，使用起来很方便。
6、HBase ：基于Hadoop Distributed File System，是一个开源的，基于列存储模型的可扩展的分布式数据库，支持大型表的存储结构化数据。
7、Pig ：是一个并行计算的高级的数据流语言和执行框架，SQL-like语言，是在MapReduce上构建的一种高级查询语言，把一些运算编译进MapReduce模型的Map和Reduce中，并且用户可以定义自己的功能。
8、ZooKeeper ：Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。
9、Chukwa ：一个管理大型分布式系统的数据采集系统由yahoo贡献。
10、Cassandra ：无单点故障的可扩展的多主数据库
11、Mahout ：一个可扩展的机器学习和数据挖掘库

以上是“Hadoop项目如何组成”这篇文章的所有内容，感谢各位的阅读！相信大家都有了一定的了解，希望分享的内容对大家有所帮助，如果还想学习更多知识，欢迎关注创新互联行业资讯频道！

新闻标题：Hadoop项目如何组成
本文链接：http://dzwzjz.com/article/jsjese.html

大橙子网站建设，新征程启航

Hadoop项目如何组成

其他资讯