专注Java教育14年 全国咨询/投诉热线:444-1124-454
赢咖4LOGO图
始于2009,口口相传的Java黄埔军校
首页 hot资讯 Hadoop集群搭建介绍

Hadoop集群搭建介绍

更新时间:2022-10-17 10:24:49 来源:赢咖4 浏览393次

什么是 Hadoop 集群?

Apache Hadoop是一个开源的、基于 Java 的软件框架和并行数据处理引擎。它可以将大数据分析处理任务分解为更小的任务,这些任务可以通过使用算法(如MapReduce算法)并行执行,并将它们分布在 Hadoop 集群中。Hadoop 集群是一组计算机(称为节点),它们联网在一起以在大数据集上执行这些类型的并行计算。与其他计算机集群不同,Hadoop 集群专门设计用于在分布式计算环境中存储和分析大量结构化和非结构化数据。进一步区分Hadoop 生态系统与其他计算机集群不同的是它们独特的结构和架构。Hadoop 集群由连接的主节点和从节点网络组成,这些节点利用高可用性、低成本的商品硬件。根据容量需求线性扩展和快速添加或减少节点的能力使它们非常适合数据集大小可变的大数据分析工作。

Hadoop集群架构

Hadoop 集群由主节点和工作节点网络组成,这些节点在 Hadoop 分布式文件系统中编排和执行各种作业。主节点通常使用更高质量的硬件,包括 NameNode、Secondary NameNode 和 JobTracker,每个都在单独的机器上运行。工作人员由虚拟机组成,在商品硬件上运行 DataNode 和 TaskTracker 服务,并按照主节点的指示执行存储和处理作业的实际工作。系统的最后一部分是客户端节点,它们负责加载数据并获取结果。

主节点负责将数据存储在HDFS中并监督关键操作,例如使用 MapReduce 对数据运行并行计算。

工作节点包括 Hadoop 集群中的大部分虚拟机,并执行存储数据和运行计算的工作。每个工作节点运行 DataNode 和 TaskTracker 服务,用于接收来自主节点的指令。

客户端节点负责将数据加载到集群中。客户端节点首先提交描述需要如何处理数据的 MapReduce 作业,然后在处理完成后获取结果。

Hadoop中的集群大小是多少?

Hadoop 集群大小是一组指标,用于定义运行 Hadoop 工作负载的存储和计算能力,即:

节点数:主节点数、边缘节点数、工作节点数。

每种类型节点的配置:每个节点的核心数、RAM 和磁盘卷。

Hadoop集群的优势是什么?

Hadoop 集群可以提高许多大数据分析作业的处理速度,因为它们能够将大型计算任务分解为可以以并行、分布式方式运行的较小任务。

Hadoop 集群易于扩展,在面对不断增加的数据块时,可以快速添加节点以提高吞吐量并保持处理速度。

低成本、高可用性商品硬件的使用使得 Hadoop 集群的设置和维护相对容易且成本低廉。

Hadoop 集群跨分布式文件系统复制数据集,使其能够抵御数据丢失和集群故障。

Hadoop 集群使得集成和利用来自多个不同源系统和数据格式的数据成为可能。

出于评估目的,可以使用单节点安装部署 Hadoop。

Hadoop 集群的挑战是什么?

小文件的问题 - Hadoop 难以处理大量小文件 - 默认情况下小于 128MB 或 256MB 的 Hadoop 块大小。它并非旨在以可扩展的方式支持大数据。相反,当有少量大文件时,Hadoop 运行良好。最终,当您增加小文件的数量时,它会在 Namenode 为系统存储命名空间时超载。

高处理开销——Hadoop 中的读写操作会很快变得非常昂贵,尤其是在处理大量数据时。这一切都归结为 Hadoop 无法进行内存处理,而是从磁盘读取和写入数据。

仅支持批处理 - Hadoop 是为批量少量大文件构建的。这可以追溯到收集和存储数据的方式,所有这些都必须在处理开始之前完成。这最终意味着不支持流式数据,并且无法以低延迟进行实时处理。

迭代处理 - Hadoop 的数据流结构是按顺序设置的,这使得无法进行迭代处理或用于 ML。

提交申请后,顾问老师会电话与您沟通安排学习

免费课程推荐 >>
技术文档推荐 >>