专注Java教育14年 全国咨询/投诉热线:444-1124-454
赢咖4LOGO图
始于2009,口口相传的Java黄埔军校
首页 hot资讯 用Hadoop可以做什么

用Hadoop可以做什么

更新时间:2022-04-02 09:43:05 来源:赢咖4 浏览871次

让我们看一下Hadoop项目——它是什么以及它的用途何时可能适合您的项目。Hadoop 被众多公司使用,包括 Facebook、LinkedIn、阿里巴巴、eBay 和亚马逊。

用Hadoop可以做什么

Hadoop是什么?简而言之,Hadoop 非常适合对海量数据进行 MapReduce 数据分析。它的具体用例包括:数据搜索、数据分析、数据报告、文件的大规模索引(例如,日志文件或来自网络爬虫的数据),以及使用在开发世界中通俗地称为“大数据”的其他数据处理任务。”

Hadoop 基础架构和基于 Java 的 MapReduce 作业编程需要技术专业知识才能正确设置和维护。如果这些技能对自己的雇佣或服务成本太高,您可能需要考虑针对您的大数据的其他数据处理选项。

Hadoop能做什么?

1.处理非常大的数据:如果你的数据非常大——我们说的是至少 TB 或 PB 的数据——Hadoop 适合你。对于其他不太大(想想千兆字节)的数据集,还有很多其他可用的工具,实施和维护成本要低得多(例如,各种 RDBM 和 NoSQL 数据库系统)。也许您的数据集目前不是很大,但是随着您的数据大小由于各种因素而扩大,这可能会发生变化。在这种情况下,可能需要仔细规划——尤其是如果您希望所有原始数据始终可用于灵活的数据处理。

2. 存储不同的数据集:Hadoop 可以存储和处理任何文件数据:无论大小,无论是纯文本文件还是二进制文件(如图像),甚至是某些特定数据格式在不同时间段内的多个不同版本。您可以随时更改处理和分析 Hadoop 数据的方式。这种灵活的方法允许进行创新开发,同时仍处理大量数据,而不是缓慢和/或复杂的传统数据迁移。用于这些类型的灵活数据存储的术语是数据湖。

3.对于并行数据处理:MapReduce 算法要求您可以并行化数据处理。MapReduce 在变量被一一处理(例如,计数或聚合)的情况下工作得很好;但是,当您需要联合处理变量时(例如,Java变量之间存在许多相关性),此模型不起作用。

任何基于图形的数据处理(意味着依赖于其他数据的复杂数据网络)都不适合 Hadoop 的标准方法。话虽如此,相关的 Apache Tez框架确实允许使用基于图形的方法来使用 YARN 处理数据,而不是更线性的 MapReduce 工作流程。

提交申请后,顾问老师会电话与您沟通安排学习

免费课程推荐 >>
技术文档推荐 >>