-
Apache Hadoop v3.3.6 in action-02-cluster mode 集群部署实战
hadoop 版本
https://cwiki.apache.org/confluence/display/HADOOP/Hadoop+Java+Versions
Supported Java Versions
Apache Hadoop 3.3 and upper supports Java 8 and Java 11 (runtime only)
Please compil...
2017-12-05 21:47:35 |
Apache
-
Apache Hadoop v3.3.6 in action-01-single mode 单机部署实战 windows10 wsl
hadoop 版本
https://cwiki.apache.org/confluence/display/HADOOP/Hadoop+Java+Versions
Supported Java Versions
Apache Hadoop 3.3 and upper supports Java 8 and Java 11 (runtime only)
Please compil...
2017-12-05 21:47:35 |
Apache
-
Apache Hadoop v3.3.6 in action-01-HDFS 部署完成后 java 程序如何访问验证
单机版本配置
配置文件 core-site.xml
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!-- 指定NameNode的地址,端口一般有8020、...
2017-12-05 21:47:35 |
Apache
-
Apache Hadoop-05-Yarn Yet Another Resource Negotiator 资源管理器,YARN负责集群资源的管理和作业调度。
Yarn
chat
详细介绍一下 hadoop yarn
Hadoop YARN(Yet Another Resource Negotiator)是Apache Hadoop项目的一个关键组件,用于分布式数据处理。
YARN的设计目标是提供一个通用的资源管理框架,使得Hadoop可以运行各种不同类型的应用程序,而不仅仅是MapReduce。
YARN的引入使得Hadoop集群更加灵...
2017-12-04 21:47:35 |
Apache
-
Apache Hadoop-04-MapReduce 分布式计算的处理技术和程序模型
MapReduce
MapReduce 是一个框架,我们可以使用它来编写应用程序,以可靠的方式并行地处理大量商品硬件群集上的大量数据。
什么是MapReduce?
MapReduce是一种基于 java 的分布式计算的处理技术和程序模型。
MapReduce算法包含两个重要任务,即Map和Reduce。
Map采用一组数据并将其转换为另一组数据,其中各个元素被分解为元组(键/值对)...
2017-12-04 21:47:35 |
Apache
-
Apache Hadoop-03-HDFS Distributed File System 分布式文件系统
HDFS
Hadoop文件系统是使用分布式文件系统设计开发的。它运行在商用硬件上。与其他分布式系统不同,HDFS是高度容错的,并且使用低成本硬件设计。
HDFS拥有大量的数据并提供更容易的访问。为了存储这样巨大的数据,文件存储在多个机器。这些文件以冗余方式存储,以在发生故障时避免系统可能的数据丢失。
HDFS还使应用程序可用于并行处理。
特点
它适用于在分布式存储和...
2017-12-04 21:47:35 |
Apache
-
Apache-Hadoop-02-big data 大数据入门简介
Hadoop 系列教程
主要记录了 Hadoop 各个组件的基本原理,处理过程和关键的知识点
ps: 本文并不是第一次关于 hadoop,本篇内容更倾向于理论和基础知识。
后期会学习 spark,我想二者定有很多相似之处。就从这个入手。
本博客入门过一遍,也提供日后查阅。
Hadoop 拓展
大数据概述
90% 的世界数据...
2017-12-04 21:47:35 |
Apache
-
Apache Hadoop-01-hello world 入门例子
Hadoop
Apache™ Hadoop® 项目致力于开发可靠、可扩展、分布式计算的开源软件。
该项目包括以下模块:
Hadoop Common:支持其他 Hadoop 模块的通用工具。
Hadoop Distributed File System (HDFS™):提供对应用程序数据的高吞吐量访问的分布式文件系统。
Hadoop...
2017-12-04 21:47:35 |
Apache