跳转至

Hadoop

快速上手

概念

Hadoop ——分布式系统基础架构,解决海量数据的存储和计算(检索、分析)问题。

谷歌大数据方面的三篇论文: - GFS --> HDFS - Map-Reduce --> MR - BigTable --> HBase

Hadoop 优势:高可靠(副本)、高可扩(集群)、高效(并行计算)、容错(重试)。

Hadoop 生态圈

数据来源层

结构化数据:数据库;半结构化数据:日志;非结构化数据:音频、视频。

数据传输层

Sqoop/Flume/Kafka。

数据存储层

HDFS/HBase/Kafka。

资源管理层

YARN。

数据计算层

离线计算 MR,数据查询 Hive;内存计算 Spark;实时计算 Flink。

任务调度层

Azkaban。

业务模型层

模型;可视化。

Hadoop 发行版

Apache Hadoop(2006),入门学习。

Hadoop 版本

Hadoop 1.X :Common + HDFS + MapReduce。 Hadoop 2.X :Common + HDFS + Yarn + MapReduce。

安装

docker swarm init

docker network create --driver overlay hbase

docker stack deploy -c code/env/hadoop/docker-stack.yaml hadoop

配置

  • /etc/hadoop/core-site.xml CORE_CONF
  • /etc/hadoop/hdfs-site.xml HDFS_CONF
  • /etc/hadoop/yarn-site.xml YARN_CONF
  • /etc/hadoop/mapred-site.xml MAPRED_CONF

CORE_CONF

启动

open http://192.168.205.68:9870 # name node
open http://192.168.205.68:9864 # data node
open http://192.168.205.69:8042 # node manager
open http://192.168.205.69:8088

HDFS

概述

分布式文件系统。

400T := 100T(H1) + 100T(H2) + 100T(H3) + 100T(H4)。

NameNode(2 NN) /DataNode。

Yarn

概述

Yarn(Yet Another Resource Negotiator),资源协调者,Hadoop 的资源管理器。

ResourceManager/NodeManager /ApplicationMaster/Container。

MapReduce

概述

问题

启动问题

h2: ERROR: Cannot set priority of namenode process 24561

资源


最后更新: September 10, 2023

评论