Hadoop
快速上手¶
概念¶
Hadoop ——分布式系统基础架构,解决海量数据的存储和计算(检索、分析)问题。
谷歌大数据方面的三篇论文: - GFS --> HDFS - Map-Reduce --> MR - BigTable --> HBase
Hadoop 优势:高可靠(副本)、高可扩(集群)、高效(并行计算)、容错(重试)。
Hadoop 生态圈¶
数据来源层¶
结构化数据:数据库;半结构化数据:日志;非结构化数据:音频、视频。
数据传输层¶
Sqoop/Flume/Kafka。
数据存储层¶
HDFS/HBase/Kafka。
资源管理层¶
YARN。
数据计算层¶
离线计算 MR,数据查询 Hive;内存计算 Spark;实时计算 Flink。
任务调度层¶
Azkaban。
业务模型层¶
模型;可视化。
Hadoop 发行版¶
Apache Hadoop(2006),入门学习。
Hadoop 版本¶
Hadoop 1.X :Common + HDFS + MapReduce。 Hadoop 2.X :Common + HDFS + Yarn + MapReduce。
安装¶
docker swarm init
docker network create --driver overlay hbase
docker stack deploy -c code/env/hadoop/docker-stack.yaml hadoop
配置¶
- /etc/hadoop/core-site.xml CORE_CONF
- /etc/hadoop/hdfs-site.xml HDFS_CONF
- /etc/hadoop/yarn-site.xml YARN_CONF
- /etc/hadoop/mapred-site.xml MAPRED_CONF
CORE_CONF¶
启动¶
open http://192.168.205.68:9870 # name node
open http://192.168.205.68:9864 # data node
open http://192.168.205.69:8042 # node manager
open http://192.168.205.69:8088
HDFS¶
概述¶
分布式文件系统。
400T := 100T(H1) + 100T(H2) + 100T(H3) + 100T(H4)。
NameNode(2 NN) /DataNode。
Yarn¶
概述¶
Yarn(Yet Another Resource Negotiator),资源协调者,Hadoop 的资源管理器。
ResourceManager/NodeManager /ApplicationMaster/Container。
MapReduce¶
概述¶
问题¶
启动问题¶
h2: ERROR: Cannot set priority of namenode process 24561
资源¶
- Launching Applications Using Docker Containers
- https://github.com/big-data-europe/docker-hadoop
- Set Up Containerize and Test a Single Hadoop Cluster using Docker and Docker compose
最后更新: September 10, 2023