Hadoop

Introduction

Quick Start

组件 节点 默认端口 配置 用途说明
HDFS DataNode 50010 dfs.datanode.address datanode 服务端口,用于数据传输
HDFS DataNode 50075 dfs.datanode.http.address http 服务的端口
HDFS DataNode 50475 dfs.datanode.https.address https 服务的端口
HDFS DataNode 50020 dfs.datanode.ipc.address ipc 服务的端口
HDFS NameNode 50070 dfs.namenode.http-address http 服务的端口
HDFS NameNode 50470 dfs.namenode.https-address https 服务的端口
HDFS NameNode 8020 fs.defaultFS 接收 Client 连接的 RPC 端口,用于获取文件系统 metadata 信息
HDFS journalnode 8485 dfs.journalnode.rpc-address RPC 服务
HDFS journalnode 8480 dfs.journalnode.http-address HTTP 服务
HDFS ZKFC 8019 dfs.ha.zkfc.port ZooKeeper FailoverController,用于 NN HA
YARN ResourceManager 8032 yarn.resourcemanager.address RM 的 applications manager(ASM)端口
YARN ResourceManager 8030 yarn.resourcemanager.scheduler.address scheduler 组件的 IPC 端口
YARN ResourceManager 8031 yarn.resourcemanager.resource-tracker.address IPC
YARN ResourceManager 8033 yarn.resourcemanager.admin.address IPC
YARN ResourceManager 8088 yarn.resourcemanager.webapp.address http 服务端口
YARN NodeManager 8040 yarn.nodemanager.localizer.address localizer IPC
YARN NodeManager 8042 yarn.nodemanager.webapp.address http 服务端口
YARN NodeManager 8041 yarn.nodemanager.address NM 中 container manager 的端口
YARN JobHistory Server 10020 mapreduce.jobhistory.address IPC
YARN JobHistory Server 19888 mapreduce.jobhistory.webapp.address http 服务端口
HBase Master 60000 hbase.master.port IPC
HBase Master 60010 hbase.master.info.port http 服务端口
HBase RegionServer 60020 hbase.regionserver.port IPC
HBase RegionServer 60030 hbase.regionserver.info.port http 服务端口
HBase HQuorumPeer 2181 hbase.zookeeper.property.clientPort HBase-managed ZK mode,使用独立的 ZooKeeper 集群则不会启用该端口
HBase HQuorumPeer 2888 hbase.zookeeper.peerport HBase-managed ZK mode,使用独立的 ZooKeeper 集群则不会启用该端口
HBase HQuorumPeer 3888 hbase.zookeeper.leaderport HBase-managed ZK mode,使用独立的 ZooKeeper 集群则不会启用该端口
Hive Metastore 9083 /etc/default/hive-metastore 中 export PORT=来更新默认端口
Hive HiveServer 10000 /etc/hive/conf/hive-env.sh 中 export HIVE_SERVER2_THRIFT_PORT=来更新默认端口
ZooKeeper Server 2181 /etc/zookeeper/conf/zoo.cfg 中 clientPort= 对客户端提供服务的端口
ZooKeeper Server 2888 /etc/zookeeper/conf/zoo.cfg 中 server.x=[hostname]:nnnnn[:nnnnn],标蓝部分 follower 用来连接到 leader,只在 leader 上监听该端口,
ZooKeeper Server 3888 /etc/zookeeper/conf/zoo.cfg 中 server.x=[hostname]:nnnnn[:nnnnn],标蓝部分 用于 leader 选举的。只在 electionAlg 是 1,2 或 3(默认)时需要,

EcoSystem

云计算由位于网络上的一组服务器把其计算、存储、数据等资源以服务的形式提供给请求者以完成信息处理任务的方法和过程。针对海量文本数据处理,为实现快速 文本处理响应,缩短海量数据为辅助决策提供服务的时间,基于 Hadoop 云计算平台,建立 HDFS 分布式文件系统存储海量文本数据集,通过文本词频利用 MapReduce 原理建立分布式索引,以分布式数据库 HBase 存储关键词索引,并提供实时检索,实现对海量文本数据的分布式并行处理。所 以,Hadoop 是云计算的部分构建。 Hadoop 的生态系统核心组成部分如下图所示:

Docker

如果你本机已经安装好了 Docker 环境,那么可以直接使用如下命令启动某个 Hadoop 实例:

docker run -it sequenceiq/hadoop-docker:2.7.1 -p 127.0.0.1:50070:50070 -p 127.0.0.1:18042:8042 -p 127.0.0.1:18088:8088 /etc/bootstrap.sh -bash