＂Hadoop/MapReduce/HBase＂分享总结_动视

＂Hadoop/MapReduce/HBase＂分享总结

2020-11-09 13:22:52 责编:小采

概述：此分享是关于hadoop生态系统的简单介绍包括起源到相对应用技术点： 1.hadoop核心包括Common，HDFS和MapReduce；2.Pig，Hbase，Hive，Zookeeper；3.Hadoop日志分析工具Chukwa；4.MR解决的问题：海量输入数据，简单任务划分和集群计算环境；5.执行流程

概述：

此分享是关于hadoop生态系统的简单介绍包括起源到相对应用

技术点：

1.hadoop核心包括Common，HDFS和MapReduce；
2.Pig，Hbase，Hive，Zookeeper；
3.Hadoop日志分析工具Chukwa；
4.MR解决的问题：海量输入数据，简单任务划分和集群计算环境；
5.执行流程：FileSplit / Map / Combine(Partition)和Copy / Sort / Reduce 
6.分布式计算包括:作业和任务调度和执行，预测执行，故障处理和针对不同应用环境的优化
7.HDFS可靠性措施：NameNode备份，多数据结点(冗余)，数据结点的心跳检测，块报告和完整性检验，NameNode的日志文件和镜像文件；
8.两个系列版本：Apache和Cloudera；
9.SSH无密码访问；
10.内置web服务器：
JobTrackerIP:50030 
TaskTrackerIP:50060 
NamenodeIP:50070 
DatanodeIP:50075 
11.HBase以以Region为单位管理region(startKey,endKey)；
12.HBase的每个Column Family单独存储：storeFile；
13.HBase的RegionServer为Region读写操作的场所；
14.HBase的Master管理Region的分配和基于zookeeper来保证HA；
15.HBase的强一致性：同一行数据的读写只在同一台regionserver上进行；
16.HBase的水平伸缩：region的自动以及master的balance，只用增加datanode机器即可增加容量和增加regionserver机器即可增加读写吞吐量；
17.HBase的行事务；
18.HBase三维有序rowKey (ASC) + columnLabel(ASC) + Version (DESC) --> value 
19.HBase支持范围查询和高性能随机写 ；
20.HBase基于Hadoop；
21.HBase不支持二级索引和join操作;
22.Hbase具有特定的适用场景;

详情参见附件

本文附件下载:

Hadoop和HBase.pdf (2.1 MB)

已有 0 人发表留言，猛击->> 这里<<-参与讨论

ITeye推荐

—软件人才免语言低担保赴美带薪读研！—

原文地址："Hadoop/MapReduce/HBase"分享总结, 感谢原作者分享。

下载本文

显示全文

全部频道