您现在的位置是:网站首页> 游戏下载游戏下载

Hadoop MapReduce实战手册

2021-12-02 318人已围观

简介 Hadoop MapReduce实战手册

资源名称:Hadoop MapReduce实战手册 

内容简介:

这是一本学习Hadoop MapReduce的一站式指南,完整介绍了Hadoop生态体系,包括Hadoop平台安装、部署、运维等,Hadoop生态系统成员Hive、Pig、HBase、Mahout等。最重要的是,书中包含丰富的示例和多样的实际应用场景,以一种简单而直接的方式呈现了90个实战攻略,并给出一步步的指导。本书从获取Hadoop并在集群中运行讲起,依次介绍了高级HDFS,高级Hadoop MapReduce管理,开发复杂的Hadoop MapReduce应用程序,Hadoop的生态系统,统计分析,搜索与索引,聚类、推荐和寻找关联,海量文本数据处理,云部署等内容。

资源目录:

第1章 搭建Hadoop并在集群中运行1

1.1 简介1

1.2 在你的机器上安装Hadoop2

1.3 写WordCountMapReduce示例程序,打包并使用独立的Hadoop运行它3

1.4 给WordCount MapReduce程序增加combiner步骤8

1.5 安装HDFS9

1.6 使用HDFS监控UI14

1.7 HDFS的基本命令行文件操作15

1.8 在分布式集群环境中设置Hadoop17

1.9 在分布式集群环境中运行WordCount程序22

1.10 使用MapReduce监控UI24

第2章 HDFS进阶26

2.1 简介26

2.2 HDFS基准测试27

2.3 添加一个新的DataNode28

2.4 DataNode下架30

2.5 使用多个磁盘/卷以及限制HDFS的磁盘使用情况32

2.6 设置HDFS块大小33

2.7 设置文件冗余因子34

2.8 使用HDFS的Java API35

2.9 使用HDFS的C API(libhdfs)40

2.10 挂载HDFS(Fuse-DFS)45

2.11 在HDFS中合并文件48

第3章 高级Hadoop MapReduce运维49

3.1 简介49

3.2 调优集群部署的Hadoop配置49

3.3 运行基准测试来验证Hadoop的安装52

3.4 复用Java虚拟机以提高性能54

3.5 容错和推测执行54

3.6 调试脚本——分析任务失败55

3.7 设置失败百分比以及跳过不良记录59

3.8 共享用户的Hadoop集群——使用公平调度器和其他调度器61

3.9 Hadoop的安全性——整合使用Kerberos62

3.10 使用Hadoop的工具接口69

第4章 开发复杂的Hadoop MapReduce应用程序72

4.1 简介72

4.2 选择合适的Hadoop数据类型73

4.3 实现自定义的Hadoop Writable数据类型75

4.4 实现自定义Hadoop key类型79

4.5 从mapper中输出不同值类型的数据83

4.6 为输入数据格式选择合适的Hadoop InputFormat87

4.7 添加新的输入数据格式的支持——实现自定义的InputFormat90

4.8 格式化MapReduce计算的结果——使用Hadoop的OutputFormat94

4.9 Hadoop的中间(map到reduce)数据分区96

4.10 将共享资源传播和分发到MapReduce作业的任务中——Hadoop DistributedCache98

4.11 在Hadoop上使用传统应用程序——Hadoop Streaming103

4.12 添加MapReduce作业之间的依赖关系106

4.13 用于报告自定义指标的Hadoop计数器108

第5章 Hadoop生态系统110

5.1 简介110

5.2 安装HBase111

5.3 使用Java客户端API随机存取数据114

5.4 基于HBase(表输入/输出)运行MapReduce作业116

5.5 安装Pig120

5.6 运行第一条Pig命令121

5.7 使用Pig执行集合操作(join,union)与排序123

5.8 安装Hive125

5.9 使用Hive运行SQL风格的查询127

5.10 使用Hive执行join129

5.11 安装Mahout132

5.12 使用Mahout运行K-means133

5.13 可视化K-means结果136

第6章 分析138

6.1 简介138

6.2 使用MapReduce的简单分析139

6.3 使用MapReduce执行Group-By143

6.4 使用MapReduce计算频率分布和排序146

6.5 使用GNU Plot绘制Hadoop计算结果148

6.6 使用MapReduce计算直方图151

6.7 使用MapReduce计算散点图154

6.8 用Hadoop解析复杂的数据集158

6.9 使用MapReduce连接两个数据集164

第7章 搜索和索引170

7.1 简介170

7.2 使用Hadoop MapReduce生成倒排索引

下载资源

上一篇:狂热空间V 1.1_下载

下一篇:Hadoop硬实战

-六神源码网