当前位置:主页 > 资源下载 > 10 > Hadoop权威指南（中文版）2015上传.rar下载

Hadoop权威指南（中文版）2015上传.rar下载

更新：2024-08-20 23:29:26
大小：39.17MB
推荐：★★★★★
来源：网友上传分享
类别：数据集 - 行业研究
格式：RAR

反馈 / 投诉

资源介绍

第1章初识Hadoop 数据！数据！数据存储与分析与其他系统相比关系型数据库管理系统网格计算志愿计算 1.3.4 Hadoop 发展简史 Apache Hadoop和Hadoop生态圈第2章关于MapReduce 一个气象数据集数据的格式使用Unix工具进行数据分析使用Hadoop分析数据 map阶段和reduce阶段横向扩展合并函数运行一个分布式的MapReduce作业 Hadoop的Streaming Ruby版本 Python版本 Hadoop Pipes 编译运行第3章 Hadoop分布式文件系统 HDFS的设计 HDFS的概念数据块 namenode和datanode 命令行接口基本文件系统操作 Hadoop文件系统接口 Java接口从Hadoop URL中读取数据通过FileSystem API读取数据写入数据目录查询文件系统删除数据数据流文件读取剖析文件写入剖析一致模型通过 distcp并行拷贝保持 HDFS 集群的均衡 Hadoop的归档文件使用Hadoop归档文件不足第4章 Hadoop I/O 数据完整性 HDFS的数据完整性 LocalFileSystem ChecksumFileSystem 压缩 codec 压缩和输入切分在MapReduce中使用压缩序列化 Writable接口 Writable类实现定制的Writable类型序列化框架 Avro 依据文件的数据结构写入SequenceFile MapFile 第5章 MapReduce应用开发配置API 合并多个源文件可变的扩展配置开发环境配置管理辅助类GenericOptionsParser，Tool和ToolRunner 编写单元测试 mapper reducer 本地运行测试数据在本地作业运行器上运行作业测试驱动程序在集群上运行打包启动作业 MapReduce的Web界面获取结果作业调试使用远程调试器作业调优分析任务 MapReduce的工作流将问题分解成MapReduce作业运行独立的作业第6章 MapReduce的工作机制剖析MapReduce作业运行机制作业的提交作业的初始化任务的分配任务的执行进度和状态的更新作业的完成失败任务失败 tasktracker失败 jobtracker失败作业的调度 Fair Scheduler Capacity Scheduler shuffle和排序 map端 reduce端配置的调优任务的执行推测式执行重用JVM 跳过坏记录任务执行环境第7章 MapReduce的类型与格式 MapReduce的类型默认的MapReduce作业输入格式输入分片与记录文本输入二进制输入多种输入数据库输入（和输出）输出格式文本输出二进制输出多个输出延迟输出数据库输出第8章 MapReduce的特性计数器内置计数器用户定义的Java计数器用户定义的Streaming计数器排序准备部分排序总排序二次排序联接 map端联接 reduce端联接边数据分布利用JobConf来配置作业分布式缓存 MapReduce库类第9章构建Hadoop集群集群规范网络拓扑集群的构建和安装安装Java 创建Hadoop用户安装Hadoop 测试安装 SSH配置 Hadoop配置配置管理环境设置 Hadoop守护进程的关键属性 Hadoop守护进程的地址和端口 Hadoop的其他属性创建用户帐号安全性 Kerberos和Hadoop 委托令牌其他安全性改进利用基准测试程序测试Hadoop集群 Hadoop基准测试程序用户的作业云上的Hadoop Amazon EC2上的Hadoop 第10章管理Hadoop HDFS 永久性数据结构安全模式日志审计工具监控日志度量 Java管理扩展（JMX）维护日常管理过程委任节点和解除节点升级第11章 Pig简介安装与运行Pig 执行类型运行Pig程序 Grunt Pig Latin编辑器示例生成示例与数据库比较 PigLatin 结构语句表达式 1.4.4 类型模式函数用户自定义函数过滤UDF 计算UDF 加载UDF 数据处理操作加载和存储数据过滤数据分组与连接数据对数据进行排序组合和分割数据 Pig实战并行处理参数代换第12章 Hive 1.1 安装Hive 1.1.1 Hive外壳环境 1.2 示例 1.3 运行Hive 1.3.1 配置Hive 1.3.2 Hive服务 1.3.3 Metastore 1.4 和传统数据库进行比较 1.4.1 读时模式（Schema on Read）vs.写时模式（Schema on Write） 1.4.2 更新、事务和索引 1.5 HiveQL 1.5.1 数据类型 1.5.2 操作和函数 1.6 表 1.6.1 托管表（Managed Tables）和外部表（External Tables） 1.6.2 分区（Partitions）和桶（Buckets） 1.6.3 存储格式 1.6.4 导入数据 1.6.5 表的修改 1.6.6 表的丢弃 1.7 查询数据 1.7.1 排序（Sorting）和聚集（Aggregating） 1.7.2 MapReduce脚本 1.7.3 连接 1.7.4 子查询 1.7.5 视图（view） 1.8 用户定义函数（User-Defined Functions） 1.8.1 编写UDF 1.8.2 编写UDAF 第13章 HBase 2.1 HBasics 2.1.1 背景 2.2 概念 2.2.1 数据模型的"旋风之旅" 2.2.2 实现 2.3 安装 2.3.1 测试驱动 2.4 客户机 2.4.1 Java 2.4.2 Avro，REST，以及Thrift 2.5 示例 2.5.1 模式 2.5.2 加载数据 2.5.3 Web查询 2.6 HBase和RDBMS的比较 2.6.1 成功的服务 2.6.2 HBase 2.6.3 实例：HBase在Streamy.com的使用 2.7 Praxis 2.7.1 版本 2.7.2 HDFS 2.7.3 用户接口（UI） 2.7.4 度量（metrics） 2.7.5 模式设计 2.7.6 计数器 2.7.7 批量加载（bulkloading）第14章 ZooKeeper 安装和运行ZooKeeper 示例 ZooKeeper中的组成员关系创建组加入组列出组成员 ZooKeeper服务数据模型操作实现一致性会话状态使用ZooKeeper来构建应用配置服务具有可恢复性的ZooKeeper应用锁服务生产环境中的ZooKeeper 可恢复性和性能配置第15章开源工具Sqoop 获取Sqoop 一个导入的例子生成代码其他序列化系统深入了解数据库导入导入控制导入和一致性直接模式导入使用导入的数据导入的数据与Hive 导入大对象执行导出深入了解导出导出与事务导出和SequenceFile 第16章实例分析 Hadoop 在Last.fm的应用 Last.fm：社会音乐史上的革命 Hadoop a Last.fm 用Hadoop产生图表 Track Statistics程序总结 Hadoop和Hive在Facebook的应用概要介绍 Hadoop a Facebook 假想的使用情况案例 Hive 问题与未来工作计划 Nutch 搜索引擎背景介绍数据结构 Nutch系统利用Hadoop进行数据处理的精选实例总结 Rackspace的日志处理简史选择Hadoop 收集和存储日志的MapReduce模型关于Cascading 字段、元组和管道操作 Tap类，Scheme对象和Flow对象 Cascading实战灵活性 Hadoop和Cascading在ShareThis的应用总结在Apache Hadoop上的TB字节数量级排序使用Pig和Wukong来探索10亿数量级边的网络图测量社区每个人都在和我说话：Twitter回复关系图（度）degree 对称链接社区提取附录A 安装Apache Hadoop 附录B Cloudera’s Distribution for Hadoop 附录C 准备NCDC天气数据

上一篇: hbase.tar.gz 已经配置完成拿来即用
下一篇: DIC（主程序）计算图像序列的位移，应变和应力

相关推荐

Hadoop权威指南（中文版）2015上传.rar下载

资源介绍

热门标签

资源声明