-
kafka-hadoop-loader-my 使用 kafka0.8.2,通过简易消费者实现负载均衡,以自定义的 mapreduce 将消息加载至 hdfs
资源介绍
kafka-hadoop-loader
这个hadoop加载器为每个主题代理分区创建拆分,这在kafka steram和mapper任务之间创建了理想的并行度。
此外,它不使用高级使用者,而是直接与zookeeper通信以管理消耗的偏移量,消耗的偏移量在每个地图任务结束时提交,也就是说,当输出文件已从hdfs_temp移至其最终目的地时。
实际使用者及其内部提取程序线程都包装为KafkaInputContext,它是为每个Map Task的记录读取器对象创建的。
然后,映射器接收最不利的消息对,解析日期的内容并发出(date,message),然后由Output Format拾取并在hdfs级别上分区到其他位置。
解剖学
HadoopJob
-> KafkaInputFormat
-> zkUtils.getBrokerPartitions
- 上一篇: hadoop 源码分析 文档
- 下一篇: Hadoop源码分析.rar