Sqoop工具操作简单,它提供了一系列的工具指令,来进行数据的导入、导出操作等。使用Sqoop解压包中bin目录下的“sqoop help”指令可以查看Sqoop支持的所有工具指令,具体效果如图1所示。查看全文>>
数据发布与订阅模型,即所谓的全局配置中心,顾名思义就是发布者将需要全局统一管理的数据发布到Zookeeper节点上,供订阅者动态获取数据,实现配置信息的集中式管理和动态更新。例如全局的配置信息,服务式服务框架的服务地址列表等就非常适合使用。接下来,我们介绍一些数据发布与订阅的主要应用场景。查看全文>>
掌握了Hadoop集群中的高可用架构后,接下来,我们来手把手教大家搭建一个Hadoop高可用集群,具体步骤如下:查看全文>>
大多数情况下,我们完成的数据体系却是依赖复杂、层级混乱的,因此,我们需要一套行之有效的数据组织和管理方法来让我们的数据体系更有序,这就是谈到的数据分层。数据分层并不能解决所有的数据问题,但是,数据分层却可以给我们带来如下的好处:查看全文>>
combiner其实属于优化方案,由于带宽限制,应该尽量map和reduce之间的数据传输数量。它在Map 端把同一个key的键值对合并在一起并计算,计算规则与reduce一致,所以combiner也可以看作特殊的Reducer。查看全文>>
map阶段处理的数据如何传递给reduce阶段,是MapReduce框架中关键的一个流程,这个流程就叫shuffle。本章节内容来看一下shuffle的工作流程和工作机制。查看全文>>