大数据组件-Ambari01简介|8月更文挑战大

这是我参与8月更文挑战的第1天,活动详情查看:8月更文挑战

大数据组件 - Ambari 01 简介

是什么?

Ambari是ASF(Apache Software Foundation)中的一个项目,并且是一个顶级项目,致力于让Hadoop集群管理更加简单。它开发了丰富的RESTful APIs,以及一套直观易用的WebUI管理界面。

大数据集群除了我们常见的Hadoop,集群内还有Hive,Hbase,Sqoop,Zookeeper等。因为大数据这个坑里,组件特别的多,一个一个安装配置很麻烦,所以社区孵化了Ambari。就 Ambari的作用来说,就是创建、管理、监视大数据集群,让组件更容易整合进来。

它主要是由Cloudera公司参与贡献开发的(可以查看ambari.apache.org/team-list.h…

主要功能

它提供了:

  • provision 必要组件供配(安装)的功能
    • 一步接一步的安装面板进行组件安装
    • 帮助大数据运维工程师管理集群上所有服务的配置,配置是版本化的。
  • managing 管理集群上的组件
    • 启动
    • 关闭
    • 更新配置
  • monitoring 监控集群上的组件
    • 提供了一个Dashboard(面板)监控并可用来展示集群监控和集群状态
    • 运用了AMS(Ambari Metrics System)进行监控指标收集
    • 运用了AAF(Ambari Alert Framework)进行系统告警,同时通知运维人员集群状态。

Ambari 的基本架构

CS(Client/Server)架构模式,主要由两部分组成:ambari-agent 和 ambari-server。

Ambari Server 支持 Rest API,这样可以很容易的扩展和定制化 Ambari。甚至于不用登陆 Ambari 的 GUI,只需要在命令行通过 curl 就可以控制 Ambari,以及控制 Hadoop 的 cluster。具体的 API 可以参见 Apache Ambari 的官方网页 API reference。

对于安全方面要求比较苛刻的环境来说,Ambari 可以支持 Kerberos 认证的 Hadoop 集群。

Amabri Agent 装在每个分节点,保持跟ambari-server沟通,接受server的调度,协调管理集群(包括借助其他工具来监控集群所有节点状况)。

企业版使用

目前主要是Cloudera公司使用了Ambari打包封装提供了一些企业版本的产品,如HDP(Hortonworks Data Platform),CDP(Cloudera Data Platform),CDF(Cloudera DataFlo)。CDF前身为HDF(Hortonworks DataFlow)。

HDP vs HDF

HDP可以简单理解为一个HadoopCluster Platform,就是一个大数据的存储和计算平台,关注在HDFS, Yarn以及一些计算引擎的(比如Spark/Tez)管理。

HDF(DataFlow)这个包含Nifi组件(Nifi是一个数据迁移搬运的流式处理框架),更多关注点在于如何把大量的,多种格式的数据,以高效可控的方式导入到大数据存储层。

所以,我们经常会看HDP + HDF 组合在一起的集成大数据平台。

下一篇会展示一个使用Ambari搭建的集群,可以先关注,第一时间查看后续更新。

持续学习持续开发,我是雷学委!
编程很有趣,关键是把技术搞透彻讲明白。
创作不易,请多多支持,点赞收藏支持学委吧!

参考链接:
community.cloudera.com/t5/Support-…
cwiki.apache.org/confluence/…
docs.cloudera.com/HDPDocument…