揭秘Apache Hadoop YARN,第1部分:集群和YARN基础[译]

YARN (Yet Another Resource Negotiator)是Apache Hadoop生态系统的资源管理层。 YARN已经发布了好久,但许多用户仍然有关于YARN是什么,以及它的工作原理的基本问题。这个系列的文章需要达成以下目标:

  • 对YARN的构成有基本的了解
  • 图示MapReduce作业如何使用YARN计算模型。 (注意:虽然Apache Spark也可与YARN集成,但本系列将专门介绍MapReduce。有关Spark on YARN的信息,请参阅此帖。)
  • 介绍YARN调度程序如何工作并提供调度程序配置的示例

在Apache Spark中使用UDF[译]

用户定义函数(UDF)是大多数SQL环境的一个关键特性,用于扩展系统的内置功能。 UDF允许开发人员通过抽象其低级语言实现来在更高级语言(如SQL)中启用新功能。 Apache Spark也不例外,并且提供了用于将UDF与Spark SQL工作流集成的各种选项。

在这篇博文中,我们将回顾Python,Java和Scala中的Apache Spark UDF和UDAF(用户定义的聚合函数)实现的简单示例。我们还将讨论重要的UDF API功能和集成点,包括它们的可用性。然后,我们将介绍一些在选择在应用程序中利用UDF时应注意的重要性能注意事项。

Azkaban作业调度

目前公司Hadoop群集均使用Crontab进行作业调度,简单暴力,但在 Job 数量庞大的情况下,Crontab 脚本的编写,变得异常复杂。其调度的过程也不能透明化,让管理变得困难。我们需要一个作业调度平台对作业进行管理监控。多方比较后决定使用开源Azkaban作为调度平台。Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。以下是安装记录。

azkaban2overviewdesign

Apache Spark 2.0三种API的传说:RDD,DataFrame和Dataset[译]

本文所述内容可以通过Databricks的notebook进行实践

对于开发来说,最具吸引力的是一组API可以使其提高生产力,易于使用,直观和富有表现力。 Apache Spark对开发人员的吸引力在于它对大量数据集操作十分简易,并且跨语言(Scala,Java,Python和R).

本文主要讲解Apache Spark 2.0中RDD,DataFrame和Dataset三种API;它们各自适合的使用场景;它们的性能和优化;列举使用DataFrame和Dataset代替RDD的场景。文章大部分聚焦DataFrame和Dataset,因为在Apache Spark 2.0中这两个API已经统一。

|