Spark读书笔记:PageRank

PageRank算法是以Google的拉里·佩吉(LarryPage)的名字命名的,用来根据外部文档指向一个文档的链接,对集合中每个文档的重要程度赋一个度量值。该算法可以用于对网页进行排序,当然,也可以用于排序科技文章或社交网络中有影响的用户。

揭秘Apache Hadoop YARN,第1部分:集群和YARN基础[译]

YARN (Yet Another Resource Negotiator)是Apache Hadoop生态系统的资源管理层。 YARN已经发布了好久,但许多用户仍然有关于YARN是什么,以及它的工作原理的基本问题。这个系列的文章需要达成以下目标:

  • 对YARN的构成有基本的了解
  • 图示MapReduce作业如何使用YARN计算模型。 (注意:虽然Apache Spark也可与YARN集成,但本系列将专门介绍MapReduce。有关Spark on YARN的信息,请参阅此帖。)
  • 介绍YARN调度程序如何工作并提供调度程序配置的示例

在Apache Spark中使用UDF[译]

用户定义函数(UDF)是大多数SQL环境的一个关键特性,用于扩展系统的内置功能。 UDF允许开发人员通过抽象其低级语言实现来在更高级语言(如SQL)中启用新功能。 Apache Spark也不例外,并且提供了用于将UDF与Spark SQL工作流集成的各种选项。

在这篇博文中,我们将回顾Python,Java和Scala中的Apache Spark UDF和UDAF(用户定义的聚合函数)实现的简单示例。我们还将讨论重要的UDF API功能和集成点,包括它们的可用性。然后,我们将介绍一些在选择在应用程序中利用UDF时应注意的重要性能注意事项。

|