Apache Spark 大数据机器学习场景[译](未完待续)

你想建立机器学习模型,发现你电脑的配置不够的时候,你通常会在群集中使用Apache Spark这样的分布式计算工具处理处理。然而Apache Spark是有本地(standalone mode)模式可以来处理超过你计算机内存的数据。本文会为你展示二元分类器(binary classification model)处理34.6GB的数据。该场景需要你的笔记本拥有4-8G内存,以及50G+的磁盘容量。

使用Apache Thirft 操作Hive[译]

众所周知,Apache Hive是一个数据仓库,可以很方便的通过SQL进行数据的读、写及管理。

有这样一个场景,如果用户想操作Hive,但是在她/他的系统中并未安装Hadoop群集或者Hive.这个是时候可以通过Apache Thrift接口用各种语言来编写代码进行操作。

在本文中,我们会通过Hive Thrift Server 编写简单的Java程序来操作Hive。

,