This website requires JavaScript.

Hive 窗口函数[译]

窗口函数允许你对一个数据集创建一个"窗口",围绕它进行聚合操作.自Hive 0.11之后引入窗口函数.在本文中,会给各位演示.

Read more

Apache Spark 2.0三种API的传说:RDD,DataFrame和Dataset

本文所述内容可以通过Databricks的notebook进行实践

对于开发来说,最具吸引力的是一组API可以使其提高生产力,易于使用,直观和富有表现力。 Apache Spark对开发人员的吸引力在于它对大量数据集操作十分简易,并且跨语言(Scala,Java,Python和R).

本文主要讲解Apache Spark 2.0中RDD,DataFrame和Dataset三种API;它们各自适合的使用场景;它们的性能和优化;列举使用DataFrame和Dataset代替RDD的场景。文章大部分聚焦DataFrame和Dataset,因为在Apache Spark 2.0中这两个API已经统一。

Read more

使用 Seafile 架设自己的私人网盘

经过这几年网盘兴衰的经历,大家应该有一个共识,数据在自己手上并且可以掌控才是最安全靠谱的。今天就让我们来打造自己的私人网盘。 本文系统环境为 Windows 10

Read more

在Ubuntu 18.04中安装Shadowsocks

安装依赖

apt update && apt upgrade -yuf
apt install -y --no-install-recommends gettext build-essential autoconf libtool libpcre3-dev \
                                       asciidoc xmlto libev-dev libudns-dev automake libmbedtls-dev \
         
Read more

MacOS 中 PostgreSQL 的安装及使用

Read more