快手大数据平台浅谈

本文参考InfoQ记者采访快手高级架构师,架构团队负责人赵建博的采访实录。

快手大数据架构团队成立于2017年。

短短三年内就已经完成了一个万亿级规模的大数据架构体系,同时还完成了春晚红包活动。

在Hadoop的应用上,快手又有那些亮点?

出于目的和成本的考虑,快手的大数据架构服务大部分是使用开源系统构建的。

截止到目前为止,快手的大数据架构的发展大致分为三个阶段。

大数据架构团队针对资源调度系统 YARN 做了很多非常好的改进以及资源上的规划。

Hadoop狭义上是指MR,HDFS,YARN三种服务。

Hadoop 是非常核心的底层基础服务,在快手大数据架构体系中占据着核心地位。

最近流行的Fink,Spark,Druid,Clickhouse,他们只是对MR进行的提升和补充。

但是存储系统肯定是HDFS,资源调度系统是yarn。因为他们在各自的领域中都有了很好的实现,而且没有新兴的流行工具。

哪怕是K8S,他也是针对线上服务领域,对于离线数据处理,还是要依靠yarn。未来可以考虑将yarn和K8S整合,形成一个通用资源调度系统。

大数据技术不会没落,他会作为PaaS中的一部分,为客户提供大数据场景的业务快速构建能力,架构能力,一站式数据分析服务。

从这个角度来看,大数据不会落寞,随着大数据上云,就可以与云架构结合蓬勃发展。