快手大数据平台浅谈
本文参考InfoQ记者采访快手高级架构师,架构团队负责人赵建博的采访实录。
快手大数据架构团队成立于2017年。
短短三年内就已经完成了一个万亿级规模的大数据架构体系,同时还完成了春晚红包活动。
在Hadoop的应用上,快手又有那些亮点?
出于目的和成本的考虑,快手的大数据架构服务大部分是使用开源系统构建的。
截止到目前为止,快手的大数据架构的发展大致分为三个阶段。
大数据架构团队针对资源调度系统 YARN 做了很多非常好的改进以及资源上的规划。
Hadoop狭义上是指MR,HDFS,YARN三种服务。
Hadoop 是非常核心的底层基础服务,在快手大数据架构体系中占据着核心地位。
最近流行的Fink,Spark,Druid,Clickhouse,他们只是对MR进行的提升和补充。
但是存储系统肯定是HDFS,资源调度系统是yarn。因为他们在各自的领域中都有了很好的实现,而且没有新兴的流行工具。
哪怕是K8S,他也是针对线上服务领域,对于离线数据处理,还是要依靠yarn。未来可以考虑将yarn和K8S整合,形成一个通用资源调度系统。
大数据技术不会没落,他会作为PaaS中的一部分,为客户提供大数据场景的业务快速构建能力,架构能力,一站式数据分析服务。
从这个角度来看,大数据不会落寞,随着大数据上云,就可以与云架构结合蓬勃发展。