讲师介绍:孙若曦,PingCAP 核心开发工程师,负责 OLAP 相关产品设计和开发。曾在星环科技、NVIDIA 就职担任 Tech Lead。主要研究分布式系统、数据库等领域。
本次分享的内容主要包括以下三个方面:
HTAP 的核心价值:能够解决当前各类数据平台上广泛存在的工具链过于复杂,运维成本高,数据实效性和一致性等问题。
HTAP 面临的技术挑战:OLTP 场景通常使用行存,而 OLAP 场景通常使用列存;另外,OLAP 任务因为对系统资源占用较多,也会严重影响 OLTP 业务。
TiFlash 是如何解决这些问题的:
讲师介绍:王刚,eBay 大数据工程师。2017 年硕士毕业于南京大学,后一直在 eBay 从事大数据研发工作。
本次 Topic 主要分享了 eBay 在 Spark SQL 上所做的一系列探索与优化工作。其中包括我们在 index 上所尝试 Bloom filter index,还有我们为了解决大表与大表 join 所做的一些方案,bucket join 和 range partition。MV 是我们在 Cache 上做的探索。新的 CBO 弥补了部分现有 Spark CBO 的缺陷,提供了更强大的 cost based optimize 的能力。