从 ClickHouse 到 ByteHouse:实时数据分析场景下的完善实践
发布时间:2023-02-27 09:46:45 所属栏目:云计算 来源:
导读: 作为中国 ClickHouse用户规模最大的运营商,目前字节跳动内部的 ClickHouse 节点总数超过 1.8W 个。综合来说,字节跳动广泛的业务增长分析很多都建立在 ClickHouse 为基础的查询引擎上。
在打造ByteHouse
在打造ByteHouse
作为中国 ClickHouse用户规模最大的运营商,目前字节跳动内部的 ClickHouse 节点总数超过 1.8W 个。综合来说,字节跳动广泛的业务增长分析很多都建立在 ClickHouse 为基础的查询引擎上。 在打造ByteHouse的路程中,我们经过了多年的探索与沉淀,本文将分享字节跳动过去使用 ClickHouse 的两个典型应用与优化案例。 在字节跳动内部“A/B 实验”应用非常广泛,特别是在自动验证机器人推荐算法和机器人的功能及其优化的效果评价方面。最初,公司内部专门的 A/B 实验平台已经提供了 T+1 的离线实验指标,而推荐系统需要更快地观察算法模型或者某个功能的上线效果,因此需要一份能够实时反馈的数据作为补充: •能同时查询聚合指标和明细数据; •能支持多达几百列的维度和指标,且场景灵活变化,会不断增加; •需要支持一些机器学习和统计相关的指标计算(比如 AUC)。 字节内部有很多分析引擎,ClickHouse、 Druid、 Elastic Search、 Kylin 等,通过分析用户需求后选择了 ClickHouse: •能更快地观察算法模型,没有预计算所导致的高数据时延; •ClickHouse 既适合聚合查询,配合跳数索引,对于明细点查性能也不错; •字节自研的 ClickHouse 支持 Map 类型,支持动态变更的维度和指标,更加符合需求; •BitSet 的过滤 Bloom Filter 是比较好的解决方案,ClickHouse 原生就有 BF 的支持; •字节自研的 ClickHouse 引擎已经通过 UDF 实现了相关的能力,而且有比较好的扩展性。 每个产品都有自己合适的场景,但是对于当前场景的需求评估,ClickHouse 更加合适。 (编辑:汽车网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
推荐文章
站长推荐