Clickhouse「手撕」Snowflake太贵,我们与7位专家聊了聊

2024-07-05 21:29:03 admin

Clickhouse「手撕」Snowflake太贵,手撕我们与7位专家聊了聊

“感谢云数据仓库多年来的辛勤付出,但它们引领的位专信誉盘系统租用信用盘平台搭建霸权时代即将落幕。”

在近期的家聊一篇博客中,Clickhouse 产品VP Tanya在文章开头便放出了这一大胆的手撕观点。Tanya称,贵们以Snowflake、位专Redshift、家聊BigQuery为代表的手撕云数仓已经不能完全满足客户需求,并且许多企业也已经发现云数据仓库成本不可持续。贵们

此观点一发,位专也引起了业内人士诸多讨论。家聊

有人认为,手撕云数仓从来就没形成过霸权时代。贵们而Tanya在文中所反复提到的位专实时数仓,也有从业者表示这并非新概念,早在十年前,实时数仓就已经被提过好几拨。

还有人认为,实时数仓虽是一个发展趋势,但并不能完全代替传统数仓,与此同时,市场对于实时数据分析需求有,但也没那么强......

基于上述的一些讨论,雷峰网独家对话了Clickhouse 产品VP Tanya,了解其写作该文章的由来以及观点。Tanya称,这篇文章她想表达的含义并非是说ClickHouse可以替代所有现有的数据仓库场景,而是希望对其进行演进。

同时,信誉盘系统租用信用盘平台搭建借由这一篇文章,雷峰网也对话了业内多位专家:阿里云数据库事业部OLAP与工具高级产品专家薛菲、嬴图创始人孙宇熙、PingCAP副总裁刘松、酷克数据副总裁魏一、Airwallex技术专家董大凡、Aloudata CEO周卫林与他们分别聊了聊数仓的发展趋势、云数仓成本、数仓深层计算、生成式AI对数仓影响等几个备受关注的话题。

云数仓的霸权时代结束了?

实时数仓确实一个发展趋势,对话的几名受访者也基本同意这一观点。

PingCAP副总裁刘松过往职业经历与数仓息息相关。职业生涯前期他入职了Oracle,见证了以Teradata为代表的传统数仓的兴起。2014年他加入阿里云后,又见证了以Snowflake、BigQuery、Redshift为代表的云数仓快速冒头。在他看来,数仓的确在沿着从传统数仓,到云数仓,再到实时数仓的方向演进。

这种的演进背后,实际上是客户需求的变化。

阿里云数据库事业部OLAP与工具高级产品专家薛菲谈到了她接触过的一家头部游戏企业。他们一直致力于吸引更多的玩家,并确保玩家在其平台上获得更好的体验。然而,近年来,他们获取新客户成本开始提升,希望获得更实时的数据,了解客户档案、行为,以及客户做了哪些特定的点击,以便快速调整他们的策略。

除游戏玩家有需求外,嬴图创始人孙宇熙提到,他创业的这几年接触国内外不少的金融机构。他发现,随着市场环境变化,许多客户,尤其是金融类客户他们所需要的不仅是事后分析,用数据做决策,而是希望有实时分析。拿银行为例,客户在一边转账的同时,后台做实时风控分析的需求也越来越高涨。

“clickhouse提出要做新一代的实时数仓。基本上业界也同意这样的一个逻辑。”孙宇熙说道。

数仓在朝着实时方向发展,不过新一代的实时数仓仍不能完全代替以前的数仓。

Airwallex技术专家董大凡作为数仓产品的使用者,他表示:“即便企业使用了实时数仓,传统数仓也还是有一席之地。”

为何有一席之地?其一是实时数据分析可能带来更高的成本。Aloudata CEO周卫林在创业之前,在蚂蚁金服担任数据平台部门负责人,他表示,实时数据分析成本增加主要有两个原因:第一,数据越实时,数据采集和更新的频次会越高,数据预计算的比例会越低,因此对数据计算性能要求会越高,这会带来费用的增加;第二,通常需要实时数据的场景,数据分析的颗粒度会很细,分析的灵活性会越高,这样数据分析的数据量会很大,这会带来费用的增加。

对于一家企业来说,在追求数据时效的同时,成本也是不能回避的问题。假设一个公司花了100万,通过数据实时化能把风控引擎的精确度从50%提升到55%,然而这5%的提升所降低的损失低于投入成本,很显然企业投资意愿不会高涨。

因此,实时数仓通常的场景应用会比较明确,ROI 相对确定,对于不确定高的场景很难规模性使用实时数仓,原因是比不过传统数仓的ROI,尤其是 BI 分析场景上。

此外,当下并非所有场景都必须要实时数据分析。就比如双十一,交易额直接在屏幕上面毫秒级刷新固然很爽,但对于老板而言,他可能只要求第二天在办公室里面看报表,了解双十一交易额多少,几点是高峰,他的目的不是为了实时决策,而是为了长期规划和决策。

(接下来,雷峰网将推出《投资人,正逃离分析型数据库赛道》,欢迎加作者微信 mindy1857 交流。)

酷克数据副总裁魏一也表达了类似观点。魏一在加入酷克数据之前,曾就职于SAP,后来在EMC/Pivotal 从事Greenplum数据库技术研发工作,也是数仓领域的资深专家。在他看来,目前企业会存在实时数据分析需求,但除此之外,企业还有批处理的需求,虽然批处理数据时效性不及实时数仓,但是成本更低。

由于企业需求的多样化,也演化了数仓厂商们不同的产品研发策略。有一部分的厂商尝试在打造一个统一的数据服务平台,比如说snowflake、酷克数据、PingCAP。

“对于企业决策者而言,他们一定是需要一个统一的数据服务平台。”魏一说道。五年以前客户做大数据分析,可能的选择是:一个离线分析系统加上一个实时分析系统。比如离线分析选择Hadoop,再叠加一个ClickHouse、Greenplum实时分析的产品。这种做法的劣势是显著增加了运营成本,因为要进行数据搬迁ETL操作,同时客户还需要去管理不同的系统。相对地,统一融合的数据分析平台的优势则在于,解决了由ETL导致的数据传输延迟问题,进一步降低了数据分析的成本投入。

魏一表示,酷克数据的产品HashData云数仓目前已在某国有大型银行稳定运行多年,节点规模超过30000个。从落地运行情况来看,客户的数据冗余减少达到了30%以上,计算资源消耗也降低了30%。整个数据链路得以缩短,平均作业的完成时间加快了3个小时。

还有一部分厂商则不求做大而全的平台,只做部分需求的满足,比如BigQuery、RedShift他们现在并没有把实时数仓作为优先级,仍是服务于传统数仓的需求。而clickhouse则是更专注在新一代实时数仓上。

这两种产品策略没有孰好孰坏,对于客户来说,最终还是要结合自己的需求来进行技术、产品的选型。

数仓如何解决深层计算问题?

实时数仓所重点强调的是数据处理效率要快,那如果进一步追问该问题,当下的实时数仓到底能快到什么程度?孙宇熙认为,即便当下的数仓产品已经让数据分析速度有了极大突破,提升了10倍、或是100倍,但这或许并不意味着什么,市场可能需要到是快1万倍。

为什么这么说?孙宇熙举了银行的例子,不论是08年美国次贷危机、还是近期硅谷银行倒闭,其实背后本质问题都是因为金融机构的流动性受到冲击,所以流动性一直以来是金融机构关注的重点问题。08年金融危机之后,全球所有监管机构都在起草制定防止银行流动性变差的协议,而在其中,设置了一个重要的指标叫做流动性覆盖率(liquidity coverage vision,缩写LCR)LCR超过110%,你的流动性就达标了;如果低于110,但高于100%,那你属于很危险,因为很容易被击穿;如果低于100%,意味着你的流动性已经开始出现严重的问题。

在国内,监管机构给出的要求是,2000亿规模以上的中大型银行都要向监管机构每日汇报一次LCR。“然而,让人十分遗憾的是,我们最头部的大型国有商业银行当中,几乎没有哪一家能每天能把 LCR 这个指标计算一次。有的大型银行甚至只能一个月算一次。”

为什么银行做不到?孙宇熙认为一个原因是,要算LCR指标,需要全行所有的数据。把所有的对公客户、零售客户等等客户数据全汇总起来,很可能每日处理的数据量能达到百亿,这种数据规模是惊人的。另一个原因是,目前数仓计算需要大量的表做关联,“这种表结构最大的问题在于它是低维的,依然是在用行和列来表达这个数据,它天然就不善于去做数据之间的关联分析。”当用几十张表去做关联计算的时候,速度自然就会更慢。

在孙宇熙看来,未来数据分析效率会更快,除了表结构之外,数据仓库应该要支持其他数据计算模式,比如说图计算。图数据库的好处在于它能够执行某些类型的查询,不仅可能更快、更有效,而且在编写这些查询时语法更为紧凑。

嬴图曾在一家大型商业银行内部做过一个实验,这家银行原来的LCR计算大概要算4个小时,而用图计算在2秒钟内,即可完成,“这是一个七千倍以上的性能提升。”

实际上现在已经有许多数据仓库支持除表结构之外的其他数据分析,据薛菲表示,“全文搜索就是一个很好的例子。全文搜索不是结构化数据,它是一种半结构化数据。许多数据仓库已经支持诸如JSON或XML之类的类型,可以用来完成全文搜索的应用,比如阿里云的自研数据仓库AnalyticDB。”

此外,Clickhouse也有一个名为SQL Graph的项目。但Tanya也表示,目前他们的优先级放在了如何将向量搜索与传统分析结合使用上,而图计算这部分项目暂时尚未将其列为重点,其最重要的原因是目前图数据缺乏一个统一的标准。从开发者的角度来看,开发图查询是非常困难的。

不过,当下图计算或图数据库现在面临一个巨大的机会,薛菲表示,可以将其与LLM(Large Language Models)结合起来。“未来,LLM可能会成为处理图数据的新接口,因为用自然语言表达关系问题要比使用尚未发明的图标准更容易。”

LLM浪潮的崛起,也进一步推动了业务和应用对向量能力的需求。薛菲称,目前,阿里云瑶池数据库已全面拥抱向量检索能力,包括通义行业大模型在内的LLM就采用了企业级智能数仓AnalyticDB作为默认的向量检索引擎,性能较开源增强了2~5倍,与全文检索和结构化搜索联合进行多路召回,加速AIGC应用落地。

(接下来,雷峰网将推出《大模型会颠覆分析型数据库?》等文章,欢迎加作者微信 mindy1857 交流。)

云数仓到底贵不贵?

于客户而言,性能与成本都要考量。在成本端,近期关于云数仓到底贵不贵的话题也引发讨论。包括在 Tanya的文章中也重点提到了关于云数仓的成本问题,“与替代方案相比,云数据仓库的用户支付 3-5 倍的费用并不少见。”

在接受雷峰网(公众号:雷峰网)采访时,她说道:“我们测试了Amazon Redshift,Google BigQuery和Snowflake三大数仓产品后发现,在资源消耗方面,这些数据仓库的表现较差,包括较少的数据压缩和运行查询所需的更多内存。”

  • 文章

    55

  • 浏览

    53

  • 获赞

    8

赞一个、收藏了!

分享给朋友看看这篇文章

热门推荐