Cloudera数据堆栈产物治理高等总监Bill ZhangIDC调研中国数据表现,在落地GenAI利用时,68%的企业以为须要梳理外部数据资产,66%的企业盼望搭建数据湖等数据底座。开放式数据湖仓一体架构正敏捷成为海量数据停止同一、多功效剖析的尺度架构。这种架构既融会了数据湖的机动性跟可扩大性,又具有数据堆栈的数据剖析、管理跟治理功效,为企业供给了强盛的数据处置才能。开放表格局是这一架构的要害构成局部,它直接在数据湖存储上供给了大批传统数据堆栈的功效。现在,Apache Iceberg正敏捷成为厂商跟客户的尺度格局。只管Iceberg的诸多特征可年夜幅下降实现高机能数据视图所需的任务量,但这些特征也带来了额定的开支,而且须要手动履行功课以优化机能跟本钱。为进一步简化数据湖仓一体架构的治理,Cloudera推出了Cloudera Lakehouse Optimizer。该效劳可智能化主动处置Iceberg表,使得很多保护功课可能在后盾主动运转。上面,咱们将具体先容Cloudera Lakehouse Optimizer的功效、上风以及将来的开展偏向。Cloudera Lakehouse Optimizer的功效Cloudera Lakehouse Optimizer依据用户设置跟Iceberg表统计数据,主动运转基于战略的Iceberg表优化义务。主动优化义务包含:紧缩(Compaction):企业平日会经由过程微批处置(MicroBatching)或流式摄取(StreamingIngestion)等方法接受大批小文件,而读取这些小文件会重大影响查问机能。紧缩是将小文件兼并为年夜文件以晋升机能的进程。Cloudera Lakehouse Optimizer可能自立断定主动紧缩数据文件的最佳机会,确保用户的表一直坚持最佳机能。该效劳还会依据应用形式优先优化低价值的表,确保每次优化都能带来现实的投资报答。表清算(Table Cleanup):跟着表的增加,每每会积聚大批不再应用的数据文件、清单文件跟快照。用户平日须要履行表保护功效,比方肃清过时快照、移除旧元数据文件以及清算伶仃文件,以优化存储应用率并晋升机能。Cloudera Lakehouse Optimizer可能自立断定保护义务的最佳机会,确保表的存储应用率最年夜化。除了优化办法跟基于战略的把持办法,Cloudera Lakehouse Optimizer还供给了优化义务的可观察性,以辅助数据团队清楚懂得战略对表跟存储安康状态及机能的影响。Cloudera Lakehouse Optimizer的上风Cloudera Lakehouse Optimizer为应用Iceberg表的企业带来了诸多上风:·经由过程优化存储占用空间跟增加查问运转时光,下降总体领有本钱(TCO)。·经由过程增加查问中须要读取的文件数目,供给高机能的数据视图。·经由过程主动履行一些繁琐的湖仓保护义务,增加数据治理任务跟开支。Cloudera外部基准测试标明,应用Cloudera Lakehouse Optimizer保护Iceberg表可明显节俭本钱。现实后果因应用场景差别可能有所差别。将来偏向对想要转向开放式数据湖仓一体架构的企业,Cloudera Lakehouse Optimizer以后推出的功效为他们处理了两个主要困难。Cloudera的愿景是让供给高机能的数据视图变得愈加轻易,而这仅仅是实现这一愿景所迈出的第一步。将来,咱们打算增添对更多优化功效的支撑,包含经由过程分区重组处理影响查问机能的数据散布成绩跟查问优化。咱们的目的是确保Cloudera成为治理跟拜访Iceberg表的最佳平台之一,同时让企业更轻松地采取开放式数据湖仓一体架构。