面向大模型,腾讯云大数据重磅发布 ES 及数据湖产品新版本
导读
在 2023 腾讯全球数字生态大会大数据专场上,腾讯云大数据正式发布云数据仓库全新品牌 TCHouse,全面构建性能与易用性兼具的企业级云数仓体系。同时,还针对大模型场景,率先在国内发布具备云端 AI 增强与向量检索能力的 ES 全新版本,以及代表下一代 Lakehouse 湖仓架构的数据湖计算产品 DLC,免运维、轻量化、低门槛等新特性,助力客户轻松构筑面向 AIGC 的企业大数据基座。
腾讯云副总裁黄世飞表示:“针对 AI 大模型在全球范围内引爆新一轮数据变革,作为国内云原生大数据的先行者,腾讯云大数据一方面为客户带来弹性易用的云原生大数据产品,另一方面则为客户提供能与大模型集成的端到端的搜索与分析体验,加速推进大数据与 AI 的融合进程。”
据了解,近年来腾讯云大数据在产品能力和市场规模上发展迅猛。在全球权威研究机构 Forrester 发布的最新的《The Forrester Wave: Cloud Data Warehouses, Q2 2023》重磅报告中,腾讯云大数据与国际顶尖厂商同台竞技,成为国内唯二的入选厂商;在国内市场,腾讯云大数据同时入选沙利文的《2023 年中国数据管理解决方案市场报告》与赛迪的《2022-2023 年中国大数据市场研究年度报告》,成为双料领导者。
《大数据自主创新应用白皮书》正式启动,深度剖析国内大数技术总体态势
自主创新能力是一个国家的核心竞争力。其中,大数据作为激活数据要素潜能的关键支撑,加速自主创新,更是成为各类数字经济应用的重要引擎。最近一年来,我国的大数据发展迎来了全新阶段,政策、法律不断完善,技术不断创新,产业规模持续增长,新产品、新服务、新模式不断涌现,大数据生态日益完善。
为了更好地发挥大数据的价值,在专场上,黄世飞与中国信通院云计算与大数据研究所副所长魏凯共同启动了《大数据自主创新应用白皮书》的编写工作。魏凯表示,《大数据自主创新应用白皮书》由腾讯云和中国信通院共同编写,将深度剖析我国大数据自主创新技术发展的总体态势,并重点针对核心领域,逐一分析、探讨其发展现状、特征、问题和趋势,从而推动我国大数据产业高质量发展。
黄世飞则指出,本次白皮书的联合撰写是双方共同进行技术创新、加强紧密合作的重要契机。“通过这次联合发布,希望让业界看到我们双方对大数据技术系统化发展的思考。未来我们也有更多机会进行合作交流,充分发挥在金融科技、信息技术创新方面的优势,共同加速大数据在行业内的创新及落地。”
重磅发布多款大数据新产品、新版本,云数据仓库新品牌全新升级
基于在大数据领域的产品能力积累与创新,结合自身海量业务在 AI 与大数据交叉应用的实践经验,腾讯云大数据发布了部分产品的新版本与新能力,并实现了腾讯云大数据·云数据仓库 TCHouse 的全新品牌升级。
专场上,腾讯云 ES 率先在国内首发 8.8.1 版本。腾讯云大数据商业化负责人张昆介绍,该版本提供强大的云端 AI 增强与向量检索能力,10 亿级向量检索平均响应延迟控制在毫秒级,可助力客户实现由 AI 驱动的高级搜索能力,为搜索与分析带来全新的前沿体验。同时,还发布了腾讯云 ES 存算分离版,通过物理复制和混合存储技术,去除计算和存储冗余,同时计算与存储资源解耦,带来秒级弹性优势,使得集群整体拥有成本下降 50-80%。
随后,腾讯云大数据发布了 DLC – AIGC 大数据基座 & 下一代 Lakehouse 湖仓架构。张昆表示,在新兴的 AIGC 场景中,DLC 依托其 Serverless 形态下免运维、轻量化、低门槛的特性,以及像内置了对 Pyspark 支持与优化、对 Jupyter 良好的集成性,能够很好的成为 AIGC 的大数据基座。而下一代 Lakehouse 湖仓架构,可以实现数据资产统一建设,帮助用户敏捷、低成本地管理和分析海量数据,解决了传统单一的数据架构下无法满足多变的数据分析需求的难题。
最后,腾讯云大数据·云数据仓库 TCHouse 实现了品牌全新升级。作为新一代云原生的数据仓库品牌,TCHouse 共分三大产品系列,分别是云数据仓库 TCHouse-C、云数据仓库 TCHouse-D、云数据仓库 TCHouse-P,共同构成性能与易用性兼具的企业级云数仓体系,可有效满足用户在不同业务场景中的方案选型,提升用户数据分析效率、赋能用户快速决策。另外,TCHouse-C 还在现有的标准版基础之上,正式发布云原生弹性版本,进一步提升弹性效率,助力各行业客户降本增效。
支持百万级 QPS、十亿级向量,腾讯云 ES 国内率先发布全新版本
面对腾讯云 ES 发布的全新版本,腾讯云大数据 ES 产品负责人任翔,全方位总结了该产品在向量检索和 AI 增强搜索上的优势。他指出,首先,腾讯云 ES 是一个原生的向量搜索引擎,具有独有的混合搜索能力,使用已有的 Search API,结合全文检索,可轻松实现多路召回、混合打分、Faceting 聚合分析能力,提升搜索准确性。其次,腾讯云 ES 是一个端到端一站式的向量检索方案,可大幅度降低企业算法工程的接入成本。再次,腾讯云 ES 可以和丰富的第三方工具集成。最后,腾讯云 ES 拥有简单易用、成熟稳定的高可用架构,可支持支持百万级 QPS、十亿级向量规模。
对于未来,任翔表示,腾讯云 ES 将在技术架构、用户体验、商业价值等方面进一步洞察企业的需求,并以持续创新为企业创造更多的价值,赋能商业革新。
实时分析性能提升 20 倍,深挖半结构化数据价值
面对数据来源广泛、数据价值潜力巨大的半结构化数据,全新升级的腾讯云数据仓库 TCHouse-C 基于 Schema-less 无与伦比的灵活性与扩展性,大幅提升 ClickHouse 实时处理/分析大规模半结构化数据的能力,在大数据实时分析领域构建了更加强大的竞争力。
腾讯云数据仓库高级产品经理表示,Schema-less 不需要预先定义数据的结构和模式,而是可以根据需要动态地创建和修改数据的结构。这种方式可以使数据存储和处理更加灵活和适应性强,可以适应不同类型和格式的数据,同时也可以减少数据处理的复杂性和成本。据实践结果显示,在日志检索以及 APM 场景下,TCHouse-C 对半结构化数据实时分析性能提升 20 倍;同时为公有云客户节约了大量硬件成本,做到秒级返回查询结果。
支持百万级实时更新写入,为业务升级保驾护航
作为云原生 Serverless 化的大数据分析服务,腾讯云数据湖计算 DLC 兼具数据湖与数据仓库的优势,全场景覆盖大数据存储与分析;同时还具备云原生、实时性强、简单易用扩展性强等特征,能够高效、稳定地支持大规模的数据预处理,让大模型企业客户可以极大释放对大数据底层基础设施建设投入的精力与成本,为客户的 AI 业务护航。
腾讯云大数据 DLC 专家工程师陈万东为与会嘉宾介绍了数据湖计算 DLC 在百万级实时 Upsert 场景的成功实践。在某头部金融券商,腾讯云基于 DLC + Flink + Wedata 搭建湖仓一体近实时数据分析平台,数据从业务数据库流入 kafka,所有数据通过 Flink 实时写入 DLC,大幅简化架构,节约资源。实测 Upsert 达到 120 万/s,结合 Smart Optimizer 服务,数据分钟级可见;同时全链路作业时间从 6h 缩短到 4h,效率提升约 20%,使用的资源成本减低 20%。
未来,腾讯云大数据将继续推动大数据产品、方案与服务的广泛落地,把先进的大数据云服务能力输出给全球各地区客户,加速更多企业实现数字化升级与业务创新。
评论