写点什么

回顾数据时代过去 50 年|StartDT Talk 直播回顾

作者:奇点云
  • 2025-02-07
    浙江
  • 本文字数:2595 字

    阅读完需:约 9 分钟

回顾数据时代过去50年|StartDT Talk直播回顾


【StartDT Talk】系列直播第十期圆满收官!

 

本期直播聚焦于“站在 2025,回顾数据时代过去的 50 年”这一主题,由奇点云创始人行在、StartDT 资深战略咨询专家何夕,从“数据库、数据仓库、大数据平台、数据+AI”4 个阶段,带领大家一起回顾数据在 50 年间发生的变化,并分享各个阶段有趣的故事,探讨数据平台在 AI 时代发挥的作用,以及数据在未来的应用前景。

 

文末点击阅读全文 or 扫描二维码,即可观看完整回放。

下文基于直播内容编辑,略有删减。

 

一、数据库阶段(1970-1990)

 

从 1970 年到 1990 年间,数据库技术经历了从理论研究到广泛应用的关键发展阶段。1970 年,IBM 的研究员科德(Edgar FrankCodd)发表论文《大型共享数据库的数据关系模型》(A Relational Model of Data for Large Shared Data Banks),提出关系模型,为数据管理引入了一种新的、更为结构化的方式。1974 年,IBM 的博伊斯(Ray Boyce)和钱伯林(Don Chamberlin)开发出的 SQL 语言,成为关系型数据库的重要基石。

 

随着 SQL 语言的发展,数据库技术进入了商业化阶段。1980 年,Oracle 推出了其首个商用关系型数据库 Oracle V2,标榜符合 SQL 标准,迅速在市场上占据了重要位置。

 

1978 年,中国引进了 IBM 的大型计算机,开始学习和应用数据库技术。1980 年代,国内越来越多企业认识到数据库的重要性,开始建立自己的 MIS(管理信息系统)。

 

随着企业内部信息系统的普及,数据孤岛挑战浮出水面。奇点云创始人行在也在职业经历中提到,2002 年,他帮助所在公司建立整个集团的数据仓库,将分散在各个系统中的历史数据集中存储起来,这对于长期趋势分析和预测建模尤为重要。

 

二、数据仓库阶段(1990-2009)

 

1990 年,数据仓库的鼻祖比尔·恩门(Bill Inmon)提出数据仓库的定义:“面向主题的、集成的、稳定的和随时间变化的数据集合”。展开来讲,数据仓库是围绕人或功能等(面向主题),整合多源数据(集成的),稳定存储以确保分析的可靠性(稳定的),并且记录数据的历史变化以便追踪趋势(随时间变化)的数据集合。1991 年,比尔出版《如何构建数据仓库》(Building the Data Warehouse),标志着数据仓库真正开始应用。

 

在 1990 年至 2009 年间,数据仓库技术经历了从萌芽到成熟的关键阶段。初期,为了解决随着业务系统和数据系统专业化、精细化发展所带来的数据孤岛问题,Teradata 于 1995 年推出 Active Data Warehouse,提供实时数据分析能力,成为大型企业优化供应链、客户管理等核心工具。

 

到了 2003-2006 年,谷歌发表“三驾马车”,奠定了大规模分布式存储系统的理论基础。2006 年,道哥(Doug Cutting)基于谷歌的 GFS 和 MapReduce 开发的 Hadoop,成为大数据处理的开源框架,极大地促进了大数据生态系统的发展,以及全世界大数据技术研究和应用的普及。

 

国内于 1990 年引入国外数据仓库技术,并在政府和大型企业中率先应用。2004 年,阿里率先建立自己的数据仓库,随后百度、腾讯等也开始着手建立。这一时期,数据仓库不仅帮助企业整合分散的数据资源,还支持了更深入的商业化分析,成为企业决策的重要支撑工具。

 

三、大数据平台阶段(2009-2015)

 

2008 年,阿里提出“去 IOE”,即逐步淘汰 IBM 小型机、Oracle 数据库和 EMC 存储系统,旨在减少数据存储成本,提升数据使用效率和灵活性。2009 年,阿里云计算公司成立,为“去 IOE”提供技术支持。2011 年,阿里自研“飞天”云计算平台开始对外提供服务。2012 至 2015 年间,阿里逐步在淘宝、支付宝等核心业务中实施“去 IOE”,将部分海量数据应用从集中式的 Oracle 数据库切换到分布式 MySQL 集群,逐渐用 X86 服务器替代了小型机,用分布式存储系统替代了 EMC 存储设备。

 

与此同时,大数据的概念在全球范围内迅速发展,2011 年,麦肯锡发布报告《大数据:下一个创新、竞争和生产率的前沿》(Big data: The next frontier for innovation, competition, and productivity),标志着大数据时代的正式到来。传统的 Hadoop 数仓架构逐步升级到围绕 Flink 为核心的云原生技术架构,实现了从离线处理到实时处理的转变‌。

 

2012 年,依赖于“去 IOE”所建立起来的技术基础设施,行在在阿里搭建了 TCIF(淘宝消费者信息库),能够整合分散在各 BU 的数据资源,并形成 One Data 体系(OneID、OneModel、OneService),提供支持更加精准的广告投放和个性化推荐,极大地提升了营销效果和用户体验。

 

可以说,“去 IOE”是伴随着大数据概念发生的,它不仅是为了降低成本,增加技术可控,更是为了构建一个能够高效处理海量数据、支持复杂分析需求的大数据平台,为阿里及更多企业提供了灵活、可扩展的技术基础,促进了大数据应用的发展,也为未来数据驱动与智能发展打下牢固的基石。

 

四、数据中台+AI 阶段(2015-至今)

 

2015 年,阿里率先提出了“中台”的概念,通过构建“大中台,小前台”的组织和业务体制,让中台能够同时支撑多个业务,并促进业务之间的信息交互和增强。其核心在于对数据能力进行抽象、共享和复用,从而实现全局管理和统一规范,并形成大数据资产层,为客户提供高效的服务,帮助企业数智化转型。

 

然而,“数据中台”并非适用于所有规模的企业。其成功实施需要企业具备足够的规模、复杂的组织结构以及多样化的业务需求,同时还需备强有力的领导力与执行力。因此,能够真正从中受益的企业有限。许多中小型企业最终选择了更为简单直接的技术解决方案,如数据仓库或数据平台。

 

随着技术的发展,AI 与数据之间的联系变得更加紧密。AI 和大模型训练依赖高质量的数据支持,而 AI 技术的进步也推动了数据治理的智能化和自动化。两者呈现出类似钟摆“Tick-Tock”的关系交替进步,共同发展。

 

目前,大模型应用已跨越技术拐点,算力和基础设施的快速进步为复杂模型提供了坚实基础,同时开发成本大幅降低。例如,杭州 DeepSeek-V3 在多项指标上超过了全球包括 GPT-4o 在内的其他大模型,但却用了不到同行十分之一的成本。随着这些因素的改善,基于 AGI 的(通用人工智能)第一原生应用作为 AI Agent,预计于 2025 年开始大面积出现,并于 2026 年迎来爆发。

 

不论是现在还是未来,数据都是 AI 的基础,企业应当认真思考如何更好地让数据 for AI,充分利用数据驱动价值。另外,未来市场对数据基础设施的需求分化明显,一种是使用 Hadoop、Hive 等引擎对数据治理有较高要求的大型客户,另一种是数据量不大,追求轻量化工具的中小型客户。

 

对此,我们的 DataSimba 都能提供灵活适配的解决方案。感兴趣的朋友可以联系小奇或者后台私信我们~

 

发布于: 刚刚阅读数: 5
用户头像

奇点云

关注

独立第三方大数据基础软件提供商 2019-08-05 加入

奇点云聚焦数据全生命周期,以自主研发的数据云操作系统为能力核心,提供自主可控、安全合规的大数据基础软件产品与全链路服务。

评论

发布
暂无评论
回顾数据时代过去50年|StartDT Talk直播回顾_奇点云_InfoQ写作社区