过去二十年,企业数据领域发生过很多变化。
数据库、数据仓库、大数据平台、数据治理、BI、数据中台、湖仓一体、ChatBI、Data Agent……
新概念层出不穷,新技术不断涌现。
但如果站在更高的视角来看,这二十年的变化,本质上是在解决同一个问题:
如何更快、更准确地获得答案。
今天很多人在讨论AI、Agent、ChatBI。
有人说数据仓库会消失,有人说BI将被取代,还有人认为未来根本不需要数据开发工程师。
这些观点听起来很有冲击力,但如果不了解企业数据体系的发展历程,就很容易得出片面的结论。
因此,在讨论AI会带来什么变化之前,我们不妨先回顾一下企业数据开发范式过去二十年的演进历程。
第一阶段:数据库时代——直接从业务系统取数
大约在2000年前后,大多数企业的信息化建设刚刚起步。
企业中的核心系统主要是:
- ERP
- 财务系统
- 进销存系统
- 人事系统
那时的数据分析需求并不复杂。
业务人员提出问题:
“这个月销售额是多少?”
技术人员登录数据库,写一条SQL。
很快就能得到结果。
那时的数据开发范式可以简单概括为:
1 | 业务系统 = 数据源 = 分析系统 |
所有分析工作直接基于业务数据库完成。
这种模式在企业规模较小时运行良好。
但随着企业发展,问题逐渐出现。
例如:
- ERP关注交易处理
- 财务系统关注账务处理
- CRM关注客户管理
每个系统的数据标准不同。
每个系统的数据口径不同。
每个系统都只关注自身业务。
当企业希望回答:
“某客户的销售额、利润和回款情况如何?”
就需要跨多个系统进行关联分析。
此时,数据库时代开始暴露出局限性。
企业需要一种新的数据组织方式。
数据仓库由此诞生。
第二阶段:数据仓库时代——让数据形成统一语言
从2005年前后开始,越来越多企业开始建设数据仓库。
数据仓库的核心思想并不复杂:
把分散在各业务系统中的数据统一汇集起来。
通过清洗、转换、整合。
形成统一的数据资产。
此时,企业数据架构开始演变为:
1 | 业务系统 → 数据集成 → 数据仓库 → 数据应用 |
对于很多企业而言,这是一次巨大的进步。
数据仓库解决了几个关键问题:
第一,统一数据口径。
同一个指标不再出现多个版本。
第二,沉淀历史数据。
业务系统可能只保留当前状态。
数据仓库可以保留完整历史轨迹。
第三,提高分析效率。
复杂分析不再直接访问业务数据库。
第四,实现跨系统分析。
企业第一次能够从全局视角看待经营数据。
也正是在这一时期,维度建模、星型模型、事实表、维度表等概念开始广泛普及。
很多企业的数据团队开始形成:
- ETL开发工程师
- 数据仓库工程师
- BI工程师
等专业岗位。
数据开发开始进入工程化时代。
第三阶段:BI时代——从数据到决策
如果说数据仓库解决的是“数据从哪里来”的问题。
那么BI解决的是:
“数据如何被使用”的问题。
从2010年以后,越来越多企业开始建设:
- 经营驾驶舱
- 管理看板
- KPI体系
- 数据分析平台
FineBI、Tableau、Power BI等产品快速发展。
企业开始尝试用数据驱动决策。
此时的数据开发范式变成:
1 | 业务系统 |
这也是很多企业今天仍然在采用的主流架构。
这一模式极大提升了企业的数据使用效率。
但与此同时,一个新的问题开始出现。
所有答案都需要提前准备。
- 业务提出需求。
- 数据团队开发ETL。
- 开发指标。
- 开发报表。
- 测试上线。
最终才能看到结果。
很多企业都经历过这样的场景:
业务部门提出一个分析需求。
排期两周。
开发一周。
测试三天。
上线一天。
最后花费近一个月时间。
而业务真正关心的问题,可能只需要一个答案。
问题并不在于技术。
而在于这种模式本质上属于:
先开发答案,再提出问题。
这也为下一轮变革埋下伏笔。
第四阶段:AI时代——从开发答案到生成答案
2022年以后,大模型开始快速发展。
ChatGPT、Claude、DeepSeek等产品让自然语言交互成为现实。
与此同时,企业数据领域也开始出现新的变化。
ChatBI开始流行。
智能问数开始普及。
企业知识库快速增长。
Data Agent不断涌现。
过去的数据分析过程通常是:
1 | 提出问题 |
而今天越来越多企业开始尝试:
1 | 提出问题 |
两种模式最大的区别在于:
过去是开发答案。
现在是生成答案。
这是企业数据开发范式过去二十年来最重要的一次变化。
AI会取代数据仓库吗?
这是最近两年被问得最多的问题之一。
我的观点很明确:
不会,至少在可预见的未来不会。
因为AI解决的是答案生成问题,而数据仓库解决的是数据组织问题。两者并不是替代关系。
Agent越强,越依赖高质量的数据基础。
ChatBI越智能,越需要统一的数据口径。
企业知识库越丰富,越需要高质量的数据治理。
未来消失的不会是数据仓库,而是数据仓库作为最终消费终端的角色。
它会逐渐退居幕后,成为Agent的数据底座。
下一代企业数据体系正在形成
回顾过去二十年。
企业数据体系经历了四次重要演进:
数据库时代:
解决数据存储问题。
数据仓库时代:
解决数据整合问题。
BI时代:
解决数据消费问题。
AI时代:
解决答案生成问题。
每一次演进,都不是推翻上一代体系。
而是在上一代基础上的能力扩展。
因此,我并不认为AI会终结企业数据体系。
AI正在推动企业数据体系进入一个新的阶段。
未来五年。
真正值得关注的问题不是:
“数据仓库会不会消失?”
而是:
“企业如何构建能够支撑Agent的数据体系?”
这也是本专栏接下来希望持续探讨的话题。
下一篇,我们将从一个最基础的问题开始:
为什么企业需要数据仓库?