- 大数据数据仓库数据湖
- 愿景
- 数据难点
- SQL脚本拼凑,没有可视化工具
- 技术要求高,大量重复开发工作
- 数据稽核难: 勾稽关系不可见,数据校核不可见
- 数据运维困难:可读性差,难以调整,扩展困难
- 湖仓一体计划
- 架构
- lambda架构
- 离线
- 实时
- Kafka, Kudu, ES, MySQL, Druid
- 问题
- 统一实时
- 采集 → Kafka → ETL → Kafka → 存储 → OLAP
- 采集工具
- 业务数据
- ODS原始数据快照
- 日志
- 动态数据:用户推荐数据,用户行为
- 第三方数据:用户征信、广告投放数据、企业信息
- 技术
- 实时
- 准实时
- 非实时
- 技术
- 存储工具
- 运维工具
- 处理工具
- 数据管理工具
- 分析展示工具
- 数仓建模
- 分层
- ODS层(数据源): 多源接入
- IDL层(数据集成): 屏蔽底层影响,还原业务,统一标准
- CDL层(数据组件): 指标口径统一,重复计算
- MDL层(数据集市): 数据分析查询,数据应用支持
- ADL层(数据应用): 多维数据分析
- 工具
- 基础层工具: 元数据中心维护业务过程,表关联关系、实体对象、识别分析对象、数据组件
- 自助查询工具: 逻辑宽表、生成查询语句、查询情况反馈建模
- 应用层工具: 拼接小模型