• 大数据数据仓库数据湖
  • 愿景
    • 统一
      • 批流一体
  • 数据难点
    • SQL脚本拼凑,没有可视化工具
    • 技术要求高,大量重复开发工作
    • 数据稽核难: 勾稽关系不可见,数据校核不可见
    • 数据运维困难:可读性差,难以调整,扩展困难
  • 湖仓一体计划
    • 思路
      • 分治
      • 计算向数据移动
      • 本地取数据
  • 架构
    • lambda架构
      • 离线
        • Hive, Impala, MySQL
      • 实时
        • Kafka, Kudu, ES, MySQL, Druid
      • 问题
        • 离线和实时数据不一致
    • 统一实时
      • 采集 Kafka ETL Kafka 存储 OLAP
  • 采集工具
    • 业务数据
      • ODS原始数据快照
      • 日志
      • 动态数据:用户推荐数据,用户行为
      • 第三方数据:用户征信、广告投放数据、企业信息
    • 技术
      • RPC同步
      • ETL拉取
      • 日志采集
      • 爬虫
    • 实时
      • trigger、日志
        • canel
    • 准实时
      • 日志
    • 非实时
    • 技术
  • 存储工具
  • 运维工具
  • 处理工具
  • 数据管理工具
    • 分类
      • 资产大屏
      • 元数据管理
      • 任务管理:管理、编排、调度、监测
      • 数据质量、数据治理
    • Yarn
    • Mesos
    • Tachyon
  • 分析展示工具
  • 数仓建模
    • 分层
      • ODS层(数据源): 多源接入
        • 业务库,集团数据,流量日志,三方数据
      • IDL层(数据集成): 屏蔽底层影响,还原业务,统一标准
      • CDL层(数据组件): 指标口径统一,重复计算
      • MDL层(数据集市): 数据分析查询,数据应用支持
      • ADL层(数据应用): 多维数据分析
    • 工具
      • 基础层工具: 元数据中心维护业务过程,表关联关系、实体对象、识别分析对象、数据组件
      • 自助查询工具: 逻辑宽表、生成查询语句、查询情况反馈建模
      • 应用层工具: 拼接小模型