特点 PB级数据 4V volume(大量) variety(多样) velocity(高速) value(低价值密度) 思想 lambda架构 sharing-nothing 体系 Hadoop HDFS MapReduce Flink Spark 技术方案 平台集群 Hadoop、Flume、Kafka、HBase、Spark等搭建 性能监控、调优 数仓体系 分层:ODS、EDS、DM ETL 数据导入:Sqoop 日志采集:Flume 任务流:Azkaban 可视化:Superset 存储:ClickHouse、HBase、Kudu 查询:Impala、Hive、Phoenix 计算:Spark、Flink 数据分发:NiFi 湖仓一体 分层:ODS、DIM、DWD、DWS、DM 数据格式:Iceberg 数据挖掘 数据支持 算法、推荐、用户画像 业务场景 物流仓储: 精细化运营,命中率 推荐 保险: 风险预测 金融: 用户特征 房产: 精准投策、营销 AI