- 第一章,数据 —— 人类建造文明的基石
- 如果我们把资本和机械动能作为大航海时代以来全球近代化的推动力的话,那么数据将成为下一次技术革命和社会变革的核心动力
- 现象、数据、信息和知识
- 对数据和信息处理后,人类获得知识
- 数据的作用:文明的基石
- 使用数据的标准流程:获取数据,分析数据,建立模型,预测未知
- 相关性:使用数据的钥匙
- 数据和所想获得的信息之间的联系通常是间接的,要通过不同数据之间的相关性才能体现出来
- 统计学:点石成金的魔棒
- 数学模型的基础都离不开概率论和统计学
- 统计除了要求数据量必须充分以外,还要求采样的数据具有代表性
- 数学模型:数据驱动方法的基础
- 理论上证明当观察到的数据量足够多了以后,随机性和噪声可以忽略不计
- 切比雪夫不等式
- 理论上讲,只要找到足够多的具有代表性的样本,就可以运用数学找到一个模型或一组模型的组合,使得它和真实情况非常接近
- 数据驱动方法最大的优势在于,它可以在最大程度上利益于计算机技术的进步
- 理论上证明当观察到的数据量足够多了以后,随机性和噪声可以忽略不计
- 第二章,大数据的机器智能
- 在有大数据之前,计算机并不擅长于解决需要人类智能的问题,但是今天这些问题换个思路就可以解决了,其核心就是变智能问题为数据问题。由此,全世界开始了新的一轮技术革命 —— 智能革命
- 什么是机器智能
- 图灵测试,实现以下几件事情中的一件,就可以认为有图灵所说的智能
- 语音识别、机器翻译、文本的自动摘要或者写作、战胜人类的国际象棋冠军、自动回答问题
- 图灵测试,实现以下几件事情中的一件,就可以认为有图灵所说的智能
- 鸟飞派:人工智能 1.0
- 相同的语法分析树
- 明斯基的结论:目前(1968年)的方法无法让计算机真正有类似于人的智能
- 相同的语法分析树
- 另辟蹊径:统计 + 数据
- 用解决通信问题的方法来解决 —— 贾里尼克
- 用马尔可夫模型分别描述信源和信道
- 数字通信采用什么特征,语音识别就采用什么特征
- 数据驱动,随着数据量的积累,系统会变得越来越好。
- 过去人工智能的方法很难受益于数据量的提升
- 用解决通信问题的方法来解决 —— 贾里尼克
- 数据创造奇迹:量变到质变
- 2005年是大数据元年
- 机器翻译领域从来没有技术积累、不为人知的Google,以巨大的优势打败了全世界所有机器翻译研究团队
- 用从前的方法,上万倍的数据训练
- 2005年是大数据元年
- 大数据的特征
- 体量大,三V,大量(Vast)、多样性(Variety)、及时性(Velocity)
- 多维度更加简明而准确
- 全面性,或者说完备性
- 大数据的时效性不是必需的
- 不是尺寸大,更强调的是相对小的大,是抽象意义上的大
- 变智能问题为数据问题
- 第三章,思维革命
- 在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这便是大数据思维的核心
- 思维方式决定科学成就:从欧几里得、托勒密到牛顿
- 公理化体系
- 地心说,“通过观察获得数学模型的雏形,然后利用数据来细化模型”
- 首先,有一个简单的元模型,然后用元模型构建复杂的模型
- 其次,整个模型要和历史数据相吻合
- 两大缺陷
- 模型很复杂
- 确定性假设,假定模型一旦产生,就是确定和不变的
- 牛顿用简单而优美的数学公式破解了自然之谜
- 让人们相信世界万物的运动变化规律是可以被认识的,摆脱了在大自然面前被动的状态
- 后来人们将牛顿的方法论概括为机械思维
- 世界变化的规律是确定的
- 因为有确定性做保障,因此规律不仅是可以被认识的,而且可以用简单的公式或者语言描述清楚
- 这些规律应该是放之四海皆准的
- 工业革命,机械思维的结果
- 现有产业 + 蒸汽机 = 新产业
- 瓦特不仅是技术的胜利,更是掌握了新的方法论 —— 机械思维
- 光速恒定基础上,利用逻辑推理,就可以推导出整个狭义相对论
- 如果将重力和加速度等价起来,利用因果逻辑,就能推导出广义相对论
- 世界的不确定性
- 不确定性来自两个方面
- 影响世界的亦是其实非常多
- 客观世界本身的特性
- 不确定性来自两个方面
- 熵 —— 一种新的世界观
- 香农的信息论,把不确定性和信息联系了起来,给出量化方法
- 最初是建立通信的理论
- 熵,封闭系统的无序程度
- 在利用信息时的很多有的是,在信息论中能找到根据
- 互信息(Mutual Information),对相关性的量化
- 香农第一定律,也称为香农信源编码定律
- 对信源发出的所有信息设计一种编码,那么编码平均长度一定大于该信源的信息熵。
- 同时指出,一定存在一种编码方式,使得编码的平均长度无限接近于它的信息熵
- 对信源发出的所有信息设计一种编码,那么编码平均长度一定大于该信源的信息熵。
- 香农第二定律,信息的传播速率不可能超过信道的容量
- 香农的信息论,把不确定性和信息联系了起来,给出量化方法
- 大数据的本质
- 重要性
- 数据量:足以消除不确定性
- 多维度 :互信息,交叉验证
- 数据完备性:交叉熵,数据代表性的量化
- 大数据的科学基础是信息论,本质就是利用信息消除不确定性
- 重要性
- 从因果关系到强相关关系
- 数据公司Google
- 点击模型的使用标志着工作方法从传统的“遵循因果关系”,变成了“寻找相关性”
- 第四章,大数据与商业
- 在未来我们可以看到,大数据和机器智能的工具就如同水和电这样的资源,由专门的公司提供给全社会使用
- 从大数据中找规律
- 亮点
- 用统计规律和个案对比,做到精准定位
- 社会已经默认了在取证时利用相关性代替直接证据
- 执法、运营的成本,在大数据时代大幅下降
- 亮点
- 巨大的商业利好:相关性、时效性和个性化的重要性
- 亚马逊相比沃尔玛,可以随时调价。利用时效性数据
- 大数据商业的共同点 —— 尽在数据流中
- 数据完成两个方向的流动:从每一个细节到整体,从整体到每一个细节
- 把控每一个细节
- 重新认识穷举法 —— 完备性带来的结果
- 从历史经验看大数据的作用
- 现有产业 + 机器智能 = 新产业
- 现有产业 + 大数据 = 新产业
- 技术改变商业模式
- 三个结论
- 首先,技术革命导致商业模式的变化,尤其是新的商业模式的诞生
- 其次,生产越来越过剩,需求拉动经济增长的模式变得不可逆转
- 最后,商业模式的变化既有继承性,又有创新性
- 三个结论
- 加(+)大数据缔造新产业
- 第五章,大数据和智能革命的技术挑战
- 大数据的数据量大、维度多、数据完备等特点,使得它从收集开始,到存储和处理,再到应用,都与过去的数据方法有很大的不同。因此,使用好大数据也需要在技术和工程上采用与过去不同的方法
- 技术的拐点

- 数据的产生,信息的存储,传输的技术,信息的处理
- 数据收集:看似简单的难题
- 怎样收集到数据的全集
- 收集数据,需要在无意之间完成
- 数据存储的压力和数据表示的难题
- 第一类技术是存储同样的信息占用空间小
- 第二类技术涉及数据安全,指数据不丢失、不损坏,而不是防止数据被盗
- 并行计算和实时处理:并非增加机器那么简单
- 数据挖掘:机器智能的关键
- 虽然香农告诉我们,信息越多,越能消除系统的不确定性,但数据常常夹杂噪声
- 数据的信噪比
- 计算复杂度太高,机器学习时,通常两种情况二选一
- 数据量大,但是采用比较简单的模型,比较少的迭代次数,也就是用大量数据做一个浅层的机器学习
- 数据量较小,但是采用比较复杂的模型,经过很多次迭代训练出准确的模型参数
- 总体来讲,大部分机器学习算法是等效的,只有量的差别,没有质的差别。而量的差别可以通过规模和数据量来弥补
- 虽然香农告诉我们,信息越多,越能消除系统的不确定性,但数据常常夹杂噪声
- 数据安全的技术
- 两层含义
- 不损坏、不丢失
- 不被偷走或盗用
- 用大数据分析用户操作流程是否正常
- 两层含义
- 保护隐私:靠大数据长期挣钱的必要条件
- 大数据时代,技术的发展和保护隐私开始产生矛盾
- 第六章,未来智能化产业
- 现有产业 + 机器智能 = 新产业,未来的农业、制造业、体育、医疗、律师,甚至编辑记者行业都将迎来崭新形态,新产业将取代旧产业满足人类的个性化需求,大数据将导致我们整个社会的升级和变迁
- 未来的农业
- Droplet精确灌溉
- 未来的体育
- 数据分析打法
- 利用实时数据及时调整比赛战术
- 大数据帮助球队改进精细到两个人配合的细节
- 未来的制造业
- 机器人
- 智能化管理
- 未来的医疗
- 今天的医疗瓶颈
- 医疗成本越来越高
- 药品研制周期长、费用高
- 医务人员培养成本高,薪资高
- 模式识别和图像理解诊断
- 计算机做手术的三大优势
- 漏判或失误的可能性非常低
- 准确率高
- 稳定性非常好
- 医疗资源不平衡
- 帮助看病的IBM沃特森计算机
- 很多疾病治不好
- 医治癌症,跟据DNA个性化药品
- 长生不老,修复基因
- 医疗成本越来越高
- 今天的医疗瓶颈
- 未来的律师业
- 高昂的律师费
- 自然语言处理软件,使律师效率提高500倍,成本下降99%
- 未来的记者和编辑
- 计算机写作
- 第七章,智能革命和未来社会
- 在历次技术革命中,一个人、一家企业,甚至一个国家,可以选择的道路只有两条:要么加入浪潮,成为前2%的人,要么观望徘徊,被淘汰
- 智能化社会
- 踩踏事件预测,规避拥堵
- 在时间上优化交通资源,就必须做到统筹每人每天的出行状况甚至活动安排了
- 让生活更加方便,社会资源利用率极大地提高
- 要做到这一点,重要的是让整个社会精细化
- 精细化社会
- 追踪每一次交易
- 区块链
- 从标准化到个性化的服务
- 追踪每一次交易
- 无隐私的社会
- 我们或许会生活在一个没有隐私的环境里,或许会被一些超级权力在无形中控制,甚至很多人因为没有掌握未来生存的技能而找不到工作,财富可能会更加集中在少数人手里
- 大数据和机器智能引发的隐私问题会非常严重,在今天和未来,当移动互联网(以及正在快速发展的万特联网技术)、大数据和机器智能三者叠加到一起之后,我们不再有隐私可言
- 拥有数据的公司保护个人隐私的意愿远不如大家想象的那么强
- 很多人忽视大数据对个人隐私潜在的威胁,原因至少有三个
- 首先是对这个问题缺乏认识,不知道大数据的威力,不知道多维度的信息凑到一起能够得到一个人完整的画像
- 其次是低估b机器智能的力量。认为数据是杂乱无章的,公司哪有工夫与我这种小人物过不去。不知机器智能时代,挖掘个人隐私并不需要人来做,而是机器完成
- 最后,也是最重要的原因,就是很多人一厢情愿地把个人隐私寄托在数据拥有者的善意上
- 希望通过立法的手段来解决保护隐私的问题,答案基本是否定的
- 在大陆法系国家,立法永远是远远滞后于案件发生的
- 毫不夸张地讲,今天的法律对保护隐私几乎是无效的
- 无形中造就出一个老大哥。
- 历史证明,任何不受约束的超级权力最后都会带来灾难
- 机器抢掉人的饭碗
- 人类总体来讲是过分自信的,趋利而忽视危害
- 工业革命对社会影响分成三个阶段
- 第一阶段只有发明家 工厂主们受益
- 第二阶段是全体英国民众普遍受益,这两个阶段之间相差半个多世纪
- 第三阶段才是整个世界受益,这和第二个阶段又相差很长时间
- 第二次工业革命
- 从少数精英受益,经过长大半个世纪的时间,才开始造福技术革命的中心地区
- 而世界上大部分地区享受到第二次工业革命的成果,是第二次世界大战之后的事情
- 依然没有消化完的信息革命
- 过去30年,美国和中国贡献了全球超过一半的GDP增长
- 从全世界的范围看,消化掉信息革命的冲击波,还需要更长时间
- 现在大数据和机器智能革命已经来敲门了
- 解决问题只有靠时间
- 智能革命的冲击
- 智能革命所要替代的是人类最值得自豪的部分 —— 大脑
- 对社会的冲击强度更大、影响面更广、更深刻
- 我公益性须回答一个问题:当全社会各行各业的从业人数都因为机器智能而减少时,几十亿劳动力怎么办
- 很多人会天真地认为,船到桥头自然直,劳动力会被自然而然地分配到其他行业中去
- 但是,这种劳动力的再分配,一来需要非常长的时间,二来依赖于产生新产业
- 我们来看看产生新产业的必要性及其难度
- 大量淘汰下来的劳动力怎么办?新毕业的学生如何就业?
- 答案是要么去从事一份工资足够低的服务性工作,要么没有工作靠领取救济过活
- 智能时代,一定会有一小部分人参与智能机器的研发和制造,这是所谓的新行业,但是这只会占到劳动力的很小一部分
- 所需要的就业wovt相比过去的老行业也会少很多。不可能像过去那样,把农业人口变成城市人口,把第一、第二产业变成第三产业这么简单
- 大量淘汰下来的劳动力怎么办?新毕业的学生如何就业?
- 很多人会天真地认为,船到桥头自然直,劳动力会被自然而然地分配到其他行业中去
- 智能革命所要替代的是人类最值得自豪的部分 —— 大脑
- 争当2%的人