• 介绍
    • GPU控制单元少, 计算单元多
    • 显卡在PCI总线上
  • 原理
    • 数据级并行
      • 单条指令并行应用于数据集(SIMD)
    • CUDA
      • 多网格(grid)组织,每网格多(512-1536)线程块
      • 线程块线程相同指令地址, 通过共享存储器(shared memory)和栅栏(barrier)块内通信
        • 不同块不通信,粗粒度并行
        • 同块通信,细粒度并行