介绍 GPU控制单元少, 计算单元多 显卡在PCI总线上 原理 数据级并行 单条指令并行应用于数据集(SIMD) CUDA 多网格(grid)组织,每网格多(512-1536)线程块 线程块线程相同指令地址, 通过共享存储器(shared memory)和栅栏(barrier)块内通信 不同块不通信,粗粒度并行 同块通信,细粒度并行