• 步骤
    • 图像切块,经过w投影成向量
    • 每块经过Transformer encoder成为输入
    • 100个分类点,经过为decoder来预测
      • 预测类别cls、框位置
  • 优势
    • 统一NLP和CV,适合多模态