Ukeate笔记

YOLOs

步骤
- 图像切块，经过w投影成向量
- 每块经过Transformer encoder成为输入
- 100个分类点，经过为decoder来预测
  - 预测类别cls、框位置
优势
- 统一NLP和CV，适合多模态

关系图谱

反向链接

YOLO

Created with Quartz v4.5.2 © 2026