GPT 特点 有上下文记忆能力 有学习纠错能力 有思维链推理能力 技术 LLM RLHF Transformer 思维链 训练 GPT-3 通过训练,没语法错误 RLHF 人工标注,知识认知 校正模型RM(Reward Model) 对输出结果排序 打分比较主观,排序更客观 强化学习 RM反馈 与GPT-3权衡