A Lite BERT 词向量因式分解Factorized Embedding Parameterization 加一层参数转换,解决参数过多问题 问题 词与词向量经过一层转换,不再独立 跨层参数共享Cross-layer parameter sharing 句子顺序预测任务Sentence Order Prediction,SOP 连续两句话调换顺序,让模型学习是否正确