Vanilla DPO 是一种用于语言模型对齐的强化学习方法,它简洁但强大……