← 返回题库微调与对齐进阶本类第 8 题什么是 RLHF(基于人类反馈的强化学习)?它是如何用来对齐 LLM 的?👀点击查看大白话讲解先自己想想怎么答,再对答案标记为已掌握☆ 收藏← 上一题如何准备一份用于微调 LLM 的数据集?下一题 →什么是 DPO(直接偏好优化)?它和 RLHF / PPO 有什么不同?