🧠AI 八股 · 大白话

题库 Agent 接入关于

← 返回题库

微调与对齐进阶本类第 9 题

什么是 DPO(直接偏好优化)?它和 RLHF / PPO 有什么不同?

什么是 RLHF(基于人类反馈的强化学习)?它是如何用来对齐 LLM 的?

什么是合成数据(synthetic data)?在微调中怎么用?

内容 AI 辅助生成,使用前请自行核对 · 题源见各题底部 ·开源于 GitHub