← 返回题库模型与 Agent 评估进阶本类第 2 题请介绍几个目前行业内广泛使用的 LLM 综合性基准测试,并说明各自侧重点。(例如 MMLU、Big-Bench、HumanEval)👀点击查看大白话讲解先自己想想怎么答,再对答案标记为已掌握☆ 收藏← 上一题为什么传统的 NLP 评估指标(如 BLEU、ROUGE)对于评估现代 LLM 的生成质量存在很大局限性?下一题 →什么是'LLM-as-a-Judge'?用 LLM 来评估另一个 LLM 的输出,有哪些优点和潜在的偏见?