🧠AI 八股 · 大白话

题库 Agent 接入关于

← 返回题库

模型与 Agent 评估进阶本类第 1 题

为什么传统的 NLP 评估指标(如 BLEU、ROUGE)对于评估现代 LLM 的生成质量存在很大局限性?

在什么场景下,你会选择用图数据库或知识图谱来增强或替代传统的向量数据库检索?

请介绍几个目前行业内广泛使用的 LLM 综合性基准测试,并说明各自侧重点。(例如 MMLU、Big-Bench、HumanEval)

内容 AI 辅助生成,使用前请自行核对 · 题源见各题底部 ·开源于 GitHub