🧠AI 八股 · 大白话

题库 Agent 接入关于

← 返回题库

大模型基础入门本类第 3 题

请解释 Transformer 中的自注意力机制是如何工作的?它为什么比 RNN 更适合处理长序列?

LLM 推理时有哪些常见的解码策略?请解释 Greedy Search、Beam Search、Top-K 采样和 Top-P(Nucleus)采样的原理和优缺点。

什么是位置编码?在 Transformer 中为什么它是必需的?请列举至少两种实现方式。

内容 AI 辅助生成,使用前请自行核对 · 题源见各题底部 ·开源于 GitHub