← 返回题库部署与推理优化挑战本类第 4 题大模型推理又慢又贵,有哪些优化延迟和吞吐的常见手段?👀点击查看大白话讲解先自己想想怎么答,再对答案标记为已掌握☆ 收藏← 上一题什么是 Flash Attention?它解决了什么问题?下一题 →什么是流式输出(streaming)?为什么 AI 的回答是一个字一个字往外蹦的?