← 返回题库部署与推理优化挑战本类第 2 题什么是模型量化(quantization)?它如何减小模型体积、加速推理?👀点击查看大白话讲解先自己想想怎么答,再对答案标记为已掌握☆ 收藏← 上一题什么是 KV cache?它是如何加速推理的?下一题 →什么是 Flash Attention?它解决了什么问题?