🧠AI 八股 · 大白话

题库 Agent 接入关于

← 返回题库

多模态进阶本类第 6 题

多模态大模型的核心挑战是什么?即如何实现视觉和语言等不同模态信息的有效对齐和融合?

一个只处理文本的 RAG / Agent 系统,现在需要处理图片和表格,如何扩展?

什么是幻觉?如果 RAG 系统已经检索到了正确上下文却还在幻觉,该怎么修?

内容 AI 辅助生成,使用前请自行核对 · 题源见各题底部 ·开源于 GitHub