🧠AI 八股 · 大白话

题库 Agent 接入关于

← 返回题库

多模态进阶本类第 3 题

请解释 CLIP 模型的工作原理。它是如何通过对比学习把图像和文本'对齐'的?

什么是视觉语言模型(VLM)?它和纯文本 LLM 有什么不同?

扩散模型(Diffusion,如 Stable Diffusion、DALL·E)生成图像的基本原理是什么?

内容 AI 辅助生成,使用前请自行核对 · 题源见各题底部 ·开源于 GitHub