← 返回题库多模态进阶本类第 3 题请解释 CLIP 模型的工作原理。它是如何通过对比学习把图像和文本'对齐'的?👀点击查看大白话讲解先自己想想怎么答,再对答案标记为已掌握☆ 收藏← 上一题什么是视觉语言模型(VLM)?它和纯文本 LLM 有什么不同?下一题 →扩散模型(Diffusion,如 Stable Diffusion、DALL·E)生成图像的基本原理是什么?