← 返回题库多模态进阶本类第 2 题什么是视觉语言模型(VLM)?它和纯文本 LLM 有什么不同?👀点击查看大白话讲解先自己想想怎么答,再对答案标记为已掌握☆ 收藏← 上一题Transformer 本来是处理文本的,它也能理解图像吗?多模态是怎么回事?下一题 →请解释 CLIP 模型的工作原理。它是如何通过对比学习把图像和文本'对齐'的?