VLE 视觉-语言多模态预训练模型

授权协议：None操作系统：None 开发语言：None

VLE (Vision-Language Encoder) 是一种基于预训练文本和图像编码器的图像-文本多模态理解模型，可应用于如视觉问答、图像-文本检索等多模态判别任务。特别地，在对语言理解和...