VLE 视觉-语言多模态预训练模型

授权协议:None操作系统:None 开发语言:None
VLE (Vision-Language Encoder) 是一种基于预训练文本和图像编码器的图像-文本多模态理解模型,可应用于如视觉问答、图像-文本检索等多模态判别任务。特别地,在对语言理解和...