FastVLM 视觉语言模型的高效视觉编码

授权协议:None操作系统:None 开发语言:None
FastVLM,一款专为高分辨率图像处理优化的视觉语言模型(VLM)。 FastViTHD 是一种新颖的混合视觉编码器,旨在输出更少的 token 并显著减少高分辨率图像的编码时间。 最小的变体...