Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M
IT之家 1 月 26 日消息,Hugging Face 推出了两款全新多模态模型 SmolVLM-256M 和 SmolVLM-500M,SmolVLM-256M 被称为全球最小的视频语言模型(VLM)
据介绍,这些模型是基于去年 Hugging Face 团队训练的 80B 参数模型蒸馏而来,实现了性能和资源需求的平衡。官方表示,SmolVLM-256M 和 SmolVLM-500M 可以直接在 transformer MLX 和 ONNX 平台上进行部署,并可即刻投入使用。
在技术方面,SmolVLM-256M / 500M 使用 SigLIP 作为图片编码器,采用 SmolLM2 作为文本编码器。SmolVLM-256M 是目前最小的多模态模型之一,可以接受任意序列的图片和文本输入,然后生成文字输出,包括图片描述、短视频字幕生成和 PDF 处理。Hugging Face 表示,这款轻量级模型能够在移动平台上高效运行,仅需少于 1GB 的 GPU 显存就能在单张图片上进行推理处理。
而 SmolVLM-500M 是为更高性能场景设计的,适用于企业运营环境。Hugging Face 指出,这一模型仅需要 1.23GB 的 GPU 显存就能完成图像推理处理,相较于 SmolVLM-256M 虽然负荷更大,但输出结果更加精准。
IT之家指出,这两个模型使用 Apache 2.0 开源授权,团队提供了基于 transformer 和 WebGUI 的示例程序。所有模型和演示均已公开,以方便开发者下载和使用。具体页面请查看此链接。
声明:文中包含外部链接,仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。