Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M

xxn 阅读：25791 2025-01-26 22:00:41 评论：0

IT之家 1 月 26 日消息，Hugging Face 推出了两款全新多模态模型 SmolVLM-256M 和 SmolVLM-500M，SmolVLM-256M 被称为全球最小的视频语言模型（VLM）

据介绍，这些模型是基于去年 Hugging Face 团队训练的 80B 参数模型蒸馏而来，实现了性能和资源需求的平衡。官方表示，SmolVLM-256M 和 SmolVLM-500M 可以直接在 transformer MLX 和 ONNX 平台上进行部署，并可即刻投入使用。

在技术方面，SmolVLM-256M / 500M 使用 SigLIP 作为图片编码器，采用 SmolLM2 作为文本编码器。SmolVLM-256M 是目前最小的多模态模型之一，可以接受任意序列的图片和文本输入，然后生成文字输出，包括图片描述、短视频字幕生成和 PDF 处理。Hugging Face 表示，这款轻量级模型能够在移动平台上高效运行，仅需少于 1GB 的 GPU 显存就能在单张图片上进行推理处理。

而 SmolVLM-500M 是为更高性能场景设计的，适用于企业运营环境。Hugging Face 指出，这一模型仅需要 1.23GB 的 GPU 显存就能完成图像推理处理，相较于 SmolVLM-256M 虽然负荷更大，但输出结果更加精准。

IT之家指出，这两个模型使用 Apache 2.0 开源授权，团队提供了基于 transformer 和 WebGUI 的示例程序。所有模型和演示均已公开，以方便开发者下载和使用。具体页面请查看此链接。

声明：文中包含外部链接，仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。