Hugging Face 最小 AI 视觉语言模型登场：2.56 亿参数，内存低于 1GB PC 也能驾驭

xxn 阅读：60496 2025-01-24 12:00:50 评论：0

最新消息称，Hugging Face 平台最近发布了两款轻量级 AI 模型，分别是SmolVLM-256M-Instruct和SmolVLM-500M-Instruct。这两款模型专为在计算资源有限的设备上最大化 AI 算力性能而设计。

据了解，Hugging Face 平台此前发布的SmolVLM AI 视觉语言模型（VLM）在 2024 年 11 月引起了广泛关注，仅拥有20亿参数，适用于设备端推理，并以其低内存占用率脱颖而出。

新推出的SmolVLM-256M-Instruct仅含有2.56亿参数，是迄今发布的最小视觉语言模型之一，能够在PC上低于1GB内存的条件下运行，提供卓越的性能。

而SmolVLM-500M-Instruct则仅包含5亿参数，主要针对硬件资源受限的情况，助力开发者应对大规模数据分析挑战，提升了AI处理效率和可访问性。

这些SmolVLM模型具有先进的多模态功能，可执行图像描述、短视频分析以及回答PDF或科学图表相关问题等任务。据Hugging Face称：“SmolVLM构建可搜索数据库的速度更快、成本更低，速度可与规模大十倍的模型媲美”。

这些模型的开发基于两个专有数据集：The Cauldron 和 Docmatix。前者是由50个高质量图像和文本数据集组成的综合集合，重点是多模态学习；而后者则专注于文档理解，通过匹配扫描文件和详细标题来增强理解。

这两个模型采用了更小的视觉编码器SigLIP base patch-16/512，而非SmolVLM 2B中使用的更大的SigLIP 400M SO。通过优化图像标记处理方式，减少冗余，提高了模型处理复杂数据的能力。

此外，SmolVLM模型能够以每个标记4096像素的速率对图像进行编码，相比之前版本每标记1820像素有了明显改进。

广告声明：文中包含的外部链接旨在传递更多信息，节省甄选时间，仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。