Hugging Face 最小 AI 视觉语言模型登场:2.56 亿参数,内存低于 1GB PC 也能驾驭
最新消息称,Hugging Face 平台最近发布了两款轻量级 AI 模型,分别是SmolVLM-256M-Instruct和SmolVLM-500M-Instruct。这两款模型专为在计算资源有限的设备上最大化 AI 算力性能而设计。
据了解,Hugging Face 平台此前发布的SmolVLM AI 视觉语言模型(VLM)在 2024 年 11 月引起了广泛关注,仅拥有20亿参数,适用于设备端推理,并以其低内存占用率脱颖而出。
新推出的SmolVLM-256M-Instruct仅含有2.56亿参数,是迄今发布的最小视觉语言模型之一,能够在PC上低于1GB内存的条件下运行,提供卓越的性能。
而SmolVLM-500M-Instruct则仅包含5亿参数,主要针对硬件资源受限的情况,助力开发者应对大规模数据分析挑战,提升了AI处理效率和可访问性。
这些SmolVLM模型具有先进的多模态功能,可执行图像描述、短视频分析以及回答PDF或科学图表相关问题等任务。据Hugging Face称:“SmolVLM构建可搜索数据库的速度更快、成本更低,速度可与规模大十倍的模型媲美”。
这些模型的开发基于两个专有数据集:The Cauldron 和 Docmatix。前者是由50个高质量图像和文本数据集组成的综合集合,重点是多模态学习;而后者则专注于文档理解,通过匹配扫描文件和详细标题来增强理解。
这两个模型采用了更小的视觉编码器SigLIP base patch-16/512,而非SmolVLM 2B中使用的更大的SigLIP 400M SO。通过优化图像标记处理方式,减少冗余,提高了模型处理复杂数据的能力。
此外,SmolVLM模型能够以每个标记4096像素的速率对图像进行编码,相比之前版本每标记1820像素有了明显改进。
广告声明:文中包含的外部链接旨在传递更多信息,节省甄选时间,仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。