微软 Phi-4 多模态及迷你模型上线,语音视觉文本全能
IT之家于2024年2月27日报道,微软推出了其最新的小型语言模型(SLM)Phi-4,此款产品在同类产品中表现出色。今天,微软进一步丰富了Phi-4系列,发布了两款新模型:Phi-4 多模态(Phi-4-multimodal)和 Phi-4 迷你(Phi-4-mini)。
Phi-4 多模态模型是微软首个整合语音、视觉与文本处理的统一多模态语言模型,其参数量达到56亿。在各项基准测试中,Phi-4 多模态的表现超越其他主流全模态模型,如谷歌的Gemini 2.0 Flash和Gemini 2.0 Flash Lite。
在与语音相关的任务上,Phi-4 多模态在自动语音识别(ASR)和语音翻译(ST)方面表现优异,超越了专业语音模型如WhisperV3和SeamlessM4T-v2-Large。微软指出,该模型在Hugging Face OpenASR排行榜上以6.14%的词错误率名列前茅。
在视觉任务上,Phi-4 多模态在数学和科学推理中表现出众,尤其在文档理解、图表处理、光学字符识别(OCR)以及视觉推理等常见多模态应用中,展现了对标甚至超越Gemini-2-Flash-lite-preview和Claude-3.5-Sonnet等热门模型的能力。
IT之家发现,Phi-4 迷你模型则特别针对文本处理任务,其参数量为38亿。在文本推理、数学运算、编程、执行指令和函数调用等方面均展现了卓越性能,超越了多款主流大型语言模型。
为了保证新模型的安全性与可靠性,微软邀请了内部及外部安全专家进行全面测试,并运用了微软AI红队(AIRT)制定的安全策略。经过进一步的优化,Phi-4 迷你与Phi-4 多模态模型都能通过ONNX Runtime在设备端进行部署,实现跨平台应用,以满足低成本及低延迟的需求。
现在,Phi-4 多模态和Phi-4 迷你模型已在Azure AI Foundry、Hugging Face和NVIDIA API目录上线,供开发者使用。
Phi-4系列新模型的发布,象征着高效AI技术的显著进步,为各类人工智能应用提供了强大的多模态与文本处理能力。
广告声明:文中的外部链接(包括但不限于超链接、二维码、口令等),用于传递更多信息,以节省搜寻时间,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。