微软正在通过引入 Phi-3-vision 来扩展其 Phi-3 小语言模型系列。与它的兄弟姐妹不同,Phi-3-vision 不仅仅专注于文本 – 它是一个多模态模型,还可以分析和理解图像。
这个拥有 42 亿个参数的模型专为移动设备而设计,擅长处理一般的视觉推理任务。用户可以向 Phi-3-vision 询问有关图像或图表的问题,它会给出有见地的答案。虽然 Phi-3-vision 不是像DALL-E或 Stable Diffusion 这样的图像生成工具,但它擅长图像分析和理解。
Phi-3-vision 紧随 Phi-3-mini 的到来,Phi-3-mini 是 Phi-3 系列中最小的成员,拥有 38 亿个参数。完整的系列现在包括 Phi-3-mini、Phi-3-vision、Phi-3-small(70 亿个参数)和 Phi-3-medium(140 亿个参数)。
这种对较小模型的关注反映了人工智能发展的增长趋势。较小的模型需要较少的处理能力和内存,这使得它们非常适合移动设备和其他资源受限的环境。微软已经看到了这种方法的成功,据报道其 Orca-Math 模型在解决数学问题方面超越了更大的竞争对手。 Phi-3-vision 目前提供预览版,而 Phi-3 系列的其余产品(迷你、小型和中型)可以通过 Azure 的模型库进行访问。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 55@qq.com 举报,一经查实,本站将立刻删除。转转请注明出处:https://www.szhjjp.com/n/1044437.html