当前位置:首页 > 综合问答 > 正文

微软推出可以看图片的小语言模型

发布时间:2024-05-22 11:01:39 编辑:雷伟军 来源:

导读 微软发布了其小语言模型Phi-3的新版本,它可以查看图像并告诉您其中的内容。Phi-3-vision是一种多模式模型,即它可以读取文本和图像,最适...

微软发布了其小语言模型Phi-3的新版本,它可以查看图像并告诉您其中的内容。Phi-3-vision是一种多模式模型,即它可以读取文本和图像,最适合在移动设备上使用。微软表示,现已提供预览版的Phi-3-vision是一个42亿个参数模型(参数指的是模型的复杂程度以及它理解的训练量),可以执行一般的视觉推理任务,例如提出有关图表或问题的问题。图片。

但Phi-3-vision远小于其他以图像为中心的AI模型,如OpenAI的DALL-E或StabilityAI的StableDiffusion。与这些模型不同,Phi-3-vision不会生成图像,但它可以理解图像中的内容并为用户进行分析。

微软于4月份发布了Phi-3,并发布了Phi-3-mini,这是最小的Phi-3模型,拥有38亿个参数。Phi-3系列还有另外两个成员:Phi-3-small(70亿个参数)和Phi-3-medium(140亿个参数)。

随着使用更具成本效益和计算密集度较低的人工智能服务的需求不断增长,人工智能模型开发人员一直在推出小型、轻量级的人工智能模型,例如Phi-3。小型模型可用于为手机和笔记本电脑等设备上的人工智能功能提供支持,而无需占用太多​​计算机内存。除了Phi-3及其前身Phi-2之外,微软还发布了其他小型模型。据报道,其数学问题解决模型Orca-Math比Google的GeminiPro等更大的模型能够更好地回答数学问题。

Phi-3-vision现已提供预览版。Phi-3系列的其他成员-Phi-3-mini、Phi-3-small和Phi-3-medium-现在可通过Azure模型库获取。


免责声明:本文由用户上传,如有侵权请联系删除!

上一篇:纪梵希活动现场花艺分享(纪梵希美妆甜品工坊

下一篇:最后一页