MiniGPT-4:一种可与 GPT-4 的多模态相媲美开源 AI

GPT-4 是 OpenAI 最新、最先进的大型语言模型。最显著的新特性是其多模态特性,即它可以处理文本和图像。它还可以执行描述输入图像、从手绘草图创建网站以及受图像启发编写故事或诗歌等任务。然而,这种强大的功能也伴随着昂贵的API价格和有限的访问权限(白名单制)。

GPT-4 API 访问的费用大概是 ChatGPT 的 60 倍。

或许有一种替代方式,那就是 MiniGPT-4,一个开源 AI 模型,可以执行像 GPT-4 这样的复杂视觉语言任务。

什么是MiniGPT-4?

MiniGPT-4 是沙特阿拉伯国王阿卜杜拉科技大学的博士生团队开发的开源AI项目。它以先进的Vicuna大型语言模型为动力,旨在通过展示卓越的多模式生成能力和计算效率来使GPT-4的开创性功能实现民主化。

上传了一张狐狸坐在樱花丛中的照片。输入问题:

提问:Describe what you see in the image

MiniGPT-4 根据图片给出描述

回答:The image shows a small white fox sitting in a field surrounded by pink cherry blossoms. The fox has big brown eyes and a fluffy white tail. The background is a light gray sky with clouds.

下面来试试中文的处理:

回答:这是一只小白狼咪咪咪咪咪咪

MiniGPT-4 中文描述

在英语场景下人工智能生成了一个准确的描述。同样 MiniGPT-4 甚至可以从单个图像中得出食谱。

根据图片写故事。

Give me a short story about this image

MiniGPT-4 根据图片写故事

翻译后的大意:

这张图片展示了一群恐龙站在夜晚的田野里,月亮在背景中挂着。它们都在向上看,好像想要看到某些东西。其中一只恐龙站在后腿上,其他的则是四腿着地。它们的皮肤上有不同的颜色和花纹,大小也不一。图片非常详细,注重恐龙的鳞片和皮肤纹理。背景是深紫色的,天空中可见星星和行星。整个效果充满神秘和惊奇,就好像恐龙们正试图弄清楚天空上正在发生的事情。

 

关于这张图片的一个短故事可以是关于一群在夜晚外出的恐龙,它们试图弄清楚天空中正在发生的事情。它们都很好奇,想知道那个亮光是什么,并一起向上看着。当它们向上看时,它们开始意识到那个光是一艘宇宙飞船,并且越来越接近它们。恐龙们都很害怕,但也很兴奋地想看看发生了什么。当宇宙飞船着陆时,恐龙们跑到它旁边,看看里面有什么。

免费试用

可以在 HuggingFace 中免费试用 MiniGPT-4。

总结

MiniGPT-4似乎是一个有前途的步骤,提供了一个开源、预算友好的替代选择,来替代强大的GPT-4。

如果为此发布API,相信它会释放出一波创新和实用应用。然而,它是否能真正与GPT-4竞争或超越,还有待观察。