为积极配合国家品牌战略、标准化战略实施,提升品牌管理能力与贸易竞争优势,8月5日,深圳市贸促委联合...
6月20日,据安徽公安交警在线微信公众号消息, 为深入推进道路交通事故预防减量控大工作,公安部交通管...
为严厉打击自然资源违法违规行为,充分发挥查处典型违法案件的警示作用,落实最严格的耕地保护制度,按...
请保持2米间隔,有序排队请提前准备好健康码……看到这熟悉的语句,疫情防控中的红马甲是否又一次出现在...
GPT-4 识图功能迟迟不开放,终于有人忍不住自己动手做了一个。
MiniGPT-4来了,Demo 开放在线可玩。
(资料图片仅供参考)
传一张海鲜大餐照片上去,就能直接获得菜谱。
传一张商品效果图,就可以让 AI 写一篇带货文案。手绘一个网页,可以给出对应的 HTML 代码除了生产力拉满,也支持根据常识推理图上内容是否合理、解释表情包为什么好笑,以及看截图找电影等娱乐玩法。可以说,GPT-4 发布时展示过的功能,MiniGPT-4 基本也都有了。这下网友直接把 Demo 服务器挤爆,开发团队连开 4 台备用服务器,都有几十人在排队。
除了研究团队给出的示例,网友也用 MiniGPT-4 玩出了各种花样有人上传自己画的画,让 AI 评价评价。
有人上传一张从车道拍摄的飞机坠毁瞬间,让 MiniGPT-4 尽可能详细地描述,并思考自动驾驶 AI 能不能理解这个场面。做到这么好的效果,MiniGPT-4 实现起来却并不复杂。把图像编码器与开源语言模型 Vicuna(小羊驼)整合起来,并且冻结了两者的大部分参数,只需要训练很少一部分。
传统预训练阶段,使用 4 张 A100 在 10 个小时内就可完成,此时训练出来的 Vicuna 已能够理解图像,但生成能力受到很大影响。
为解决这个问题,团队让 MiniGPT-4 与 ChatGPT 合作创建了 3500 个图像文本的高质量数据集,也一并开源。
用新的数据集微调可以显著提高模型的生成可靠性和整体可用性,而且计算效率很高,使用单个 A100 只需要 7 分钟。
并且团队正在准备一个更轻量级的版本,部署起来只需要 23GB 显存。也就是消费级显卡中拥有 24GB 显存的3090 或 4090就可以本地运行了。
MiniGPT-4 开发团队来自 KAUST(沙特阿卜杜拉国王科技大学),包括 4 位华人成员和他们的导师 Mohamed Elhoseiny。
两位正在读博的共同一作还在 GitHub 页面上特别标注正在找工作。有意向的公司要抓紧抢人了~
在线 Demo:
https://minigpt-4.github.io
开源代码:
https://github.com/Vision-CAIR/MiniGPT-4
论文:
https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf
标签: