站长之家(ChinaZ.com)4月15日 消息:香港中文大学终身教授贾佳亚团队最近推出了一个名为“香港中文大学终身教授”的团队Mini-Gemini该模型在多模态任务列表中取得了显著成绩,其性能堪比GPT-4与DALLE3的结合。
Mini-Gemini模型以其更准确的图像理解能力、更高质量的培训数据和更强的图像分析和推理能力而闻名。该模型可以结合图像推理和生成,提供不同规模的版本,从2B到34B,包括最强多个指标和Google版本 Gemini Pro和GPT-与4V相比,并不逊色。
项目地址:https://top.aibase.com/tool/mini-gemini
试玩地址: https://103.170.5.190:7860/
Mini-Gemini模型的代码、模型和数据已经开源,可以在Github、在Huggingface页面上找到论文地址、模型和数据。这一开放举措使Mini-Gemini迅速登上了PaperWithCode的热门榜单,引起了广泛关注。
Mini-通过Demo的形式显示Gemini的图像理解和生成能力,用户可以在线与自定义图像对话。这一功能使Mini-Gemini在实际应用场景中表现出色,特别是在需要分析高清图像并以图像形式显示的任务中。例如,Mini-Gemini可以根据图片内容指导制作面包的过程,也可以根据计算机图片中的参数进行准确的比较。
此外,Mini-在保留图像理解和推理能力的同时,Gemini还具有图像生成能力,类似于ChatGPT与生成模型的结合。模型可以通过抽象的多模态指令进行推理和生成合适的图片。例如,当用户提出两个羊毛组可以做什么时,Mini-Gemini不仅能识别图片内容并给出建议,还能生成相应的羊毛熊图片。
Mini-在Gemini技术的背后,采用了名为Gemini的视觉双分支信息挖掘方法,利用卷积网络(ConvNet)编码高分辨率图像,利用Transformer中的Attention机制,挖掘每个低分辨率Query对应的高分辨率区域。图像生成方面,Mini-Gemini与SDXL技术相结合,通过LLM生成的文本链接两个模型,类似于DALLE3的流程。
在数据方面,Mini-通过收集和优化训练数据,Gemini实现了图像理解、推理和生成的统一过程。即使只使用2-3M数据,Mini-Gemini还可以在各种Zero-shot列表中与大厂使用大量数据训练的模型相媲美,展现其高效性和实用性。这一成就不仅给开源社区带来了新的活力,也为多模式模型的开发和应用开辟了新的可能性。
Copyright © 2013-2025 bacaiyun.com. All Rights Reserved. 八彩云 版权所有 八彩云(北京)网络科技有限公司 京ICP备2023023517号
本站文章全部采集于互联网,如涉及版权问题请联系我们删除.联系QQ:888798,本站域名代理为阿里云