阿里巴巴开源能理解图像的 AI 模型 Qwen-VL
2023-8-26 00:7:36 Author: www.solidot.org(查看原文) 阅读量:8 收藏

  • 文章
  • 皮肤

阿里巴巴开源能理解图像的 AI 模型 Qwen-VL

人工智能

Wilson (42865)发表于 2023年08月26日 00时07分 星期六
来自乌鸦从高塔坠落

阿里巴巴周五开源了能理解图像和完成更复杂对话的 AI 模型 Qwen-VL 和 Qwen-VL-Chat。阿里巴巴称,Qwen-VL 基于 Qwen-7B,可以以图像、文本、检测框作为输入,并以文本和检测框作为输出,它使用了约 1.5B 的图文数据训练。在四大类多模态任务的标准英文测评中上,Qwen-VL 均取得同等通用模型大小下最好效果;支持英文、中文等多语言对话,端到端支持图片里中英双语的长文本识别;支持多图输入和比较,指定图片问答,多图文学创作等;相比于目前其它开源 LVLM使用的 224 分辨率,Qwen-VL 是首个开源的 448 分辨率的 LVLM 模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。Qwen-VL 和 Qwen-VL-Chat 使用名为 Tongyi Qianwen LICENSE AGREEMENT 的许可证,有限制条件,如果商业使用,则需要从阿里巴巴获得授权。

https://github.com/QwenLM/Qwen-VL/blob/master/README_CN.md




文章来源: https://www.solidot.org/story?sid=75898
如有侵权请联系:admin#unsafe.sh