安博体育官网下载app

可自主研发的非标试验设备

您的位置: 首页 > 新闻中心 > 行业新闻

【48812】冷艳四座!阿里重磅开源Qwen2-VL多模态大模型

发布时间: 2024-09-02作者: 行业新闻

  经过一年的尽力,阿里巴巴的AI团队近来发布了一个令人瞩目的作用:Qwen2-VL,这是一款全新的多模态大模型,这一版别是Qwen模型系列中的最新成员,根据之前的Qwen2进行了晋级和优化,尤其在视觉和言语的结合上体现出色。

  Qwen2-VL在高分辨率及不同份额图画了解方面体现出色,逾越了多项基准测验,并具有了解长达20分钟视频内容的才能,支撑视频问答、对话和内容创造。此外,Qwen2-VL具有杂乱推理和决议计划才能,可以与智能设备无缝集成,经过视觉或文本指令控制设备。多言语支撑也是其亮点,覆盖了包含英语、中文、日语、韩语等多种言语。阿里巴巴已在Apache 2.0许可证下开源Qwen2-VL,供给多个版别,并与Hugging Face Transformers等渠道集成,便于开发者运用和二次开发。(运用作用和链接在文章底部)

  该模型虽强壮,但存在局限性,如无法提取视频音频,常识更新仅到 2023 年 6 月。 在处理杂乱指令、计数、字符识别和 3D 感知使命时,模型体现较弱,准确性有限。

  该架构结合了 ViT 模型和 Qwen2 言语模型,运用约 6 亿参数的 ViT 来处理图画和视频输入。为增强模型了解视频中视觉信息的才能,进行了几项要害晋级:

  Qwen2-VL 的首要改善之一是完成了动态分辨率支撑,使其可处理恣意分辨率的图画,并动态调整视觉符号数量。这一改善使模型更挨近人类视觉感知,习惯任何清晰度或巨细的图画。

  另一个要害增强是多模态旋转方位嵌入 (M-ROPE)。它将旋转嵌入解构为时刻、空间(高度和宽度)三部分,使模型能一起捕捉并整合 1D 文本、2D 视觉和 3D 视频方位信息。

  从六个要害维度评价了模型的视觉才能:杂乱问题解决、数学、文档和表格了解、多言语文本图画了解、场景问答、视频了解及根据署理的交互。整体而言,72B 模型在大多数目标上体现出尖端功能,常逾越 GPT-4o 和 Claude 3.5-Sonnet 等闭源模型,特别在文档了解方面优势明显。

  7B 模型保留了图画、多图画和视频输入的支撑,完成了更具本钱效益的模型。该模型在文档了解(如 DocVQA)和图画多言语文本了解(如 MTVQA)使命中体现出色,达到了最先进的功能。

  用于移动布置的 2B 模型。虽然体积细巧,但它在图画、视频、多言语了解,以及视频使命、文档了解和场景问答方面体现出色。

  特别声明:以上内容(如有图片或视频亦包含在内)为自媒体渠道“网易号”用户上传并发布,本渠道仅供给信息存储服务。

  0-3 英超巅峰对决:铁腰连送大礼 8.5亿豪门一落千丈 送死敌3连胜

  央视曝光“硫超支”枸杞!记者深夜直击加工现场:被熏到呼吸困难、泪流不止……

  vivo X100 Ultra 印象的力气:梦回古蜀 镜头下的成都韶光之旅

  小米米家多功能电煮锅 1.5L 上架:1000W 功率,售 149 元