阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通

阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通

作者:news 发表时间:2025-08-22
牧原股份上半年净利润同比大增11.7倍这么做真的好么? 图解运达科技中报:第二季度单季净利润同比下降16.44%实测是真的 美联储会议纪要与鲍威尔演讲受瞩目:专家解读政策分歧与黄金走势科技水平又一个里程碑 图解益佰制药中报:第二季度单季净利润同比增长72.35% 政策引领医疗器械企业聚焦高端创新是真的? 北汽蓝谷销量翻番减亏有限 享界S9T将是扭亏新筹码? 图解贤丰控股中报:第二季度单季净利润同比增长364.07%官方处理结果 景气高涨业绩增长 资金“热涌”券商板块反转来了 图解运达科技中报:第二季度单季净利润同比下降16.44% 图解南京聚隆中报:第二季度单季净利润同比增长49.88%官方已经证实 政策引领医疗器械企业聚焦高端创新是真的吗? 牧原股份上半年净利润同比大增11.7倍 诺泰生物:上半年归母净利润增长36.49%,合作加码合成生物与AI前沿探索记者时时跟进 新强联:风电轴承业务进展良好 产能利用率高是真的? 奥睿科k20mini移动硬盘399元超值促销 稳定币概念股悉数走强 众安在线(06060)涨7.41% 加密货币亚洲峰会即将来袭最新报道 稳定币概念股悉数走强 众安在线(06060)涨7.41% 加密货币亚洲峰会即将来袭 深圳锂电材料“四剑客”30年 从技术破壁到全球领跑 万众瞩目的英伟达财报,三季度指引会低于预期吗?后续反转 昆仑能源2025年中期业绩发布!一图带您读→后续反转 航天宏图商业承兑汇票逾期 管理人国信证券提请投资者关注相关风险实垂了 美国清洁能源前景遭重挫! 特朗普豪言不再批准太阳能或风能项目官方通报来了 PEEK材料板块走弱,金田股份跌停实垂了 估值诱人却无人问津:美国银行市政债持仓比例跌至金融危机后新低后续反转 软银投资和政府补贴仍填不上窟窿?英特尔继续寻找机构筹集资金实垂了 估值诱人却无人问津:美国银行市政债持仓比例跌至金融危机后新低官方已经证实 【坚定不移唱响“三全一上”主旋律】广阳:精准施策强招商 提质增效促发展 远洋集团盘中涨逾14% 预计上半年扭亏为盈至最多110亿元 快讯:创指、深成指震荡翻绿 数字货币板块集体走强后续反转来了 罗永浩花9年做的泡面将上市官方通报来了 OpenAI月度营收创新高 在7月份首次超过10亿美元 欧洲烈酒生产商股价下跌 美欧声明未提针对该行业的关税减免 今天,这两类ETF上涨! 天润乳业:2025年半年度净利润约-2186万元实垂了 博汇科技:数码视讯减持1%公司股份,减持计划实施完毕实垂了 记者时时跟进 欧洲烈酒生产商股价下跌 美欧声明未提针对该行业的关税减免反转来了 今天,这两类ETF上涨!后续来了 金麒麟:2025年半年度净利润约1.08亿元,同比增加226.14% 天鹅股份:2025年半年度净利润约1810万元,同比增加20.41% 云南锗业:2025年半年度净利润约2215万元

感谢本站网友 乌蝇哥的左手 的线索投递!

本站 3 月 27 日消息,今日凌晨,阿里云发布通义千问 Qwen 模型家族中新一代端到端多模态旗舰模型 ——Qwen2.5-Omni,并在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源。

阿里云表示,该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。本站汇总其主要特点如下:

    全能创新架构:Qwen 团队提出了一种全新的 Thinker-Talker 架构,这是一种端到端的多模态模型,旨在支持文本 / 图像 / 音频 / 视频的跨模态理解,同时以流式方式生成文本和自然语音响应。Qwen 提出了一种新的位置编码技术,称为 TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。

    实时音视频交互:架构旨在支持完全实时交互,支持分块输入和即时输出。

    自然流畅的语音生成:在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

    全模态性能优势:在同等规模的单模态模型进行基准测试时,表现出卓越的性能。Qwen2.5-Omni 在音频能力上优于类似大小的 Qwen2-Audio,并与 Qwen2.5-VL-7B 保持同等水平。

    卓越的端到端语音指令跟随能力:Qwen2.5-Omni 在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在 MMLU 通用知识理解和 GSM8K 数学推理等基准测试中表现优异。

    据官方介绍,Qwen2.5-Omni 采用 Thinker-Talker 双核架构。Thinker 模块如同大脑,负责处理文本、音频、视频等多模态输入,生成高层语义表征及对应文本内容;Talker 模块则类似发声器官,以流式方式接收 Thinker 实时输出的语义表征与文本,流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构,融合音频 / 图像编码器进行特征提取;Talker 则采用双轨自回归 Transformer 解码器设计,在训练和推理过程中直接接收来自 Thinker 的高维表征,并共享全部历史上下文信息,形成端到端的统一模型架构。

    模型架构图

    模型性能方面,Qwen2.5-Omni 在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

    在多模态任务 OmniBench,Qwen2.5-Omni 达到了 SOTA 的表现。此外,在单模态任务中,Qwen2.5-Omni 在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval 和主观自然听感)。

    ▲模型性能图

      Qwen Chat://chat.qwenlm.ai

      Hugging Face://huggingface.co/Qwen/Qwen2.5-Omni-7B

      ModelScope://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

      DashScope://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

      GitHub://github.com/QwenLM/Qwen2.5-Omni

      Demo 体验://modelscope.cn/ studios / Qwen / Qwen2.5-Omni-Demo

相关文章