阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通

阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通

作者:news 发表时间:2025-08-04
Mhmarkets迈汇:页岩油废水处理困境与行业挑战官方已经证实 顺发恒业证券事务代表刘海英辞职实垂了 智造领鲜,快乐升级—洽洽2025新品上市发布会圆满举办官方处理结果 靠“法律漏洞”年入35亿美元?百年航运家族的财富密码实垂了 接受波动常态化的可能性——银华投顾每日观点2025.8.1 是真的吗? 2024年度A股CFO盘点:艾融软件股价狂飙284%,归母净利润反降6.79%,财务总监王涛涨薪46%达103万 1-7月千亿房企共5家 保利以1632亿居首位实测是真的 接受波动常态化的可能性——银华投顾每日观点2025.8.1 万集科技:实控人翟军累计近四成持股被质押 中天期货:螺纹阶段性回落 白银继续走弱后续反转 三只松鼠:公司于2025年投资并参股安徽三只松鼠甄养饮品有限公司20%股权,布局乳饮饮料新赛道太强大了 金春股份:公司生产的水刺非织造布主要应用于清洁卫生材料等实垂了 康龙化成实控人之一郑北累计近五成持股被质押记者时时跟进 国林科技:截至7月31日公司股东人数为20127户这么做真的好么? 胡敏获批出任工银安盛资管副总经理是真的吗? 张戬获批出任中邮保险资管总经理是真的? 金盾股份:军工领域产品及订单信息属于机密级 科技水平又一个里程碑 洁美科技:截至7月31日持有人数为17085户后续反转 吉大通信:截至7月31日公司股东户数为21128户实垂了 洪铃获批出任现代财险董事、董事长这么做真的好么? 利和兴:公司液冷服务器自动维修测试技术的研发项目已完成 永辉 “胖改” 一年交卷:亏2.4亿,再砸40亿all in 张戬获批出任中邮保险资管总经理后续反转来了 特朗普说解雇鲍威尔“一秒都不会犹豫”,但担心这会扰乱市场后续反转来了 鸿蒙智行针对非辅助驾驶版车主推出增换购补贴,涉及问界多款车型是真的吗? 谁将成为重庆汽车“第一人” 爆火的Lovable:AI建站工具,8个月达到1亿美元ARR,速度之快超过了Cursor最新报道 广州无人驾驶装备工作指引正在编制:积极推进跨区自动驾驶道路测试,17 家企业累计测试超 130 万小时 2441 万公里科技水平又一个里程碑 伯克希尔哈撒韦第二季度营业利润下降4%,警告特朗普关税的负面影响专家已经证实 8月1日起征 铜市巨震!美国50%关税为何豁免精炼铜? 港股IPO重大调整!新上市申请人可“二选一”进行IPO发售分配 【企业】国美零售再化5.5亿元债务,债主变股东能否破局?实时报道 阿里出资一家清华系VC秒懂 贵金属周报|非农数据“爆冷”,黄金急速反弹官方通报来了 谈输赢为之过早?娃哈哈离岸家族信托尚未设立,宗庆后这一安排缘何搁浅 统计局局长因非农数据被免职 前官员忧心特朗普开了危险先例 不用怕!这才是牛市应该有的样子实垂了 限售股转让纳税地点调整 助推全国统一大市场建设实测是真的

感谢本站网友 乌蝇哥的左手 的线索投递!

本站 3 月 27 日消息,今日凌晨,阿里云发布通义千问 Qwen 模型家族中新一代端到端多模态旗舰模型 ——Qwen2.5-Omni,并在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源。

阿里云表示,该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。本站汇总其主要特点如下:

    全能创新架构:Qwen 团队提出了一种全新的 Thinker-Talker 架构,这是一种端到端的多模态模型,旨在支持文本 / 图像 / 音频 / 视频的跨模态理解,同时以流式方式生成文本和自然语音响应。Qwen 提出了一种新的位置编码技术,称为 TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。

    实时音视频交互:架构旨在支持完全实时交互,支持分块输入和即时输出。

    自然流畅的语音生成:在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

    全模态性能优势:在同等规模的单模态模型进行基准测试时,表现出卓越的性能。Qwen2.5-Omni 在音频能力上优于类似大小的 Qwen2-Audio,并与 Qwen2.5-VL-7B 保持同等水平。

    卓越的端到端语音指令跟随能力:Qwen2.5-Omni 在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在 MMLU 通用知识理解和 GSM8K 数学推理等基准测试中表现优异。

    据官方介绍,Qwen2.5-Omni 采用 Thinker-Talker 双核架构。Thinker 模块如同大脑,负责处理文本、音频、视频等多模态输入,生成高层语义表征及对应文本内容;Talker 模块则类似发声器官,以流式方式接收 Thinker 实时输出的语义表征与文本,流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构,融合音频 / 图像编码器进行特征提取;Talker 则采用双轨自回归 Transformer 解码器设计,在训练和推理过程中直接接收来自 Thinker 的高维表征,并共享全部历史上下文信息,形成端到端的统一模型架构。

    模型架构图

    模型性能方面,Qwen2.5-Omni 在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

    在多模态任务 OmniBench,Qwen2.5-Omni 达到了 SOTA 的表现。此外,在单模态任务中,Qwen2.5-Omni 在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval 和主观自然听感)。

    ▲模型性能图

      Qwen Chat://chat.qwenlm.ai

      Hugging Face://huggingface.co/Qwen/Qwen2.5-Omni-7B

      ModelScope://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

      DashScope://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

      GitHub://github.com/QwenLM/Qwen2.5-Omni

      Demo 体验://modelscope.cn/ studios / Qwen / Qwen2.5-Omni-Demo

相关文章