阿里通义千问全新视觉懂得模子 Qwen2.5
作者:[db:作者]日期:2025/01/28 浏览:
阿里通义千问全新视觉懂得模子 Qwen2.5-VL 开源:三尺寸版本、支撑懂得长视频跟捕获变乱等才能
阿里通义千问全新视觉懂得模子 Qwen2.5-VL 开源:三尺寸版本、支撑懂得长视频跟捕获变乱等才能
2025年01月28日 07:48
IT之家
IT之家 1 月 28 日新闻,阿里通义千问官方本日发文发布,开源全新的视觉懂得模子 Qwen2.5-VL——Qwen 模子家属的旗舰视觉言语模子,推出了 3B、7B 跟 72B 三个尺寸版本。IT之家附 Qwen2.5-VL 的重要特色如下:视觉懂得:Qwen2.5-VL 不只善于辨认罕见物体,如花、鸟、鱼跟虫豸,还可能剖析图像中的文本、图表、图标、图形跟规划。代办:Qwen2.5-VL 直接作为一个视觉 Agent,能够推理并静态地应用东西,开端具有了应用电脑跟应用手机的才能。懂得长视频跟捕获变乱:Qwen2.5-VL 可能懂得超越 1 小时的视频,而且此次它具有了经由过程精准定位相干视频片断来捕获变乱的新才能。视觉定位:Qwen2.5-VL 能够经由过程天生 bounding boxes 或许 points 来正确定位图像中的物体,并可能为坐标跟属性供给稳固的 JSON 输出。构造化输出:对发票、表单、表格等数据,Qwen2.5-VL 支撑其内容的构造化输出,惠及金融、贸易等范畴的利用。据官方先容,在旗舰模子 Qwen2.5-VL-72B-Instruct 的测试中,它在一系列涵盖多个范畴跟义务的基准测试中表示杰出,包含年夜学程度的成绩、数学、文档懂得、视觉问答、视频懂得跟视觉 Agent。Qwen2.5-VL 在懂得文档跟图表方面存在上风,而且可能作为视觉 Agent 停止操纵,而无需特定义务的微调。别的,在较小的模子方面,Qwen2.5-VL-7B-Instruct 在多个义务中超出了 GPT-4o-mini,而 Qwen2.5-VL-3B 作为端侧 AI 的潜力股,超出了之前版本 Qwen2-VL 的 7B 模子。阿里通义千问官方表现,与 Qwen2-VL 比拟,Qwen2.5-VL 加强了模子对时光跟空间标准的感知才能,并进一步简化了收集构造以进步模子效力。后续将进一步晋升模子的成绩处理跟推理才能,同时整合更多模态,使模子变得愈加智能,并向可能处置多种输入范例跟义务的综合万能模子迈进。
相关文章