Alibaba пуска мултимодален модел Qwen3.5-Omni

Byadmin

Mar 31, 2026

Alibaba пуска мултимодален модел Qwen3.5-Omni

Екипът на Qwen на Alibaba пусна Qwen3.5-Omni, напълно мултимодален голям модел, поддържащ текстови, изображения, аудио и видео входове и изходи.

Моделът се предлага във варианти Plus, Flash и Light, поддържа 256K контекстна дължина и може да обработва над 10 часа аудио и 400+ секунди 720p видео вход.

Обучен на широкомащабни мултимодални масиви от данни – включително над 100 милиона часа аудио и видео – моделът демонстрира интегрирани възможности за възприемане и генериране.

В сравнение с по-ранните версии, Qwen3.5-Omni значително подобрява многоезичната производителност, като поддържа разпознаване на реч на 113 езика и диалекта и генериране на реч на 36 езика. Той също така въвежда функции за взаимодействие в реално време, като семантично прекъсване, гласово клониране и гласов контрол, подобрени от технологията ARIA на Alibaba за по-стабилен и естествен говорен изход.

Моделът постигна 215 най-съвременни (SOTA) резултата в тестове за аудио, аудиовизуално разбиране, разпознаване на реч, превод и разговорни задачи. Общите му аудиовизуални възможности са наравно с Google Gemini 3.1 Pro, като същевременно го превъзхождат при общи аудио задачи.

Qwen3.5-Omni в момента е достъпен чрез офлайн API и API в реално време.

Източник: CLS AIDaily

Source link

Like this:

Like Loading…

Нашия източник е Българо-Китайска Търговско-промишлена палaта

Alibaba пуска мултимодален модел Qwen3.5-Omni

Byadmin

Like this:

By admin

Related Post

Fudan напредва в сателитната технология VLEO

Най-дивото пещерно баскетболно игрище в Китай в Гуейджоу

Foshan отваря най-производителната производствена линия за хуманоидни роботи в Китай

You missed

Fudan напредва в сателитната технология VLEO

Alibaba пуска мултимодален модел Qwen3.5-Omni

Най-дивото пещерно баскетболно игрище в Китай в Гуейджоу

Foshan отваря най-производителната производствена линия за хуманоидни роботи в Китай