Alibaba пуска мултимодален модел Qwen3.5-Omni

Екипът на Qwen на Alibaba пусна Qwen3.5-Omni, напълно мултимодален голям модел, поддържащ текстови, изображения, аудио и видео входове и изходи.

Моделът се предлага във варианти Plus, Flash и Light, поддържа 256K контекстна дължина и може да обработва над 10 часа аудио и 400+ секунди 720p видео вход.

Обучен на широкомащабни мултимодални масиви от данни – включително над 100 милиона часа аудио и видео – моделът демонстрира интегрирани възможности за възприемане и генериране.

В сравнение с по-ранните версии, Qwen3.5-Omni значително подобрява многоезичната производителност, като поддържа разпознаване на реч на 113 езика и диалекта и генериране на реч на 36 езика. Той също така въвежда функции за взаимодействие в реално време, като семантично прекъсване, гласово клониране и гласов контрол, подобрени от технологията ARIA на Alibaba за по-стабилен и естествен говорен изход.

Моделът постигна 215 най-съвременни (SOTA) резултата в тестове за аудио, аудиовизуално разбиране, разпознаване на реч, превод и разговорни задачи. Общите му аудиовизуални възможности са наравно с Google Gemini 3.1 Pro, като същевременно го превъзхождат при общи аудио задачи.

Qwen3.5-Omni в момента е достъпен чрез офлайн API и API в реално време.

Източник: CLS AIDaily

Source link

Like this:

Like Loading…

Нашия източник е Българо-Китайска Търговско-промишлена палaта

By admin