Xiaomi представляет MiMo-V2.5-TTS и ASR: полноценный голосовой конвейер для эпохи ИИ-агентов
Ещё в марте Xiaomi представила модель синтеза речи MiMo-V2-TTS, которая позволяла детально управлять тоном, эмоциями и стилем речи. Тогда в компании заявили, что нейросеть способна на всё: от естественного общения до пения, причем с поддержкой множества китайских диалектов.
Теперь Xiaomi делает следующий шаг, обновляя систему сразу по двум фронтам: как машины говорят и как они слышат. Компания анонсировала серию MiMo-V2.5-TTS вместе с MiMo-V2.5-ASR — это «полноценная связка» (full-link) для голосового взаимодействия, созданная специально для эпохи ИИ-агентов.
Модели вывода (генерация речи)
В части синтеза речи серия MiMo-V2.5-TTS включает три модели, которые на ограниченный период времени доступны бесплатно через платформу Xiaomi MiMo Open Platform. Все они построены на общей базе для работы со стилями и понимания текста, но решают разные задачи.
- Базовая MiMo-V2.5-TTS: поставляется с набором готовых голосов и позволяет на лету менять темп речи, тон и эмоциональный окрас.
- MiMo-V2.5-TTS-VoiceDesign: позволяет пользователям буквально «создать» новый тембр голоса с нуля, просто предоставив короткую вводную фразу.
- MiMo-V2.5-TTS-VoiceClone: предназначена для клонирования конкретного голоса по небольшому количеству образцов, сохраняя стабильность звучания при разных стилях и инструкциях.
Главная фишка новинки — способ интерпретации команд. Вместо того чтобы возиться со сложными параметрами, вы можете просто описать желаемый результат на естественном языке, как будто даете указания актеру озвучки. Для амбициозных задач, вроде создания игровых персонажей или аудиодрам, система поддерживает многослойный ввод: можно отдельно настраивать черты характера героя, сцену и диалоги, не теряя при этом «целостности» голоса.
Кроме того, появились встроенные аудио-теги, которые позволяют задавать эмоции или манеру произношения в конкретных точках предложения. Эти теги можно комбинировать в одном тексте, и, как утверждают разработчики, они отлично работают как с китайским, так и с английским языками.
Модель ввода (распознавание речи)
Что касается распознавания, Xiaomi выложила MiMo-V2.5-ASR в открытый доступ. По словам компании, эта система «заточена» под реальную жизнь: шумные помещения, региональные диалекты и смешанные англо-китайские разговоры.
Модель поддерживает несколько китайских диалектов (у, кантонский, минь и сычуаньский) и уверенно справляется со сложными задачами на английском. Она умеет переключаться между языками на лету безо всяких тегов и даже распознает текст песен, даже если вокал сильно «зашумлен» музыкой.
Разработчики уделили внимание и сценариям с несколькими собеседниками (например, на совещаниях): система умеет разделять речь разных людей, даже если они перебивают друг друга. Xiaomi заявляет, что точность сохраняется даже при большом удалении от микрофона и высоком уровне внешних шумов.
Ещё один важный момент — пунктуация. Вместо того чтобы выдавать «сырой» массив текста, который потом нужно править, MiMo-V2.5-ASR сама расставляет знаки препинания, опираясь на фонетику и контекст. В итоге вы получаете готовый к чтению транскрипт без дополнительной обработки.
Что касается производительности, Xiaomi утверждает, что модель показывает топовые результаты в тестах на двуязычное распознавание, работу с диалектами и переключение кодов.
Модели TTS доступны на платформе Xiaomi и через MiMo Studio, а веса и исходный код модели ASR открыты для прямого использования или доработки под ваши нужды.
Скорее всего, эти инструменты будут активно внедряться в будущие обновления экосистемы Xiaomi HyperOS, что позволит пользователям в СНГ опробовать технологию напрямую через мобильные устройства компании.
