Расширение модели распознавания речи

SpeechKit предоставляет несколько способов, которыми можно повысить качество распознавания речи:

Автотюнинг на основе логированных данных

По умолчанию SpeechKit не сохраняет переданные пользователем данные. Однако самый эффективный способ улучшить модель распознавания речи — это обучить ее на реальных пользовательских данных.

Чтобы повысить качество распознавания, используйте автотюнинг модели. Он позволит сохранять переданные в запросах данные и применять их для дальнейшего обучения. Автотюнинг повышает качество распознавания в процессе работы модели, не требуя от вас дополнительных действий по сбору данных.

Автотюнинг подходит, когда выполняются следующие условия:

В уже настроенном сценарии, который используется для решения рабочих задач, не распознается часть лексики.
Лексика для автотюнинга должна быть такой, чтобы ее можно было легко воспринять на слух и записать транскрипцией. Например, названия лекарств не подойдут, так как эта лексика из узкой предметной области. Если нужно распознавать доменно-специфичные термины, используйте дообучение модели.

Чтобы передать данные для автотюнинга, в запросах API укажите заголовок x-data-logging-enabled: true. Пример запроса с включенным логированием см. в разделе Заголовки запросов для диагностики ошибок в Yandex SpeechKit. После этого сообщите в техническую поддержку, что хотите, чтобы модель дообучалась на передаваемых данных.

Рекомендации для успешного автотюнинга:

Чтобы повлиять на качество распознавания, потребуется минимум 10 часов аудио на русском языке. Для моделей, распознающих другие языки, может потребоваться больше данных. Рекомендуемый объем данных — 50 и более часов.
Обучение модели распознавания занимает около трех месяцев для русского языка. За это время команда проверит и провалидирует данные, добавит их к обучающему датасету и обучит модель. Сроки для других языков уточняйте у вашего аккаунт-менеджера.

Использование аудио для улучшения качества

Вы можете передать команде SpeechKit аудиофайл для улучшения качества распознавания речи. Метод аналогичен автотюнингу, но вместо переданных в API-запросах данных используется подготовленное вами аудио. Передайте его технической поддержке в виде ZIP-архива. Вы также можете приложить транскрипции передаваемых сообщений, но это не обязательно.

Рекомендации по объему переданных данных совпадают с ограничениями для автотюнинга.

Дообучение модели

Основная модель распознавания речи предназначена для работы с общей лексикой, однако ее может быть недостаточно для распознавания специфичной лексики. С помощью дообучения модель можно научить распознавать доменно-специфичные термины из разных областей:

медицина — диагнозы, биологические термины, названия лекарств;
бизнес — названия компаний;
торговля — номенклатура товаров (ювелирные изделия, электротехника и т. п.);
финансы — банковские термины и названия банковских продуктов.

Для дообучения необходимы список терминов (слов или словосочетаний) и не менее трех текстовых примеров в свободной форме для каждого термина.

Дообучение доступно только для русского языка.

Дообучение занимает около двух месяцев с момента, как вы передали технической поддержке архив с данными.

Была ли статья полезна?

Обработка результатов распознавания с помощью LLM

Определение конца фразы

Расширение модели распознавания речи

Автотюнинг на основе логированных данныхАвтотюнинг на основе логированных данных

Использование аудио для улучшения качестваИспользование аудио для улучшения качества

Дообучение моделиДообучение модели

Была ли статья полезна?

Автотюнинг на основе логированных данных

Использование аудио для улучшения качества

Дообучение модели