Распознавание речи

Распознавание речи (speech-to-text — STT) — это процесс преобразования речи в текст.

Работа со SpeechKit осуществляется через API или Playground. Подробнее о принципах работы API Yandex Cloud см. в документе Концепции API.

Сервис доступен по адресу stt.api.cloud.yandex.net:443.

Способы распознавания

SpeechKit предоставляет два способа распознавания речи:

  1. Потоковое распознавание применяется для распознавания в режиме реального времени. При потоковом распознавании SpeechKit получает короткие аудиофрагменты и отправляет результаты, в том числе промежуточные, в рамках одного соединения.
  2. Распознавание аудиофайлов. SpeechKit может распознавать аудиозаписи в синхронном и асинхронном режиме.
    • Синхронное распознавание имеет жесткие ограничения на размер и длительность файла и подходит для распознавания одноканальных аудио до 30 секунд.
    • Асинхронное распознавание может обрабатывать многоканальные аудиозаписи. Максимальная длительность файла — 4 часа.

Какое распознавание выбрать

Потоковое распознавание Синхронное распознавание Асинхронное распознавание
Сценарии использования Телефонные ассистенты и роботы
Виртуальные ассистенты
Виртуальные ассистенты
Голосовое управление
Распознавание коротких голосовых сообщений в мессенджерах
Транскрибация аудиозвонков и выступлений
Создание субтитров
Контроль соблюдения скриптов колл-центров
Выявление успешных скриптов
Оценка качества работы операторов колл-центров
Входные данные Голос в режиме реального времени Предзаписанные одноканальные короткие аудиофайлы Предзаписанные многоканальные и длинные аудиофайлы
Принцип работы Обмен сообщениями с сервером в рамках одного соединения Запрос — быстрый ответ Запрос — отложенный ответ
Поддерживаемые API gRPC v2
gRPC v3
REST v1 REST v2
REST v3
gRPC v3
Максимальная длительность аудиоданных 5 минут 30 секунд 4 часа
Максимальный объем переданных данных 10 МБ 1 МБ 1 ГБ
Количество распознаваемых каналов 1 1 2

Процесс распознавания

Распознавание аудио происходит в три этапа:

  1. Акустическая модель определяет, какой набор низкоуровневых признаков соответствует звуковому сигналу.
  2. Языковая модель на основе выхода акустической модели генерирует текст по словам.
  3. Сервис обрабатывает текст: производит расстановку пунктуации, преобразование числительных в цифры и т.п.

Точность распознавания

Точность распознавания зависит от модели распознавания. Вы можете повысить точность распознавания модели, предоставив данные для дообучения модели. Подробнее о дообучении моделей см. в разделе Расширение модели распознавания речи.

Также на точность распознавания влияют:

  • качество исходного звука;
  • качество кодирования аудио;
  • разборчивость и темп речи;
  • сложность фраз и их длина.

Примеры использования

См. также