Распознавание речи

Распознавание речи (speech-to-text — STT) — это процесс преобразования речи в текст.

Работа со SpeechKit осуществляется через API или Playground. Подробнее о принципах работы API Yandex Cloud см. в документе Концепции API.

Сервис доступен по адресу stt.api.cloud.yandex.net:443.

Способы распознавания

SpeechKit предоставляет два способа распознавания речи:

Потоковое распознавание применяется для распознавания в режиме реального времени. При потоковом распознавании SpeechKit получает короткие аудиофрагменты и отправляет результаты, в том числе промежуточные, в рамках одного соединения.
Распознавание аудиофайлов. SpeechKit может распознавать аудиозаписи в синхронном и асинхронном режиме.
- Синхронное распознавание имеет жесткие ограничения на размер и длительность файла и подходит для распознавания одноканальных аудио до 30 секунд.
- Асинхронное распознавание может обрабатывать многоканальные аудиозаписи. Максимальная длительность файла — 4 часа.

Какое распознавание выбрать

	Потоковое распознавание	Синхронное распознавание	Асинхронное распознавание
Сценарии использования	Телефонные ассистенты и роботы Виртуальные ассистенты	Виртуальные ассистенты Голосовое управление Распознавание коротких голосовых сообщений в мессенджерах	Транскрибация аудиозвонков и выступлений Создание субтитров Контроль соблюдения скриптов колл-центров Выявление успешных скриптов Оценка качества работы операторов колл-центров
Входные данные	Голос в режиме реального времени	Предзаписанные одноканальные короткие аудиофайлы	Предзаписанные многоканальные и длинные аудиофайлы
Принцип работы	Обмен сообщениями с сервером в рамках одного соединения	Запрос — быстрый ответ	Запрос — отложенный ответ
Поддерживаемые API	gRPC v2 gRPC v3	REST v1	REST v2 REST v3 gRPC v3
Максимальная длительность аудиоданных	5 минут	30 секунд	4 часа
Максимальный объем переданных данных	10 МБ	1 МБ	1 ГБ
Количество распознаваемых каналов	1	1	2

Процесс распознавания

Распознавание аудио происходит в три этапа:

Акустическая модель определяет, какой набор низкоуровневых признаков соответствует звуковому сигналу.
Языковая модель на основе выхода акустической модели генерирует текст по словам.
Сервис обрабатывает текст: производит расстановку пунктуации, преобразование числительных в цифры и т.п.

Точность распознавания зависит от модели распознавания. Вы можете повысить точность распознавания модели, предоставив данные для дообучения модели. Подробнее о дообучении моделей см. в разделе Расширение модели распознавания речи.

Также на точность распознавания влияют:

качество исходного звука;
качество кодирования аудио;
разборчивость и темп речи;
сложность фраз и их длина.

Примеры использования

См. также

Была ли статья полезна?

Как синтезировать речь в API v3

Поддерживаемые языки

Распознавание речи

Способы распознаванияСпособы распознавания

Какое распознавание выбратьКакое распознавание выбрать

Процесс распознаванияПроцесс распознавания

Точность распознаванияТочность распознавания

Примеры использованияПримеры использования

См. такжеСм. также