Описание метода API v1

Генерирует речь по переданному тексту.

Примечание

API v1 поддерживает не все возможности синтеза SpeechKit. Сравнение версий API см. в разделе Возможности синтеза.

Сервис синтеза располагается по адресу: tts.api.cloud.yandex.net/speech/v1/tts:synthesize

Параметры в теле запроса

Для всех параметров обязательно используйте URL-кодирование. Максимальный размер тела POST-запроса 15 КБ.

Параметр Описание
text string
Текст, который нужно озвучить, в кодировке UTF-8.
Можно использовать только одно из полей text и ssml.
Для управления произношением (расстановки пауз, акцентов и ударений) используйте TTS-разметку.
Ограничение на длину строки: 5000 символов.
ssml string
Текст, который нужно озвучить, в формате SSML.
Можно использовать только одно из полей text и ssml.
lang string
Язык.
Допустимые значения: ru-RU (по умолчанию) — русский язык.
voice string
Желаемый голос для синтеза речи из списка.
emotion string
Амплуа или эмоциональная окраска голоса. Поддерживается только при выборе русского языка (ru-RU). Допустимые комбинации голоса и эмоциональной окраски см. в разделе Список голосов.
speed string
Скорость (темп) синтезированной речи.
Скорость речи задается дробным числом в диапазоне от 0.1 до 3.0. Где:
  • 3.0 — самый быстрый темп;
  • 1.0 (по умолчанию) — средняя скорость человеческой речи;
  • 0.1 — самый медленный темп.
format string
Формат синтезируемого аудио.
Допустимые значения:
  • lpcm
  • oggopus (по умолчанию)
  • mp3
sampleRateHertz string
Частота дискретизации синтезируемого аудио.
Применяется, если значение format равно lpcm. Допустимые значения:
  • 48000 (по умолчанию) — частота дискретизации 48 кГц;
  • 16000 — частота дискретизации 16 кГц;
  • 8000 — частота дискретизации 8 кГц.
folderId string

Идентификатор каталога, к которому у вас есть доступ. Требуется для авторизации с пользовательским аккаунтом (см. ресурс Аутентификация в API SpeechKit). Не используйте это поле, если вы делаете запрос от имени сервисного аккаунта.

Максимальная длина строки в символах — 50.

Ответ

Если синтез прошел успешно, в ответе будет бинарное содержимое аудиофайла. Формат выходных данных зависит от значения параметра format.

Подробнее о формате и кодах ответов см. на странице Коды ответов на запросы.

Примеры использования

Предыдущая
Следующая