Начало работы со SpeechKit

О стоимости использования сервиса читайте в разделе Правила тарификации для SpeechKit.

Перед началом работы

Консоль управления

Перейдите в консоль управления, затем войдите в Yandex Cloud или зарегистрируйтесь, если вы еще не зарегистрированы. О том, как начать работать с Yandex Cloud, см. в документе Начало работы с Yandex Cloud.
Примите пользовательское соглашение.
В сервисе Yandex Cloud Billing убедитесь, что у вас подключен платежный аккаунт и он находится в статусе ACTIVE или TRIAL_ACTIVE. Если платежного аккаунта нет, создайте его.

Распознавание речи

Интерфейс AI Studio

API

В интерфейсе AI Studio выберите каталог, на который у вашего аккаунта есть роли ai.playground.user и ai.datasets.editor или выше.
На панели слева разверните раздел AI Speech и выберите Распознавание речи.
На вкладке Распознавание речи в блоке Параметры распознавания:
- Язык — выберите нужный язык или оставьте значение Автоматически.
- Нормализация текста — представляет даты и время в цифровом формате, преобразовывает числа из словарного в цифровой формат и открывает доступ к дополнительным настройкам.
- Фильтрация обсценной лексики — маскирует обсценную лексику.
- Литературный текст — добавляет заглавные буквы и знаки пунктуации.
- Определение дикторов — размечает, какому из дикторов принадлежит каждая распознанная фраза.
- Группировка фраз дикторов — разделяет фразы на две группы по дикторам.
Нажмите Выбрать файл или перетащите аудиофайл в зону загрузки.
Классификаторы — находит в тексте фразы заданной категории, например, приветствие, негатив или мат. Работает только для русского языка.
Обработка результатов — обработка результатов с помощью LLM:
- Модель — выберите модель для обработки. Стоимость обработки зависит от выбранной модели.
- Инструкция:
  - Напишите промпт в поле ввода или выберите готовый.
  - Формат результата — укажите предпочитаемый формат для результатов распознавания.
  - Добавить инструкцию — добавьте еще одну инструкцию. Всего можно добавить до пяти инструкций.
Нажмите Распознать, чтобы распознать речь в аудиофайле.
Нажмите Посмотреть код, чтобы получить код запроса для Python REST или Python gRPC.

screen

Подробную инструкцию см. на странице Распознавание речи с помощью Playground.

SpeechKit Playground предоставляет базовые возможности распознавания речи. Более гибкие настройки распознавания доступны только через API.

Узнайте, как распознать короткие и длинные предзаписанные аудиофайлы в SpeechKit. Также сервис позволяет распознать голос в режиме реального времени.

Синтез речи

Интерфейс AI Studio

API

В интерфейсе AI Studio выберите каталог, на который у вашего аккаунта есть роли ai.playground.user и ai.datasets.editor или выше.
На панели слева разверните раздел AI Speech и выберите Синтез речи.
На вкладке Синтез речи вставьте текст длиной до 5000 символов в центральную часть окна.
В блоке настроек в левой части окна:
- {{ Паузы }} — выберите длительность пауз между словами или задайте ее самостоятельно.
- Акцент на слове — расставьте акценты на нужных словах.
- Ударение — обозначьте ударные гласные, чтобы уточнить корректный вариант произношения слов.
- Фонемы — контролируйте правильность произношения слов с помощью фонем.
В блоке Настройки синтеза в правой части окна:
- Язык — выберите язык диктора.
- Голос — укажите голос диктора.
- Амплуа — выберите амплуа диктора.
- Скорость речи — задайте скорость речи диктора.
- Высота голоса — скорректируйте высоту голоса диктора.
- Формат аудио — выберите необходимый формат аудио.
Чтобы начать синтез, нажмите Синтезировать и воспроизвести.
Чтобы скачать результат, нажмите .

screen

Подробную инструкцию см. на странице Синтез речи с помощью Playground.

SpeechKit Playground предоставляет базовые возможности синтеза речи. Более гибкие настройки синтеза доступны только через API.

Узнайте, как преобразовать текст в аудио с помощью API v1 и API v3 SpeechKit. API v3 позволяет более гибко настроить синтез. Подробнее о различиях версий API в разделе Возможности синтеза.

См. также

Была ли статья полезна?

Обзор технологий SpeechKit

Как распознать короткие аудиофайлы в API v1

Начало работы со SpeechKit

Перед началом работыПеред началом работы

Распознавание речиРаспознавание речи

Синтез речиСинтез речи

См. такжеСм. также

Была ли статья полезна?

Перед началом работы

Распознавание речи

Синтез речи

См. также