Начало работы со SpeechKit

Вы можете протестировать распознавание и синтез речи в сервисе SpeechKit на странице демо. О стоимости использования сервиса читайте в разделе Правила тарификации для SpeechKit.

Перед началом работы

  1. Перейдите в консоль управления, затем войдите в Yandex Cloud или зарегистрируйтесь, если вы еще не зарегистрированы. О том, как начать работать с Yandex Cloud, см. в документе Начало работы с Yandex Cloud.
  2. Примите пользовательское соглашение.
  3. В сервисе Yandex Cloud Billing убедитесь, что у вас подключен платежный аккаунт и он находится в статусе ACTIVE или TRIAL_ACTIVE. Если платежного аккаунта нет, создайте его.

Распознавание речи

  1. В интерфейсе AI Studio выберите каталог, на который у вашего аккаунта есть роли ai.playground.user и ai.datasets.editor или выше.

  2. На панели слева разверните раздел shapes-4 AI Speech и выберите Распознавание речи.

  3. На вкладке Распознавание речи в блоке Параметры распознавания:

    • Язык — выберите нужный язык или оставьте значение Автоматически.
    • Нормализация текста — представляет даты и время в цифровом формате, преобразовывает числа из словарного в цифровой формат и открывает доступ к дополнительным настройкам.
    • Фильтрация обсценной лексики — маскирует обсценную лексику.
    • Литературный текст — добавляет заглавные буквы и знаки пунктуации.
    • Определение дикторов — размечает, какому из дикторов принадлежит каждая распознанная фраза.
    • Группировка фраз дикторов — разделяет фразы на две группы по дикторам.
  4. Нажмите Выбрать файл или перетащите аудиофайл в зону загрузки.

  5. Классификаторы — находит в тексте фразы заданной категории, например, приветствие, негатив или мат. Работает только для русского языка.

  6. Обработка результатов — обработка результатов с помощью LLM:

    • Модель — выберите модель для обработки. Стоимость обработки зависит от выбранной модели.
    • Инструкция:
      • Напишите промпт в поле ввода или выберите готовый.
      • Формат результата — укажите предпочитаемый формат для результатов распознавания.
      • Plus Добавить инструкцию — добавьте еще одну инструкцию. Всего можно добавить до пяти инструкций.
  7. Нажмите image Распознать, чтобы распознать речь в аудиофайле.

  8. Нажмите image Посмотреть код, чтобы получить код запроса для Python REST или Python gRPC.

screen

Подробную инструкцию см. на странице Распознавание речи с помощью Playground.

SpeechKit Playground предоставляет базовые возможности распознавания речи. Более гибкие настройки распознавания доступны только через API.

Узнайте, как распознать короткие и длинные предзаписанные аудиофайлы в SpeechKit. Также сервис позволяет распознать голос в режиме реального времени.

Синтез речи

  1. В интерфейсе AI Studio выберите каталог, на который у вашего аккаунта есть роли ai.playground.user и ai.datasets.editor или выше.

  2. На панели слева разверните раздел shapes-4 AI Speech и выберите image Синтез речи.

  3. На вкладке Синтез речи вставьте текст длиной до 5000 символов в центральную часть окна.

  4. В блоке настроек в левой части окна:

    • Паузы — выберите длительность пауз между словами или задайте ее самостоятельно.
    • Акцент на слове — расставьте акценты на нужных словах.
    • Ударение — обозначьте ударные гласные, чтобы уточнить корректный вариант произношения слов.
    • Фонемы — контролируйте правильность произношения слов с помощью фонем.
  5. В блоке Настройки синтеза в правой части окна:

    • Язык — выберите язык диктора.
    • Голос — укажите голос диктора.
    • Амплуа — выберите амплуа диктора.
    • Скорость речи — задайте скорость речи диктора.
    • Высота голоса — скорректируйте высоту голоса диктора.
    • Формат аудио — выберите необходимый формат аудио.
  6. Чтобы начать синтез, нажмите TriangleRight Синтезировать и воспроизвести.

  7. Чтобы скачать результат, нажмите image.

screen

Подробную инструкцию см. на странице Синтез речи с помощью Playground.

SpeechKit Playground предоставляет базовые возможности синтеза речи. Более гибкие настройки синтеза доступны только через API.

Узнайте, как преобразовать текст в аудио с помощью API v1 и API v3 SpeechKit. API v3 позволяет более гибко настроить синтез. Подробнее о различиях версий API в разделе Возможности синтеза.

См. также