Как генерировать текст в речь с эмоциями и дополнительными интонациями

32b1d1b1-a6fc-475b-80e1-eb39a2a21bb3

Уже несколько статей в Дидакторе было посвящено проблемам генерации текста в речь. С самого начала нас интересует вопрос оживления речи. Безусловно, искусственный интеллект в этом направлении ушёл далеко вперёд. Но всё-таки очень часто нам не хватает в сгенерированной речи эмоций, вопросительных и отрицательных интонаций, возрастных особенностей. Дидактор демонстрировал в своё время, к примеру, как генерировать текст в детскую речь или речь пожилого человека. Однако всегда хочется более мощной нейросети, которая облегчила нашу работу. И, на мой взгляд, такая нейросеть по генерации текста в речь, появилась.

Eleven Labs — это очень молодой сервис, созданный двумя польскими программистами П. Данковским и М. Станишевским. Они создали генератор, который может воспроизводить реалистичную речь путем синтеза вокальных эмоций и интонаций.

Новые видео публикуются в обновлённой версии Академии цифрового учителя на Дзене. Подпишитесь на мой обновлённый канал.

Разработчики представили щедрую бесплатную версию, в которой вы можете

  • генерировать речь до 10 000 символов в месяц,
  • создавать до 3 пользовательских голосов
  • создать случайные голоса с помощью голосового дизайна
  • получите доступ к большой голосовой библиотеке
  • создать реалистичную речь на 29 языках

Кроме этого сервис может помочь вам записать собственный голос и затем изменить его с генерацией текста в речь, причём придать ему определённые эмоции и интонации.

В Eleven Labs не нужно пользоваться дополнительными инструментами для расстановки ударений, пауз. Искусственный интеллект распознаёт введённые вами знаки препинания. Он сделает небольшую паузу, когда вы поставите точку. Пауза будет больше, если вы используете многоточие. Вы услышите соответствующие интонации, когда в тексте будут вопросительные и восклицательные знаки.

И, разумеется, воспользуйтесь имеющимися настройками.

настройки

Дополнительные эмоции, интонации появятся гораздо больше, когда вы внедритесь в красные зоны. Вы сразу же заметите, как речь оживляется. Появляются не только дополнительные интонации, но и эмоции, хрипотца, варьирование скорости речи и многое другое. Конечно, вы должны тщательно выбирать представленные варианты. Зайдя в «красную зону» вы рискуете встретиться и с некоторыми репликами на английском. В таком случае, в том же положении движков, нажмите ещё раз Генерировать и вы получите другой вариант. После нескольких манипуляций вот так зазвучал голос Екатерины Второй в её Манифесте о присоединении Крыма.

Сервис располагает историей, благодаря которой вы можете в любой момент вернуться к своим старым озвучкам, сравнить различные версии, выбрать наиболее удачную.

Нажмите Add voice (Добавить голос) и вы можете добавить свой голос, которого нет в библиотеке. В бесплатной версии вы можете создать своё видение голоса: выбрать пол, указать возрастные рамки.

Вот, к примеру, как может прозвучать голос деда в инсценированной сказке Репка.

Как видим, нейросеть Eleven Labs даёт нам, помимо всего прочего, свободу творчества.

Экспериментируйте!

Комментарии к “Как генерировать текст в речь с эмоциями и дополнительными интонациями

  1. Наталья говорит:

    Вопрос по изображению: Как его добавить и чтобы рот раскрывался

Добавить комментарий

Ваш e-mail не будет опубликован.