Содержание
Онлайн озвучка текста на русском – полезный сервис для экономии времени. Бесплатные синтезаторы речи имеют ограничения, однако есть выход.
В
Нужно понимать, что компьютерный синтез речи – не такая уж простая задача, если необходимо получить качественный звуковой файл. Хотя разработки искусственной речи идут давно, реалистичную озвучку на русском языке, тем более онлайн, встретить можно редко.
В
Онлайн сервисы озвучивания текстов
В сети можно найти десятки различных онлайн сервисов для озвучивания текстов. Большинство их них иностранные, но встречаются и русские. Лидерство в этой области нужно отдать двум монстрам: Яндексу и Google.В Именно они дальше всех продвинулись в области технологии TTS – text-to-speech.
В
Убедиться в этом можно, открыв онлайн переводчики этих сайтов. Озвучка введенного в окно переводчика текста В производится нажатием на значок динамика. И, кстати, делается это с очень неплохим качеством, хотя имеются и ограничения по длине введенного текста:
- для Google – 5 000 знаков;
- для Яндекса – 10В 000 знаков.
онлайн синтезаторы речи
В
Имеется также масса иностранных платных онлайн сервисов, предоставляющих услуги перевода текстовых файлов в звуковые:
- Acapela;
- IVONA;
- Naturalreaders;
- Linguatec;
- Ispeech и другие.
Большинство из них озвучивает текст на русском довольно качественно, хотя и с характерными ошибками в ударениях и ритмике речи. Бесплатная озвучка фраз ограничивается 200-500 знаками.
Чем вызвана плата за онлайн озвучку
Плата за онлайн озвучку связана с тем, что сервисы, как правило, используют чужие ресурсы для преобразования текста в звук. Как уже упоминалось, крупнейшими разработчиками в этой области являются поисковые машины. Они же предоставляют доступ к своим ресурсам, но не бесплатно.
В
Нужно понимать, что запросы на озвучку создают дополнительную нагрузку на сервера, тем более, если загружаются огромные объемы информации. Да и звуковые файлы получаются достаточно объемными.
В
Тем не менее, практически любой владелец сайта может создать на своих страницах сервис онлайн озвучки, используя, к примеру, технологию Yandex SpeechKit. Но за использование этих возможностей придется платить, в зависимости от частоты и объема запросов.
Бесплатный перевод текстов в звук
Как уже упоминалось, лучшие бесплатные синтезаторы речи – Гугл и Яндекс. В Но можно встретить и другие достойные сервисы.
В
Очень хорошо работает сервис 5bts. Хотя он ужасно перегружен рекламой и выглядит убого, онлайн озвучка работает качественно, особенно при выборе диктора по умолчанию (Ermilov).
В
как озвучить текст
В
Чем выделяется:
- качественная, эмоционально окрашенная речь;
- выбор диктора;
- возможность создания списка озвучки;
- коррекция ударений;
- коррекция пауз;
- возможность сохранения звукового файла.
Запускать синтезатор речи лучше в Хроме, иначе может не получиться скачивание файла.
В
Кстати, возможность сохранения результатов озвучивания текста имеется даже не у всех платных сервисов. В Для скачивания файла нужно нажать на значок настройки справа В от линейки.
сохранение звукового файла
В
В
Недостатки:
- кошмарный дизайн;
- избыток рекламы;
- платный заказ озвучки больших текстов.
Этот сервис использует технологию TTS Яндекса, но настройки сделаны неплохо. Пранкеры бывают довольны.
В
Из зарубежных бесплатных онлайн синтезаторов речи нужно отметить Oddcast, который предоставляет прикольный интерфейс виртуальных дикторов и позволяет менять голос и скорость озвучки. Правда, качество текста на русском оставляет желать лучшего.
В
Онлайн озвучка текста на русском
В
Онлайн озвучка записанного текста на русском с помощью синтезаторов речи продолжает развиваться, так что качество компьютерной обработки звука будет расти с каждым годом.
24 сентября 2019
После прочтения статьи вы сможете:
- разобраться, что же такое API на простых примерах (macOS);
- познакомиться с сервисом распознавания и синтеза речи от Yandex;
- сделаете своего первого голосового ассистента-дворецкого.
Подготовимся. Настройка профиля CLI
Активация аккаунта на облаке
Для использования сервиса YSK у вас должна быть почта на Yandex. Если у вас её нет, то самое время завести.
Будьте готовы к тому, что вам потребуется еще подтвердить свой номер мобильного телефона. Без этого, увы, сервисы будут недоступны.
Почта есть. Теперь самое время перейти на cloud.yandex.ru. Перейдя в консоль надо активировать пробный период пользования сервисом. Для этого надо привязать платежную карту. Как только вы это сделаете вам будет доступен грант на 60 дней.
В облака – через командную строку
Для понимания, как работает распознавание и синтез, мы потренируемся в командной строке. Например, в iTerm.
Для отправки запросов на API через командную строку установим утилиту cURL. Перед установкой проверьте, возможно, она у вас уже есть ($ curl –version):
$ brew install curl
Теперь настроим Интерфейс Яндекс.Облака для командной строки (CLI). Запустим скрипт:
$ curl https://storage.yandexcloud.net/yandexcloud-yc/install.sh | bash
Перезапустите командную оболочку. В переменную окружения PATH добавится путь к исполняемому файлу – install.sh.
Теперь нам нужно, чтобы в CLI заработало автодополнение команд в bash:
Если у вас еще нет менеджера пакетов Homebrew, установите его. Он вам не раз пригодится, обещаю.
Затем ставим пакет bash-completion:
$ brew install bash-completion
и посмотрим, что изменилось в файле ~/.bash_profile:
$ open ~/.bash_profile
Примечание: ~/.bash_profile используется для пользовательских настроек, в частности – для определения переменных окружения.
Видим, что в конце bash_profile добавились новые строчки:
. . # The next line updates PATH for Yandex Cloud CLI. ... # The next line enables shell command completion for yc. ...
Выше новых строк вставьте эту:
if [ -f $(brew --prefix)/etc/bash_completion ]; then . $(brew --prefix)/etc/bash_completion fi # Эти строчки - наш финальный этап для работы автодополнения команд в CLI. Здесь мы проверяем есть ли файл, который за это отвечает. И, если он есть (а он у нас уже есть) - он запускается.
Порядок! А теперь пристегнитесь, приступаем к инициализации и получаем наш первый “ключик”.В пункте 1 вам предложат перейти по ссылке, и в отдельном окне появится aouth_token. Сохраните его себе или не закрывайте пока эту страницу.
Набираем команду:
$ yc init
и получаем приветственное сообщение:
Welcome! This command will take you through the configuration process. Pick desired action: [1] Re-initialize this profile 'default' with new settings [2] Create a new profile Please enter your numeric choice: # профиль пока нас устраивает, поэтому выбирайте 1
Вам предложат выбрать облако (скорее всего у вас оно единственное):
You have one cloud available: 'cloud' (id = <цифры_и_буквы_вашей_папки>). It is going to be used by default. Please choose folder to use: [1] default (id = <цифры_и_буквы_вашей_папки>) [2] Create a new folder # новая папка нам пока ни к чему :)
Далее по желанию выберете Compute zone. Пока пользователь один – этим можно пренебречь.
Посмотрим, как выглядят настройки профиля CLI:
$ yc config list token: AgAAAAAAHzS2AATuwTpDlcC9LExto-7iIHEWH9o cloud-id: b1gthramkv9de6i2ll5n folder-id: b1gdt133kktmm89lr51l compute-default-zone: ru-central1-b
Мы в шаге от старта. Осталось добыть второй ключ (в настройках профиля он не будет отображаться):
$ yc iam create-token # приготовьтесь, будет много символов
Полетели!
Знакомство с API Yandex SpeechKit
Представьте простую, максимально идеальную ситуацию без подводных камней типа “а если..”. Вы организуете закрытую вечеринку и хотите общаться с гостями, ни на что не отвлекаясь. Тем более на тех, кого вы не ждали.
Давайте попробуем создать виртуального дворецкого, который будет встречать гостей и открывать дверь только приглашенным.
Синтез текста через cURL
С помощью встроенной в bash команды export запишем данные в переменные:
$ export FOLDER_ID=b1gvmob95yysaplct532 $ export IAM_TOKEN=CggaATEVAgA…
Теперь их можно передать в POST-запрос с помощью cURL:
$ curl -X POST -H "Authorization: Bearer ${IAM_TOKEN}" -o speech.raw --data-urlencode "text=Привет, чувак! Назови-ка мне свои имя и фамилию?" -d "lang=ru-RU&folderId=${FOLDER_ID}&format=lpcm&sampleRateHertz=48000 &emotion=good&voice=ermil" https://tts.api.cloud.yandex.net/speech/v1/tts:synthesizec # в командной оболочке делайте все в одну строку, без “”
Рассмотрим параметры запроса:
speech.raw – файл формата LPSM (несжатый звук). Это и есть озвученный текст в бинарном виде, который будет сохранен в текущую папку.
lang=ru-RU – язык текста.
emotion=good – эмоциональный окрас голоса. Пусть будет дружелюбным.
voice=ermil – текст будет озвучен мужским голосом Ermil. По умолчанию говорит Оксана.
https://tts.api.cloud.yandex.net/speech/v1/tts:synthesize – url, на который отправляется post-запрос на синтез речи дворецкого.
Бинарный файл послушать не получится, тогда установим утилиту SoX и сделаем конвертацию в wav:
$ brew install sox $ sox -r 48000 -b 16 -e signed-integer -c 1 speech.raw speech.wav
speech.wav – приветствие готово и сохранено в текущую папку.
Для проигрывания wav внутри кода Python, можно взять, например, библиотеку simpleaudio. Она простая и не создает других потоков:
import simpleaudio as sa def wave_play(trek): wave_obj = sa.WaveObject.from_wave_file(trek) play_obj = wave_obj.play() play_obj.wait_done() wave_play(speech.wav)
Итак, наш первый гость стоит перед входом на долгожданную party. Пытается открыть дверь, и вдруг слышит голос откуда-то сверху:
“Привет, чувак! Назови-ка мне свои имя и фамилию?” (или ваш вариант)
Отлично! Вы научили дворецкого приветствовать гостей, используя командную строку и cURL. А пока гость вспоминает ответ, научимся работать с API на языке Python.
Распознавание текста с помощью requests
Мы могли бы снова воспользоваться cURL для отправки ответа гостя на распознавание. Но мы пойдем дальше и напишем небольшую программу, основанную на подобных запросах.
Создайте готовый аудио-файл с ответом гостя. Сделать это можно через встроенный микрофон на вашем ноутбуке разными инструментами. Для macos подойдет Quick Time Player. Сконвертируйте аудио в формат ogg: name_guest.ogg. Можно онлайн, например, тут
Итак, пишем код на Python:
Для отправки запросов в Python воспользуемся стандартной библиотекой requests:
$ pip install requests
Импортируем в код:
import json import requests
Зададим параметры, которые мы получили в командной строке:
URL = https://stt.api.cloud.yandex.net/speech/v1/stt:recognize IAM_TOKEN = "CggaATEVAgA..." ID_FOLDER = "b1gdt133kktmm89lr51l"
Аудио необходимо передавать в запрос в бинарном виде:
with open("name_guest.ogg", "rb") as f: name_guest = f.read()
Давайте обернем весь процесс распознавания в функцию recognize:
def recognize(name_guest, IAM_TOKEN, ID_FOLDER): """ Функция распознавания русской речи :param IAM_TOKEN: (str) :param outh_guest: ответ гостя (bytes) :param ID_FOLDER: (str) :return text: (str) """ # в поле заголовка передаем IAM_TOKEN: headers = {'Authorization': f'Bearer {IAM_TOKEN}'} # остальные параметры: params = { 'lang': 'ru-RU', 'folderId': ID_FOLDER, 'sampleRateHertz': 48000, } response = requests.post(URL_REC, params=params, headers=headers, data=data_sound) # бинарные ответ доступен через response.content, декодируем его: decode_resp = response.content.decode('UTF-8') # и загрузим в json, чтобы получить текст из аудио: text = json.loads(decode_resp) return text
Итак, чтобы дворецкий смог проверить гостя по списку, вызовем функцию и распознаем ответ:
name = recognize(name_guest, IAM_TOKEN, ID_FOLDER) print(f"Гость утвержадет, что его зовут: {name}")
Теперь очередь за дворецким. В нашем случае, он вежлив ко всем. И прежде чем открыть или не открыть гостю дверь, он обратится лично. Например, так:
“Мы вам очень рады, <имя_и фамилия_гостя>, но вас нет в списке, сорян”
Для последующего синтеза вы можете снова воспользоваться CURL или так же написать функцию на Python. Принцип работы с API для синтеза и распознавания речи примерно одинаков.
Если вам позвонили из Yandex. Эти загадочные токены
Возможно, распознавать и синтезировать речь вам так понравится, что однажды вам позвонит милая девушка из Yandex и поинтересуется, все ли вам понятно в работе сервиса.
Продолжайте изучать документацию, и тогда вы узнаете, например, что iam_token живет не более 12 часов.
Чтобы быть вежливым, как наш дворецкий, и не перегружать сервера на Yandex, мы не будем генерировать iam_token чаще (при желании теперь стало можно генерить токен при каждом запросе). Заведите себе блокнотик и карандашик для записи даты генерации. Шутка.
Ведь у нас есть Python. Создадим функцию генерации. Снова используем requests:
import json import requests oauth_token = "AgAAAAAAHzS2AATuwTpDlcC9LExto-7iIHEWH9o" def create_token(oauth_token): params = {'yandexPassportOauthToken': oauth_token} response = requests.post('https://iam.api.cloud.yandex.net/iam/v1/tokens', params=params) decode_response = response.content.decode('UTF-8') text = json.loads(decode_response) iam_token = text.get('iamToken') expires_iam_token = text.get('expiresAt') return iam_token, xpires_iam_token
Вызовем функцию и положим результат в переменную:
result = create_token(oauth_token) print("Токен успешно сгенерирован и действует до {}".format(result[1]))
Карандишик и блокнотик не пострадали, а у вас появилась полезная переменная xpires_iam_token.
Специально для вас по мотивам этого материала я написала маленький кусочек проекта виртуального дворецкого Butler. Звуковые эффекты входят в комплект 🙂
Автор: Екатерина Акилина
Выпускникница курсов Learn Python
Наш онлайн синтезатор речи (или говорилка по-простому) повышает удобство для Ваших пользователей без дополнительных затрат. Посмотрите на примеры как Вы можете использовать сервис для озвучивания ютуб-канала с топ-3 или топ-10 фактов, озвучивания бизнес-презентации, составления голосового меню или чтобы создать голосовое сообщение.
О сайте VoxWorker.com
Что такое VoxWorker
VoxWorker – это онлайн сервис для озвучки текста, который может переводить текст в аудиозапись.
Многоязычность
Наши роботы могут озвучить текст на английском или на русском языках.
Разнообразие голосов
Для синтеза речи можно выбрать мужской или женский голоса с разным тембром или акцентом.
Форматы файлов
Результат озвучки можно сохранить в файл формата mp3, самом популярном формате для аудио записей.
Простота использования
Для перевода текста в речь, нужно написать необходимый фрагмент текста и нажать кнопку, дальше сервис все сделает сам.
Варианты использования
Можно использовать для озвучивания видео роликов, программ или просто как онлайн говорилку. Содержание
Распознавание речи онлайн
Чтобы преобразовать речь в текст, можно воспользоваться соответствующим онлайн-сервисом в браузере. Сайты по распознаванию речи, как правило, не требуют регистрации и оплаты, они очень удобны в использовании. В первую очередь, потребуется установить браузер Google Chrome. Это связано с тем, что все сервисы работают на одном и том же движке распознавания речи от Гугл. Качество распознавания зависит от микрофона, а также ритма и четкости речи.
Читайте также: Включение микрофона на Windows 8
Способ 1: Speechnotes
Спичноутс — самый популярный сервис по распознаванию речи онлайн, предоставляющий большой выбор языков, расширенные возможности постановки знаков препинания и отправки надиктованного текста в сторонние приложения.
Онлайн-сервис Speechnotes
Перейдите по ссылке, в открывшемся окне появится интерфейс сервиса Спичноутс.
Порядок действий:
-
- Нажмите на иконку микрофона справа.
- Выберите «Разрешить» во всплывающем окне браузера. Слева над иконкой микрофона появится мигающий красный кружок — это означает, что запись включена.
-
- Выберите русский язык из выпадающего меню.
-
- Начните диктовать.
- Чтобы остановить запись, снова нажмите на иконку микрофона.
- Скопируйте текст в буфер обмена (А) или отправьте в сторонние сервисы, используя панель инструментов слева (B).
Для расстановки знаков препинания есть три способа:
-
- Диктовка: справа есть перечень знаков с соответствующим произношением;
-
- Набор на клавиатуре — самый быстрый способ, так как добавляет знак еще до того, как заканчивается речь. Здесь главное дождаться, пока надиктованная речь появится в буфере (см. скриншот) и только после этого нажимать кнопку, иначе знак препинания появится перед надиктованной речью, а не после;
- Кнопка на сайте — достаточно нажать соответствующий знак препинания в панели справа (см. пункт 1).
Результаты распознавания во многом будут зависеть от качества микрофона и диктовки. Для наилучшего результата говорить нужно медленно и четко. Это относится ко всем сервисам по распознаванию речи.
Способ 2: Speechlogger
Спичлоггер — многофункциональный сервис по распознаванию речи, с помощью которого можно не только диктовать тексты, но и переводить их на другие языки в режиме реального времени с Google Translate, а также транскрибировать аудиофайлы.
Онлайн-сервис Speechlogger
Чтобы начать запись на сайте Speechlogger, выполните следующие действия:
-
- Зайдите на сайт, прокрутите немного вниз до блока с голубым фоном и нажмите на иконку микрофона.
- Выберите «Разрешить».
- Найдите в списке русский язык, если это необходимо.
- Нажмите на кнопку справа вверху, чтобы блок распознавания речи занимал весь экран (это не обязательно, но так удобнее работать).
-
- Начинайте диктовать.
- Текст, в котором может быть ошибка, выделяется красным цветом. Это позволяет быстрее находить неточности и исправлять их.
-
- После того, как работа закончена, снова нажмите на иконку микрофона.
- Выделите весь текст с помощью кнопки All (A) и скопируйте, нажав правой кнопкой мыши и выбрав «Копировать» (сочетание клавиш Ctrl+C не работает), либо воспользуйтесь панелью инструментов (B), чтобы отправить текст по электронной почте, сохранить в формате .txt, .doc, загрузить на Google Drive или распечатать.
Способы постановки знаков препинания:
-
- Диктовка: чтобы узнать, как произносить тот или иной знак препинания, наведите на него курсор — во всплывающем окне появится подсказка.
- Просто нажмите на знак препинания в панели, расположенной над областью для текста.
-
- Автопунктуация: на сайте можно задать настройки для автоматической постановки знаков препинания. Не очень удобный вариант, так как при каждой паузе система ставит точку, при этом русский язык слишком гибкий и многообразный — задать четкие условия для постановки определенных знаков препинания невозможно. Поэтому рекомендуется отключить эту функцию, убрав соответствующую галочку.
Дополнительные настройки расположены в верхнем левом углу.
С их помощью можно включить или отключить следующие функции:
-
- Автосохранение текста: если функция включена, доступ ко всем сессиям можно получить, нажав на иконку папки в панели инструментов;
- Выделение слов красным шрифтом;
- Отметки времени в тексте (включены по умолчанию).
Кроме того, можно задать настройки для автопунктуации и изменить цвет фона.
Способ 3: Online Dictation
Online Dictation — удобный сервис с лаконичным интерфейсом. Основное преимущество — простота в использовании.
Онлайн-сервис Dictation
-
- Сервис автоматически определяет язык по умолчанию, настроенный в браузере. Если язык не установлен либо используется гостевая учетная запись Chrome, необходимо установить русский: выпадающий список языков расположен внизу под областью для текста.
-
- Нажмите кнопку «Start Dictation».
-
- Разрешите использование микрофона на сайте.
-
- Начинайте диктовать. Для постановки знаков препинания используйте голосовые команды: «точка», «запятая», «вопросительный знак», «восклицательный знак», остальные знаки ставятся при помощи клавиатуры. Для начала нового абзаца действует голосовая команда «новый параграф», для перехода на новую строку — «новая строка».
- Закончив диктовать, нажмите «Stop Listening».
- После того как текст готов, его можно:
- Скопировать, нажав кнопку «Copy» (1);
- Сохранить в формате .txt, нажав кнопку «Save» (2);
- Стереть, нажав кнопку «Clear» (3).
Способ 4: SpeechTexter
Сервис по распознаванию речи СпичТекстер отличается красивым компактным дизайном и позволяет редактировать текст прямо на сайте. Форматирование сохраняется при переносе текста в сторонний редактор.
Онлайн-сервис SpeechTexter
-
- Зайдите на сайт, выберите русский язык (1) и нажмите «Start Dictating» (2).
-
- Нажмите «Разрешить» во всплывающем окне.
-
- Начинайте диктовать. Для пунктуации используйте голосовые команды, указанные справа от блока с текстом. Функцию голосовой пунктуации можно отключить, нажав на «Voice Punctuation is ON», и затем расставлять знаки препинания вручную.
-
- Для прекращения записи нажмите «Stop».
-
- После того, как текст записан, его можно отформатировать, используя инструменты на панели, расположенной над текстом.
-
- Готовый текст можно скопировать (1), сохранить в формате .txt (2) или распечатать (3).
Инструмент распознавания голоса можно установить на собственный сайт. При этом посетители вашего ресурса смогут не только пользоваться голосовым поиском, но и заполнять формы без участия клавиатуры.
Код для вставки на сайт.
Совет: можно изменить свойство recognition.lang и подставить ‘ru-RU’ вместо ‘en-US’, тогда по умолчанию устанавливается русский язык.
У каждого из сервисов есть свои преимущества и недостатки. Рекомендуется попробовать поработать на каждом из них и выбрать наиболее подходящий, исходя из своих целей и предпочтений.
Очистить Читать
инструкции:
Это страница, которая читает текст вслух. Он делает это бесплатно, используя программу синтезатора речи, которая говорит, произнося слова и фразы любого введенного текста. Эта страница может использоваться как диктатор, симулятор оратора или просто как виртуальный рассказчик или текстовый проигрыватель.
Введите полный текст, предназначенный для чтения, в основной текстовой области. Вы также можете ввести адрес веб-страницы, текст которой вы хотите прочитать. Затем нажмите кнопку Читать, чтобы начать чтение; кнопка Пауза прекращает чтение, чтобы продолжить, когда снова нажимается кнопка Читать. Отмена прекращает чтение, оставляя приложение готовым к повторному запуску. Кнопка Очистить удаляет введенный текст, оставляя область, готовую для новой записи. Выпадающее меню позволяет выбрать язык голоса для чтения текста и, в некоторых случаях, страну его происхождения. Эти голоса являются естественными, некоторые мужские и некоторые женские.
Этот преобразователь текста в речь прекрасно работает во всех браузерах.
языки