Преобразование текста в речь онлайн, распознавание речи в расширении Intelligent Speaker Блог Ивана Кунпана

Содержание

Онлайн сервисы озвучивания текстов
Чем вызвана плата за онлайн озвучку
Бесплатный перевод текстов в звук
Подготовимся. Настройка профиля CLI
Знакомство с API Yandex SpeechKit
Если вам позвонили из Yandex. Эти загадочные токены
О сайте VoxWorker.com
Распознавание речи онлайн

Онлайн озвучка текста на русском вЂ“ полезный сервис для экономии времени. Бесплатные синтезаторы речи имеют ограничения, однако есть выход.

Нужно понимать, что компьютерный синтез речи вЂ“ не такая уж простая задача, если необходимо получить качественный звуковой файл. Хотя разработки искусственной речи идут давно, реалистичную озвучку на русском языке, тем более онлайн, встретить можно редко.

Онлайн сервисы озвучивания текстов

В сети можно найти десятки различных онлайн сервисов для озвучивания текстов. Большинство их них иностранные, но встречаются и русские. Лидерство в этой области нужно отдать двум монстрам: Яндексу и Google.В Именно они дальше всех продвинулись в области технологии TTS вЂ“ text-to-speech.

Убедиться в этом можно, открыв онлайн переводчики этих сайтов. Озвучка введенного в окно переводчика текста В производится нажатием на значок динамика. И, кстати, делается это с очень неплохим качеством, хотя имеются и ограничения по длине введенного текста:

для Google вЂ“ 5 000 знаков;
для Яндекса вЂ“ 10В 000 знаков.

онлайн синтезаторы речи

Имеется также масса иностранных платных онлайн сервисов, предоставляющих услуги перевода текстовых файлов в звуковые:

Новые возможности Алисы от «Яндекса»: распознавание предметов, QR-кода и текста на фотографии

Acapela;
IVONA;
Naturalreaders;
Linguatec;
Ispeech и другие.

Большинство из них озвучивает текст на русском довольно качественно, хотя и с характерными ошибками в ударениях и ритмике речи. Бесплатная озвучка фраз ограничивается 200-500 знаками.

Чем вызвана плата за онлайн озвучку

Плата за онлайн озвучку связана с тем, что сервисы, как правило, используют чужие ресурсы для преобразования текста в звук. Как уже упоминалось, крупнейшими разработчиками в этой области являются поисковые машины. Они же предоставляют доступ к своим ресурсам, но не бесплатно.

Нужно понимать, что запросы на озвучку создают дополнительную нагрузку на сервера, тем более, если загружаются огромные объемы информации. Да и звуковые файлы получаются достаточно объемными.

Тем не менее, практически любой владелец сайта может создать на своих страницах сервис онлайн озвучки, используя, к примеру, технологию Yandex SpeechKit. Но за использование этих возможностей придется платить, в зависимости от частоты и объема запросов.

Бесплатный перевод текстов в звук

Как уже упоминалось, лучшие бесплатные синтезаторы речи вЂ“ Гугл и Яндекс. В Но можно встретить и другие достойные сервисы.

Очень хорошо работает сервис 5bts. Хотя он ужасно перегружен рекламой и выглядит убого, онлайн озвучка работает качественно, особенно при выборе диктора по умолчанию (Ermilov).

Привет Алиса Как Дела

как озвучить текст

Чем выделяется:

качественная, эмоционально окрашенная речь;
выбор диктора;
возможность создания списка озвучки;
коррекция ударений;
коррекция пауз;
возможность сохранения звукового файла.

Запускать синтезатор речи лучше в Хроме, иначе может не получиться скачивание файла.

Кстати, возможность сохранения результатов озвучивания текста имеется даже не у всех платных сервисов. В Для скачивания файла нужно нажать на значок настройки справа В от линейки.

сохранение звукового файла

Яндекс Алиса онлайн без скачивания

Недостатки:

кошмарный дизайн;
избыток рекламы;
платный заказ озвучки больших текстов.

Этот сервис использует технологию TTS Яндекса, но настройки сделаны неплохо. Пранкеры бывают довольны.

Из зарубежных бесплатных онлайн синтезаторов речи нужно отметить Oddcast, который предоставляет прикольный интерфейс виртуальных дикторов и позволяет менять голос и скорость озвучки. Правда, качество текста на русском оставляет желать лучшего.

Онлайн озвучка текста на русском

Онлайн озвучка записанного текста на русском с помощью синтезаторов речи продолжает развиваться, так что качество компьютерной обработки звука будет расти с каждым годом.

24 сентября 2019

После прочтения статьи вы сможете:

разобраться, что же такое API на простых примерах (macOS);
познакомиться с сервисом распознавания и синтеза речи от Yandex;
сделаете своего первого голосового ассистента-дворецкого.

Подготовимся. Настройка профиля CLI

Активация аккаунта на облаке

Для использования сервиса YSK у вас должна быть почта на Yandex. Если у вас её нет, то самое время завести.

Будьте готовы к тому, что вам потребуется еще подтвердить свой номер мобильного телефона. Без этого, увы, сервисы будут недоступны.

Почта есть. Теперь самое время перейти на cloud.yandex.ru. Перейдя в консоль надо активировать пробный период пользования сервисом. Для этого надо привязать платежную карту. Как только вы это сделаете вам будет доступен грант на 60 дней.

В облака – через командную строку

Для понимания, как работает распознавание и синтез, мы потренируемся в командной строке. Например, в iTerm.

Для отправки запросов на API через командную строку установим утилиту cURL. Перед установкой проверьте, возможно, она у вас уже есть ($ curl –version):

$ brew install curl

Теперь настроим Интерфейс Яндекс.Облака для командной строки (CLI). Запустим скрипт:

$ curl https://storage.yandexcloud.net/yandexcloud-yc/install.sh | bash

Перезапустите командную оболочку. В переменную окружения PATH добавится путь к исполняемому файлу – install.sh.

Теперь нам нужно, чтобы в CLI заработало автодополнение команд в bash:

Если у вас еще нет менеджера пакетов Homebrew, установите его. Он вам не раз пригодится, обещаю.

Затем ставим пакет bash-completion:

$ brew install bash-completion

и посмотрим, что изменилось в файле ~/.bash_profile:

$ open ~/.bash_profile

Примечание: ~/.bash_profile используется для пользовательских настроек, в частности – для определения переменных окружения.

Видим, что в конце bash_profile добавились новые строчки:

.  .  # The next line updates PATH for Yandex Cloud CLI.  ...    # The next line enables shell command completion for yc.  ...

Выше новых строк вставьте эту:

if [ -f $(brew --prefix)/etc/bash_completion ]; then  . $(brew --prefix)/etc/bash_completion  fi    # Эти строчки - наш финальный этап для работы автодополнения команд в CLI. Здесь мы проверяем есть ли файл, который за это отвечает. И, если он есть (а он у нас уже есть) - он запускается.

Порядок! А теперь пристегнитесь, приступаем к инициализации и получаем наш первый “ключик”.В пункте 1 вам предложат перейти по ссылке, и в отдельном окне появится aouth_token. Сохраните его себе или не закрывайте пока эту страницу.

Набираем команду:

$ yc init

и получаем приветственное сообщение:

Welcome! This command will take you through the configuration process.  Pick desired action:  [1] Re-initialize this profile 'default' with new settings  [2] Create a new profile  Please enter your numeric choice:    # профиль пока нас устраивает, поэтому выбирайте 1

Вам предложат выбрать облако (скорее всего у вас оно единственное):

You have one cloud available: 'cloud' (id = <цифры_и_буквы_вашей_папки>).   It is going to be used by default.  Please choose folder to use:  [1] default (id = <цифры_и_буквы_вашей_папки>)  [2] Create a new folder    # новая папка нам пока ни к чему :)

Далее по желанию выберете Compute zone. Пока пользователь один – этим можно пренебречь.

Посмотрим, как выглядят настройки профиля CLI:

$ yc config list    token: AgAAAAAAHzS2AATuwTpDlcC9LExto-7iIHEWH9o  cloud-id: b1gthramkv9de6i2ll5n  folder-id: b1gdt133kktmm89lr51l  compute-default-zone: ru-central1-b

Мы в шаге от старта. Осталось добыть второй ключ (в настройках профиля он не будет отображаться):

$ yc iam create-token    # приготовьтесь, будет много символов

Полетели!

Знакомство с API Yandex SpeechKit

Представьте простую, максимально идеальную ситуацию без подводных камней типа “а если..”. Вы организуете закрытую вечеринку и хотите общаться с гостями, ни на что не отвлекаясь. Тем более на тех, кого вы не ждали.

Давайте попробуем создать виртуального дворецкого, который будет встречать гостей и открывать дверь только приглашенным.

Синтез текста через cURL

С помощью встроенной в bash команды export запишем данные в переменные:

$ export FOLDER_ID=b1gvmob95yysaplct532  $ export IAM_TOKEN=CggaATEVAgA…

Теперь их можно передать в POST-запрос с помощью cURL:

$ curl -X POST       -H "Authorization: Bearer ${IAM_TOKEN}"       -o speech.raw       --data-urlencode "text=Привет, чувак! Назови-ка мне свои имя и фамилию?"       -d "lang=ru-RU&folderId=${FOLDER_ID}&format=lpcm&sampleRateHertz=48000  &emotion=good&voice=ermil"       https://tts.api.cloud.yandex.net/speech/v1/tts:synthesizec    # в командной оболочке делайте все в одну строку, без “”

Рассмотрим параметры запроса:

speech.raw – файл формата LPSM (несжатый звук). Это и есть озвученный текст в бинарном виде, который будет сохранен в текущую папку.

lang=ru-RU – язык текста.

emotion=good – эмоциональный окрас голоса. Пусть будет дружелюбным.

voice=ermil – текст будет озвучен мужским голосом Ermil. По умолчанию говорит Оксана.

https://tts.api.cloud.yandex.net/speech/v1/tts:synthesize – url, на который отправляется post-запрос на синтез речи дворецкого.

Бинарный файл послушать не получится, тогда установим утилиту SoX и сделаем конвертацию в wav:

$ brew install sox  $ sox -r 48000 -b 16 -e signed-integer -c 1 speech.raw speech.wav

speech.wav – приветствие готово и сохранено в текущую папку.

Для проигрывания wav внутри кода Python, можно взять, например, библиотеку simpleaudio. Она простая и не создает других потоков:

import simpleaudio as sa    def wave_play(trek):      wave_obj = sa.WaveObject.from_wave_file(trek)      play_obj = wave_obj.play()      play_obj.wait_done()    wave_play(speech.wav)

Итак, наш первый гость стоит перед входом на долгожданную party. Пытается открыть дверь, и вдруг слышит голос откуда-то сверху:

“Привет, чувак! Назови-ка мне свои имя и фамилию?” (или ваш вариант)

Отлично! Вы научили дворецкого приветствовать гостей, используя командную строку и cURL. А пока гость вспоминает ответ, научимся работать с API на языке Python.

Распознавание текста с помощью requests

Мы могли бы снова воспользоваться cURL для отправки ответа гостя на распознавание. Но мы пойдем дальше и напишем небольшую программу, основанную на подобных запросах.

Создайте готовый аудио-файл с ответом гостя. Сделать это можно через встроенный микрофон на вашем ноутбуке разными инструментами. Для macos подойдет Quick Time Player. Сконвертируйте аудио в формат ogg: name_guest.ogg. Можно онлайн, например, тут

Итак, пишем код на Python:

Для отправки запросов в Python воспользуемся стандартной библиотекой requests:

$ pip install requests

Импортируем в код:

import json   import requests

Зададим параметры, которые мы получили в командной строке:

URL = https://stt.api.cloud.yandex.net/speech/v1/stt:recognize   IAM_TOKEN = "CggaATEVAgA..."  ID_FOLDER = "b1gdt133kktmm89lr51l"

Аудио необходимо передавать в запрос в бинарном виде:

with open("name_guest.ogg", "rb") as f:       name_guest = f.read()

Давайте обернем весь процесс распознавания в функцию recognize:

def recognize(name_guest, IAM_TOKEN, ID_FOLDER):      """ Функция распознавания русской речи        :param IAM_TOKEN: (str)      :param outh_guest: ответ гостя (bytes)      :param ID_FOLDER: (str)      :return text: (str)            """      # в поле заголовка передаем IAM_TOKEN:      headers = {'Authorization': f'Bearer {IAM_TOKEN}'}            # остальные параметры:      params = {          'lang': 'ru-RU',          'folderId': ID_FOLDER,          'sampleRateHertz': 48000,      }        response = requests.post(URL_REC, params=params, headers=headers, data=data_sound)            # бинарные ответ доступен через response.content, декодируем его:      decode_resp = response.content.decode('UTF-8')            # и загрузим в json, чтобы получить текст из аудио:              text = json.loads(decode_resp)            return text

Итак, чтобы дворецкий смог проверить гостя по списку, вызовем функцию и распознаем ответ:

name = recognize(name_guest, IAM_TOKEN, ID_FOLDER)    print(f"Гость утвержадет, что его зовут: {name}")

Теперь очередь за дворецким. В нашем случае, он вежлив ко всем. И прежде чем открыть или не открыть гостю дверь, он обратится лично. Например, так:

“Мы вам очень рады, <имя_и фамилия_гостя>, но вас нет в списке, сорян”

Для последующего синтеза вы можете снова воспользоваться CURL или так же написать функцию на Python. Принцип работы с API для синтеза и распознавания речи примерно одинаков.

Если вам позвонили из Yandex. Эти загадочные токены

Возможно, распознавать и синтезировать речь вам так понравится, что однажды вам позвонит милая девушка из Yandex и поинтересуется, все ли вам понятно в работе сервиса.

Продолжайте изучать документацию, и тогда вы узнаете, например, что iam_token живет не более 12 часов.

Чтобы быть вежливым, как наш дворецкий, и не перегружать сервера на Yandex, мы не будем генерировать iam_token чаще (при желании теперь стало можно генерить токен при каждом запросе). Заведите себе блокнотик и карандашик для записи даты генерации. Шутка.

Ведь у нас есть Python. Создадим функцию генерации. Снова используем requests:

import json  import requests    oauth_token = "AgAAAAAAHzS2AATuwTpDlcC9LExto-7iIHEWH9o"    def create_token(oauth_token):      params = {'yandexPassportOauthToken': oauth_token}      response = requests.post('https://iam.api.cloud.yandex.net/iam/v1/tokens', params=params)                                                         decode_response = response.content.decode('UTF-8')      text = json.loads(decode_response)       iam_token = text.get('iamToken')      expires_iam_token = text.get('expiresAt')            return iam_token, xpires_iam_token

Вызовем функцию и положим результат в переменную:

result = create_token(oauth_token)  print("Токен успешно сгенерирован и действует до {}".format(result[1]))

Карандишик и блокнотик не пострадали, а у вас появилась полезная переменная xpires_iam_token.

Специально для вас по мотивам этого материала я написала маленький кусочек проекта виртуального дворецкого Butler. Звуковые эффекты входят в комплект 🙂

Автор: Екатерина Акилина

Выпускникница курсов Learn Python

Наш онлайн синтезатор речи (или говорилка по-простому) повышает удобство для Ваших пользователей без дополнительных затрат. Посмотрите на примеры как Вы можете использовать сервис для озвучивания ютуб-канала с топ-3 или топ-10 фактов, озвучивания бизнес-презентации, составления голосового меню или чтобы создать голосовое сообщение.

О сайте VoxWorker.com

Что такое VoxWorker

VoxWorker – это онлайн сервис для озвучки текста, который может переводить текст в аудиозапись.

Многоязычность

Наши роботы могут озвучить текст на английском или на русском языках.

Разнообразие голосов

Для синтеза речи можно выбрать мужской или женский голоса с разным тембром или акцентом.

Форматы файлов

Результат озвучки можно сохранить в файл формата mp3, самом популярном формате для аудио записей.

Простота использования

Для перевода текста в речь, нужно написать необходимый фрагмент текста и нажать кнопку, дальше сервис все сделает сам.

Варианты использования

Можно использовать для озвучивания видео роликов, программ или просто как онлайн говорилку. Содержание

Распознавание речи онлайн

Чтобы преобразовать речь в текст, можно воспользоваться соответствующим онлайн-сервисом в браузере. Сайты по распознаванию речи, как правило, не требуют регистрации и оплаты, они очень удобны в использовании. В первую очередь, потребуется установить браузер Google Chrome. Это связано с тем, что все сервисы работают на одном и том же движке распознавания речи от Гугл. Качество распознавания зависит от микрофона, а также ритма и четкости речи.

Читайте также: Включение микрофона на Windows 8

Способ 1: Speechnotes

Спичноутс — самый популярный сервис по распознаванию речи онлайн, предоставляющий большой выбор языков, расширенные возможности постановки знаков препинания и отправки надиктованного текста в сторонние приложения.

Онлайн-сервис Speechnotes

Перейдите по ссылке, в открывшемся окне появится интерфейс сервиса Спичноутс.

Порядок действий:

1. Нажмите на иконку микрофона справа.
2. Выберите «Разрешить» во всплывающем окне браузера. Слева над иконкой микрофона появится мигающий красный кружок — это означает, что запись включена.

1. Выберите русский язык из выпадающего меню.

1. Начните диктовать.
2. Чтобы остановить запись, снова нажмите на иконку микрофона.
3. Скопируйте текст в буфер обмена (А) или отправьте в сторонние сервисы, используя панель инструментов слева (B).

Для расстановки знаков препинания есть три способа:

1. Диктовка: справа есть перечень знаков с соответствующим произношением;

1. Набор на клавиатуре — самый быстрый способ, так как добавляет знак еще до того, как заканчивается речь. Здесь главное дождаться, пока надиктованная речь появится в буфере (см. скриншот) и только после этого нажимать кнопку, иначе знак препинания появится перед надиктованной речью, а не после;

Кнопка на сайте — достаточно нажать соответствующий знак препинания в панели справа (см. пункт 1).

Результаты распознавания во многом будут зависеть от качества микрофона и диктовки. Для наилучшего результата говорить нужно медленно и четко. Это относится ко всем сервисам по распознаванию речи.

Способ 2: Speechlogger

Спичлоггер — многофункциональный сервис по распознаванию речи, с помощью которого можно не только диктовать тексты, но и переводить их на другие языки в режиме реального времени с Google Translate, а также транскрибировать аудиофайлы.

Онлайн-сервис Speechlogger

Чтобы начать запись на сайте Speechlogger, выполните следующие действия:

1. Зайдите на сайт, прокрутите немного вниз до блока с голубым фоном и нажмите на иконку микрофона.
2. Выберите «Разрешить».
3. Найдите в списке русский язык, если это необходимо.
4. Нажмите на кнопку справа вверху, чтобы блок распознавания речи занимал весь экран (это не обязательно, но так удобнее работать).

1. Начинайте диктовать.
2. Текст, в котором может быть ошибка, выделяется красным цветом. Это позволяет быстрее находить неточности и исправлять их.

1. После того, как работа закончена, снова нажмите на иконку микрофона.
2. Выделите весь текст с помощью кнопки All (A) и скопируйте, нажав правой кнопкой мыши и выбрав «Копировать» (сочетание клавиш Ctrl+C не работает), либо воспользуйтесь панелью инструментов (B), чтобы отправить текст по электронной почте, сохранить в формате .txt, .doc, загрузить на Google Drive или распечатать.

Способы постановки знаков препинания:

1. Диктовка: чтобы узнать, как произносить тот или иной знак препинания, наведите на него курсор — во всплывающем окне появится подсказка.
2. Просто нажмите на знак препинания в панели, расположенной над областью для текста.

1. Автопунктуация: на сайте можно задать настройки для автоматической постановки знаков препинания. Не очень удобный вариант, так как при каждой паузе система ставит точку, при этом русский язык слишком гибкий и многообразный — задать четкие условия для постановки определенных знаков препинания невозможно. Поэтому рекомендуется отключить эту функцию, убрав соответствующую галочку.

Дополнительные настройки расположены в верхнем левом углу.

С их помощью можно включить или отключить следующие функции:

- Автосохранение текста: если функция включена, доступ ко всем сессиям можно получить, нажав на иконку папки в панели инструментов;

Выделение слов красным шрифтом;
Отметки времени в тексте (включены по умолчанию).

Кроме того, можно задать настройки для автопунктуации и изменить цвет фона.

Способ 3: Online Dictation

Online Dictation — удобный сервис с лаконичным интерфейсом. Основное преимущество — простота в использовании.

Онлайн-сервис Dictation

1. Сервис автоматически определяет язык по умолчанию, настроенный в браузере. Если язык не установлен либо используется гостевая учетная запись Chrome, необходимо установить русский: выпадающий список языков расположен внизу под областью для текста.

1. Нажмите кнопку «Start Dictation».

1. Разрешите использование микрофона на сайте.

1. Начинайте диктовать. Для постановки знаков препинания используйте голосовые команды: «точка», «запятая», «вопросительный знак», «восклицательный знак», остальные знаки ставятся при помощи клавиатуры. Для начала нового абзаца действует голосовая команда «новый параграф», для перехода на новую строку — «новая строка».
2. Закончив диктовать, нажмите «Stop Listening».

После того как текст готов, его можно:
- Скопировать, нажав кнопку «Copy» (1);
- Сохранить в формате .txt, нажав кнопку «Save» (2);
- Стереть, нажав кнопку «Clear» (3).

Способ 4: SpeechTexter

Сервис по распознаванию речи СпичТекстер отличается красивым компактным дизайном и позволяет редактировать текст прямо на сайте. Форматирование сохраняется при переносе текста в сторонний редактор.

Онлайн-сервис SpeechTexter

1. Зайдите на сайт, выберите русский язык (1) и нажмите «Start Dictating» (2).

1. Нажмите «Разрешить» во всплывающем окне.

1. Начинайте диктовать. Для пунктуации используйте голосовые команды, указанные справа от блока с текстом. Функцию голосовой пунктуации можно отключить, нажав на «Voice Punctuation is ON», и затем расставлять знаки препинания вручную.

1. Для прекращения записи нажмите «Stop».

1. После того, как текст записан, его можно отформатировать, используя инструменты на панели, расположенной над текстом.

1. Готовый текст можно скопировать (1), сохранить в формате .txt (2) или распечатать (3).

Инструмент распознавания голоса можно установить на собственный сайт. При этом посетители вашего ресурса смогут не только пользоваться голосовым поиском, но и заполнять формы без участия клавиатуры.

Код для вставки на сайт.

Совет: можно изменить свойство recognition.lang и подставить ‘ru-RU’ вместо ‘en-US’, тогда по умолчанию устанавливается русский язык.

У каждого из сервисов есть свои преимущества и недостатки. Рекомендуется попробовать поработать на каждом из них и выбрать наиболее подходящий, исходя из своих целей и предпочтений.

Очистить Читать

инструкции:

Это страница, которая читает текст вслух. Он делает это бесплатно, используя программу синтезатора речи, которая говорит, произнося слова и фразы любого введенного текста. Эта страница может использоваться как диктатор, симулятор оратора или просто как виртуальный рассказчик или текстовый проигрыватель.

Введите полный текст, предназначенный для чтения, в основной текстовой области. Вы также можете ввести адрес веб-страницы, текст которой вы хотите прочитать. Затем нажмите кнопку Читать, чтобы начать чтение; кнопка Пауза прекращает чтение, чтобы продолжить, когда снова нажимается кнопка Читать. Отмена прекращает чтение, оставляя приложение готовым к повторному запуску. Кнопка Очистить удаляет введенный текст, оставляя область, готовую для новой записи. Выпадающее меню позволяет выбрать язык голоса для чтения текста и, в некоторых случаях, страну его происхождения. Эти голоса являются естественными, некоторые мужские и некоторые женские.

Этот преобразователь текста в речь прекрасно работает во всех браузерах.

языки