Содержание

Распознавание речи онлайн. Google Web Speech API.
Демонстрация возможностей
Голосовой блокнот
Приватность
Заключение
Использование Google Speech API для управления компьютером
Использование распознавания речи в Windows
Голосовой ввод текста: топ-5 бесплатных инструментов
5 бесплатных онлайн-сервисов для голосового ввода
1. SpeechPad
2. VoiceNote
3. Voice Notepad
4. Speechtexter.com
5. TalkTyper
Дополнительные инструменты для голосового ввода текста
Яндекс.Клавиатура и GBoard (Google Клавиатура)
Google Docs
Рекомендации, которые помогут улучшить качество распознавания текста

Распознавание речи онлайн. Google Web Speech API.

Помнится, в каком-то фантастическом фильме был показан способ работы писательницы: женщина произносила фразы — и они тут же появлялись на дисплее компьютера в виде текста. Компания Google, уже сделавшая реальностью беспилотный автомобиль, решила реализовать и эту концепцию, создав Web Speech API.

Чтобы романы сочинять можно было предельно легко — без ручного набора сотен тысяч букв, просто прогуливаясь со смартфоном в саду. Посмотрим, насколько Google удалось продвинуться в приближении столь фантастичного будущего.

Демонстрация возможностей

Требуется браузер Google Chrome, в коем наличествует Web Speech API. Значит, предварительно скачиваем и устанавливаем таковой.

Направляемся по адресу для тестирования сего API в онлайн режиме: www.google.com/intl/en/chrome/demos/speech.html

Произносим в микрофон: «Распознавание речи Google работает не очень хорошо. Главное — говорить в естественном темпе, а не по одному слову. Иногда распознаёт абсолютно точно, но отсебятину несёт всё же нередко. А ещё почему-то приплетает не совсем хорошие слова, которые вообще не звучали, но послышались программе.»

Результат: «Распознавание речи google работает очень хорошо главное абсолютно точно почему хорошие слова программа».

Как видим, распознан лишь фрагмент. Нет пунктуации, а в конце — вообще сплошная несуразица. При этом вместо «звучали» на полсекунды появилось «Чарли», но тут же исчезло.

Почему фрагмент? Дело в том, что на сервер отсылается звук, а он, ежели связь некачественная, может поступать туда в искажённом виде.

В любом случае, страница — демонстрационная, предъявляющая возможности Web Speech API

, а не готовый сервис. К готовому, кстати, и перейдём.

Голосовой блокнот

Более продвинутым является «Голосовой блокнот» по адресу speechpad.ru, где речь распознаётся чуточку точнее. Использует тот же Web Speech API от Google.

Однако отрицательная частичка «не» всё равно выбрасывается.

Не воспринимается и «то», вместо «почему-то» пишет «почему».

Зато имеются: 1) подробная, ясная инструкция; 2) хоть какие-то настройки. А ещё понимает команды введения знаков пунктуации. Например, если произнести «точка», действительно поставит точку.

Главное — отметить галочкой «Возобновлять при ошибках», иначе придётся постоянно жать на кнопку активации микрофона.

Впрочем, там наличествуют даже видео, обучающие работе с сервисом, так что пересказывать вкус предлагаемых плюшек не станем, лучше пробовать самостоятельно.

Однако нельзя не заметить, что «Перевод аудио в текст» — штука весьма интересная, но, увы, требующая размещения мультимедийного файла либо на YouTube, либо где-нибудь на веб-странице со средствами встраивания HTML5.

Впрочем, это если очень нужно регулярно переводить в текст не слишком секретное содержимое, диктуемое в смартфон, а печатать расшифровки вручную не хочется. Тогда имеет смысл заводить себе специальную страницу-хранилище. Кстати, о секретности и прочей приватности — далее.

Приватность

К сожалению, ситуация складывается так, что понятия «Google» и «приватность» уже воспринимаются народонаселением чуть ли не как антонимы.

Следует помнить, что использование любого (вообще любого!) голосового ввода в смартфонах с ОС Android непременнейшим образом влечёт за собой:

сохранение образцов вашего голоса на серверах Google;
привязка оных образцов к вашему пользовательскому аккаунту;
выполнение вышеуказанных действий тайком, без каких-либо предупреждений.

Потом наличие тех образцов обнаруживается внезапно и постфактум. Значит, если для вас приватность как таковая не является пустым звуком, поступаем так:

устанавливаем Google Chrome на «большой компьютер», не на планшет или нетбук с ОС Android;
пользуемся браузером без входа посредством оного в аккаунт Google; то есть бродим по каким угодно сайтам, но уникальный идентификатор установленной у вас копии браузера никогда не связываем со своей учётной записью.

Заключение

Само название Web Speech API

даже без любезной помощи Капитана Очевидность говорит нам, что сервис не работает оффлайн.

Локальной программы, распознающей русскую речь (именно русскую), пока никто не создал. Поэтому фантастичное будущее, хотя уже и прорисовывается в некоторых чертах, но всё же остаётся довольно далёким.

Почему? Потому что вменяемый писатель не станет сочинять романы только лишь онлайн. Творческий процесс не может зависеть от наличия коннекта. Поэтому обычные физические клавиатуры выбрасывать рано. Соответственно, рано и переходить на одни лишь планшеты вместо укомплектованных клавиатурами ноутбуков.

Использование Google Speech API для управления компьютером

Добрый день всем хабражителям.

На хабре уже писалось несколько статей о использовании Google Speech API, в том числе о его применении при создании Умного дома.

В этой статье я хочу рассказать как можно написать небольшую программку для голосового управления компьютером.

Кому интересно, прошу под кат.

Для разработки я использую Embarcadero RAD Studio XE и несколько бесплатных вспомогательных компонентов (JEDI Core, JEDI VCL, New Audio Components for Delphi, Synapse, uJSON, CoolTrayIcon)

В статье «Используем Google Voice Search в своем приложении .NET» было описано как работает Google Speech API и какие есть тонкости.

Опишу алгоритм моей программы и некоторые нюансы использования вспомогательных компонентов.

1. Запись звука в формате FLAC

Для этого я использую компонент New Audio Components for Delphi. Звук записываем в формат FLAC с частотой 8 кГц и сохраняем в файл.

За запись отвечает VCL компонент DXAudioIn1, в нем же прописаны настройки записи (1 канал и частота 8 кГц)

Далее данные с DXAudioIn1 идут на FastGainIndicator1 у которого на OnGainData стоит обработка уровней, если уровень упал N раз ниже установленного (красный указатель), то происходит остановка записи и отправка данных в Google.
Так же я сделал возможность начать автоматическую запись при превышении уровня на какой-то порог M раз (синий указатель).

Конечно такой алгоритм не сильно надежен, но он избавляет от необходимости нажимать кнопки начала записи и остановки. При соответствующих настройках уровней и количества срабатываний программа отлавливает факт наличия полезной составляющей с микрофона.

И в конце данные с FastGainIndicator1 идут на компонент FLACOut1, который и осуществляет запись непосредственно в файл в формате FLAC.

За начало записи отвечает процедура StartRecord.

2. Отправка файла в Google для распознавания и прием ответа

Записанный файл с помощью библиотеки Synapse отправляется в Google на распознавание.

Какие есть тонкости при работе с Synapse и тем, что данные нужно отправлять используя HTTPS?

а) Необходимо наличие библиотек libeay32.dll и ssleay32.dll
б) В uses необходимо подключить файл SSL_OpenSSL

За отправку файла отвечает функция HTTPPostFile.

, где
Stream — это поток TFileStream в который мы читаем наш записанный файл в формате FLAC.
StrList — это TStringList с ответом от Google.

Сама функция HTTPPostFile довольно проста, но есть в ней и тонкости:

3. Парсинг строки ответа от Google и выполнение команды

Строка ответа от Google приходит в формаnе JSON, например:

Для парсинга я использую библиотеку uJSON.

Что означают поля ответа:
поле status = 0 — запись успешно распознана
поле status = 5 — запись не распознана
поле id — это уникальный идентификатор запроса
поле hypotheses — результат распознования, в нем 2 подполя:
utterance — распознанная фраза
confidence — достоверность распознавания

Отправка файла, разбор ответа, поиск и выполнение команды я вынес в отдельный поток JvThreadRecognize.

Списки команд хранятся в файле MSpeechCommand.ini, пример файла:

блокнот;notepad.exe
свернуть все программы;script\Show_Desktop.scf
заблокировать компьютер;script\Lock_Workstation.cmd
выключить компьютер;script\Halt_Workstation.cmd
перезагрузить компьютер;script\Reboot_Workstation.cmd
завершить сеанс;script\Logoff_Workstation.cmd
запустить qip;C:\Program Files\QIP Infium\infium.exe
интернет;firefox.exe

Итоги: Данная программа не претендует на звание законченной, это лишь пример использования Google Speech API для выполнения некоторых команд на компьютере (пока это только запуск приложений и выполнение системных команд). Но никто не мешает доработать её и научить двигать мышкой, набирать текст в текстовом редакторе и т.д.

Готовая сборка программы и исходники (GPLv3) доступны на code.google.com/p/mspeech

Буду рад услышать конструктивную критику и пожелания. Спасибо.

Использование распознавания речи в Windows

Просмотрите это видео об использовании распознавания речи для работы с компьютером. (Чтобы просмотреть субтитры, нажмите кнопку «Субтитры».)

Просмотрите это видео об использовании диктовки с распознаванием речи. (Чтобы просмотреть субтитры, нажмите кнопку «Субтитры».)

Распознавание речи Windows делает использование клавиатуры и мыши необязательным. Вместо этого теперь можно управлять компьютером с помощью голоса и диктовать текст для ввода.

Примечание: Распознавание речи доступно только для следующих языков: английский (США и Соединенное Королевство), французский, немецкий, японский, мандаринский диалект (китайский (упрощенное и традиционное на китайском языке) и испанский.

Прежде чем использовать распознавание речи, необходимо выполнить несколько действий. Сначала нужно настроить микрофон. Затем можно научить компьютер распознавать ваш голос.

Прежде чем приступить к настройке функции распознавания речи, убедитесь, что микрофон подключен к компьютеру, иначе настройка не удастся.

Выполните прокрутку от правого края экрана и нажмите кнопку Поиск.
(Если вы используете мышь, найдите правый нижний угол экрана, переместите указатель мыши вверх и нажмите кнопку «Поиск».)

Поиск также можно открыть с помощью клавиатуры, нажав клавиши Windows+Q.

Введите в поле поиска настройка микрофона, а затем выберите элемент Настройка микрофона.

Следуйте указаниям на экране.

Примечание: По возможности используйте микрофон гарнитуры — это снижает вероятность фонового шума.

Обучение компьютера распознаванию речи

Программа распознавания речи использует особый речевой профиль для распознавания голоса пользователя и произносимых команд. Чем дольше вы пользуетесь распознаванием речи, тем более подробным становится ваш речевой профиль и тем лучше компьютер интерпретирует ваши команды.

Поиск также можно открыть с помощью клавиатуры, нажав клавиши Windows+Q.

Введите в поле поиска распознавание речи, а затем коснитесь элемента Распознавание речи или щелкните его.

Нажмите или щелкните элемент Обучить компьютер для улучшения распознавания вашего голоса.

Следуйте инструкциям по настройке речевого ввода для распознавания речи.

При помощи голосовых команд можно выполнять многие задачи, например заполнять электронные формы или писать письма. Когда вы произносите слова в микрофон, программа распознавания речи преобразует их в текст, который отображается на экране.

Диктовка текста с помощью программы распознавания речи

Поиск также можно открыть с клавиатуры, нажав клавиши Windows +Q.

Введите в поле поиска распознавание речи, а затем коснитесь элемента Распознавание речи Windows или щелкните его.

Произнесите команду «Start listening» либо коснитесь кнопки микрофона или нажмите ее, чтобы войти в режим прослушивания.

Откройте приложение или выберите текстовое поле, куда нужно вставить продиктованный текст.

Исправлять ошибки можно тремя способами:

Чтобы исправить последнюю произнесенную фразу, скажите «Correct that».

Чтобы исправить одно слово, произнесите команду «Correct», а затем это слово. Если слово повторяется несколько раз, то все случаи его употребления будут выделены, и можно выбрать тот, который нужно исправить.

Назовите номер, указанный рядом с нужным элементом в диалоговом окне Панель вариантов, а затем скажите «ОК».

Добавление и изменение слов в словаре

При помощи словаря распознавания можно добавлять собственные слова, запрещать диктовку определенных слов, а также исправлять и удалять слова из словаря.

Поиск также можно открыть с клавиатуры, нажав клавиши Windows +Q.

Произнесите команду «Open speech dictionary» и выполните любое из этих действий:

Чтобы добавить слово в словарь, произнесите команду «Add a new word» и следуйте указаниям.

Чтобы запретить диктовку определенного слова, произнесите команду «Prevent a word from being dictated» и следуйте указаниям.

Для управления компьютером можно использовать простые короткие команды. В таблице ниже даны некоторые наиболее часто используемые команды распознавания речи. Слова, выделенные полужирным шрифтом, указывают на то, что можно заменить примером слова или фразы похожими словами и получить полезные результаты.

Для управления компьютером также можно использовать сочетания клавиш. Со списком всех доступных сочетаний можно ознакомиться в разделе Сочетания клавиш.

Примечание: Если вы не знаете, какие команды использовать, произнесите «What can I say?».

Голосовой ввод текста: топ-5 бесплатных инструментов

Если вы работаете в digital-маркетинге, вам постоянно нужно взаимодействовать с текстом: записывать идеи, задачи, описывать концепции, писать статьи и многое другое. Иногда проще и быстрее надиктовать текст, чтобы не забыть важную мысль или задачу. Диктофон для этого подходит плохо: запись потом нужно будет расшифровывать и переводить в текст. А если оставлять голосовые заметки часто, то потом просто нереально быстро найти нужную информацию или бегло ее просмотреть.

Голосовой ввод текста помогает решить эту проблему. Вы диктуете — программа сразу переводит речь в текст, который вы можете сохранить как обычную заметку и дальше работать с ней спокойно работать.

В статье мы собрали подборку бесплатных сервисов голосового ввода, которые помогут вам:

быстро и удобно делать заметки, когда нет возможности или времени записывать вручную;
записывать голосом список задач;
надиктовывать черновики статей и других текстов.

Берите на вооружение сервисы из подборки и тестируйте — все они бесплатные и неплохо распознают русский язык.

5 бесплатных онлайн-сервисов для голосового ввода

1. SpeechPad

Speechpad — бесплатный сервис для голосового ввода текста. Доступен в трех форматах:

онлайн-сервис;
браузерное расширение — с его помощью можно вводить текст в любое поле для ввода;
мобильное приложение для Android и iOS.

У сервиса также есть платные функции. Их два вида:

дополнительные (расширенные). Включают в себя голосовой ввод в режиме интеграции с OS Linux и Windows, а также транскрибирование аудиофайлов длиной более 15 минут;
премиум. Пакетное транскрибирование аудио и видео (больше двух файлов).

Онлайн-сервис

Интерфейс сервиса выглядит так:

Здесь есть несколько настроек, кнопки управления и поле, в котором отображается распознаваемый текст.

Что можно сделать сделать:

настроить язык голосового ввода. Базово с списке доступно 14 языков (среди них русский, украинский, английский, немецкий). Если нужен другой язык, необходимо зарегистрироваться в сервисе. После этого в личном кабинете появится возможность добавить этот язык (если для него поддерживается распознавание речи);
активировать опцию «Включить команды». Если вы авторизованы в личном кабинете, вы можете добавлять голосовые команды и использовать их при надиктовке текста. Например, удалить последний распознанный фрагмент текста;
отключить управление заглавными буквами Google. По умолчанию в речи распознается начало предложений и автоматически проставляются заглавные буквы. Вы можете отключить эту опцию и самостоятельно редактировать предложения.

Обратите внимание! Онлайн-сервис Speechpad корректно работает только в браузере Google Chrome. Можно запускать его и в Яндекс.Браузере, но все же для корректной работы рекомендуется использовать именно Chrome.

Для начала распознавания текста нажмите кнопку «Включить запись» и предоставьте доступ к микрофону.

Затем надиктовывайте текст. Сначала распознанные слова появятся в поле справа от кнопки «Включить запись». После небольшой паузы они попадут в поле ниже (результирующее поле).

Над результирующем полем есть кнопки со знаками пунктуации. По ходу диктовки вы можете добавлять их вручную.

После того как вы закончили диктовку, просмотрите текст, исправьте ошибки (если есть). Затем скопируйте текст или скачайте в виде txt-файла.

Транскрибация

Также с помощью Speechpad можно переводить аудиозаписи разговоров в текст с помощью опции «Транскрибация».

Здесь можно будет загрузить аудио- или видеофайл, а также добавить ссылку на видео с Youtube.

После нажатия на кнопку «Включить запись» файл начнет проигрываться и система переведет речь в текст.

Расширение SpeechPad

Установите расширение из магазина расширений Google Chrome. После установки в контекстном меню в браузере (при клике правой кнопкой мыши на любой области экрана) появится пункт «SpeechPad».

Кликните правой кнопкой мыши по любому полю для ввода текста и выберите расширение из контекстного меню. Поле подсветится, и вы сможете голосом произнести фразу, которую нужно ввести в поле. Расширение распознает ее и отобразит в виде текста.

Мобильное приложение

Доступно две версии: для Android и iOS.

Приложение может работать в автономном режиме (без подключения к интернету). Так выглядит интерфейс приложения на Android:

В настройках можно управлять голосовыми командами (для расстановки знаков препинания и спецсимволов с помощью голоса):

2. VoiceNote

VoiceNote — еще один сервис для преобразования голоса в текст, который работает только в Google Chrome (также может работать в Яндекс.Браузере). При попытке запустить его в другом браузере появляется сообщение об ошибке.

Для голосового ввода через VoiceNote можно использовать Live Demo или отдельное приложение для Chrome.

Как пользоваться сервисом

Откройте редактор и выберите язык, на котором нужно распознавать речь. Для этого кликните по иконке земного шара и укажите нужный язык.

Затем кликните по значку микрофона и предоставьте сервису доступ к микрофону вашего компьютера или ноутбука.

После этого система начнет запись и вы сможете надиктовывать текст. Распознанный текст появится в редакторе. Возможности:

можно проговаривать знаки препинания словами;
голосовой командой можно перевести текст на новую строчку;
с помощью панели инструментов можно вручную добавлять знаки препинания и спецсимволы прямо во время диктовки;
готовый текст можно отредактировать и сохранить в txt-файле.

3. Voice Notepad

Еще один сервис для голосового ввода текста. Как и остальные сервисы, работает только в браузере Google Chrome.

У сервиса простой интерфейс. Здесь есть:

возможность выбрать язык распознавания (сервис работает на основе движка Google Speech Recognition и может распознавать речь на более чем 100 языках);
текстовое поле — здесь будет появляться распознанный текст, который можно отформатировать: выделить полужирным, курсивом или подчеркиванием, оформить списки, добавить или убрать отступы, задать выравнивание;
кнопки управления — кнопка Start активирует распознавание речи. С помощью остальных кнопок можно копировать текст, сохранять в txt-файл, публиковать и совершать другие действия.

Сервис поддерживает голосовые команды. Например, с помощью команды можно перевести текст на новую строку, поставить тире или другие знаки препинания, спецсимволы и т. д.

Полный список поддерживаемых команд для русского языка — здесь.

4. Speechtexter.com

Бесплатный онлайн-сервис для распознавания речи. Достаточно неплохо распознает русский язык. Всего поддерживает более 60 языков.

У SpeechTexter есть веб-версия (работает только в Google Chrome) и мобильное приложение для Android.

Для начала работы с сервисом необходимо выбрать язык распознавания и нажать кнопку Start (предоставив доступ к микрофону).

В текстовом поле есть несколько полезных функций:

счетчик слов, распознанных системой;
инструменты редактирования текста: выделение полужирным, курсивом, подчеркиванием, выравнивание текста, изменение размера шрифта. Также можно менять цвет текста, создавать нумерованные и ненумерованные списки;
можно включить ночной режим — полезно, если вы используете сервис вечером или ночью.

В правой части интерфейса размещен блок со стандартными голосовыми командами для добавления знаков препинания и нового абзаца:

На вкладке Custom можно создать свои команды, например для добавления кавычек.

После завершения диктовки текст можно отредактировать и сохранить в файле:

в txt-файле;
документом Microsoft Word.

5. TalkTyper

Простой онлайн-сервис для голосового ввода с поддержкой 37 языков.

В этом сервисе минимум функций, однако с распознаванием русского языка он справляется вполне неплохо. Для начала распознавания речи необходимо нажать на значок микрофона, разрешить его использование в браузере и начать диктовку текста.

Если сервис распознал фразу неправильно, нажмите на значок «Варианты»:

Если среди предложенных вариантов нет правильного, текст можно поправить вручную.

После завершения распознавания вы можете сохранить текст в txt-файле, скопировать, распечатать или отправить на почту.

Дополнительные инструменты для голосового ввода текста

Яндекс.Клавиатура и GBoard (Google Клавиатура)

Если вы большую часть времени работаете со смартфона и хотите использовать возможность голосового ввода текста, воспользуйтесь функционалом голосового ввода, который есть в клавиатурах от Google и Яндекс:

GBoard — клавиатура от Google. Для Android и iOS;
Яндекс.Клавиатура. Для Android и iOS.

Так вы сможете надиктовывать текст в любом приложении, которое вы обычно используете для организации личных и рабочих заметок, задач и подобного (Google Keep, Notion, Trello и т. д.).

Воспользоваться голосовым вводом просто:

Откройте нужное приложение (например, Google Keep) и создайте заметку;
Откройте клавиатуру и нажмите на значок микрофона (ниже пример, как это сделать в GBoard);
Начните диктовать заметку. Система распознает речь и преобразует ее в текст.

Голосовой ввод на GBoard (клавиатуре от Google)

Google Docs

Тем, кто много работает с Google Документами, пригодится встроенная функция голосового ввода (поддерживает русский язык).

Если вы еще не знали о ней, вот как ее включить: «Инструменты» → «Голосовой ввод».

Слева появится всплывающее окошко с выпадающим списком для выбора языка речи и кнопкой с иконкой микрофона.

Выберите нужный язык, нажмите на кнопку и начните диктовать текст.

Google распознавание речи для windows