- Программы для перевода голоса в текст
- MSpeech
- Lossplay
- Transcriber-Pro
- Express Scribe
- Диктуем текст: лучшие бесплатные программы для преобразования речи
- Преобразование речи в текст непосредственно в Word
- Превращаем речь в текст с помощью Speak a Message
- Преобразуем речь в текст без специальных программ
- Преобразование речи в текст через приложение
- Голос в текст: три метода, 10+ инструментов
- 1. Автоматизировать транскрибацию
- Google Docs
- Speechpad
- RealSpeaker
- Dictation
- Экзотика: субтитры YouTube
- 2. Усовершенствовать ручную расшифровку
- oTranscribe
- Express Scribe
- Transcriber Pro
- LossPlay
- Универсальное решение: wreally.com
- 3. Просто делегировать эту работу
- Коротко о главном
Программы для перевода голоса в текст
Любой пользователь компьютера может столкнуться с ситуацией, когда необходимо голосом ввести какой-либо текст на компьютере. Помимо стандартных решений Windows, существуют сторонние приложения, позволяющие сделать это. Предлагаем рассмотреть лучшие из них.
MSpeech
Первым делом рассмотрим бесплатную утилиту MSpeech от независимого разработчика Михаила Григорьева, распространяющего свой продукт бесплатно с открытым исходным кодом. В основе решения лежит технология Google Voice API, предназначенная для распознавания человеческой речи и дальнейшего ее преобразования в текст. Распознанный текст вводится в специальное окно, откуда его можно легко перенести в другие приложения разными способами. Поддерживается порядка 50 различных языков, включая русский. Доступны горячие клавиши для удобной активации и завершения записи.
Предусмотрен простой текстовый редактор, в котором можно выполнить первичную коррекцию полученного текста: заменить определенные слова другими или изменить первые буквы предложений на прописные. В качестве источника звука можно использовать любое устройство, подключенное к компьютеру. Если их несколько, то MSpeech предложит выбрать подходящее. Меню программы поддерживает русский язык. Помимо этого, она совместима со следующими интерфейсами: Microsoft SAPI, Google Text-to-Speech, iSpeech Text-to-Speech, Yandex Text-to-Speech и др.
Lossplay
На очереди еще одно простое приложение для транскрибации, которое изначально создавалось командой разработчиков с разных стран. Сейчас в качестве создателя выступает один независимый программист, продолжающий развивать его. LossPlay можно использовать не только для перевода голоса в текст, но и в качестве обычного плеера для прослушивания музыки и других аудиофайлов. Решение поддерживает любое актуальное расширение от MP3 до WMA. Управление воспроизведением осуществляется с помощью настраиваемых горячих клавиш.
LossPlay оптимизирован для работы с текстовыми документами Microsoft Word. Распознаваемый текст вводится в программе без участия пользователя. Помимо этого, предусмотрена функция автоматической вставки тайм-кодов всех фраз. Интерфейс рассматриваемого решения представлен в виде привычного плеера с дополнительными функциями. При этом с меню справится даже начинающий пользователь. LossPlay распространяется на бесплатной основе на русском языке.
Transcriber-Pro
Transcriber-Pro — программа от российских разработчиков, предназначенная для ручной расшифровки аудио и видеофайлов в текст. Присутствует встроенный текстовый редактор со всеми необходимыми функциями для качественной транскрибации: вставка временных меток и дикторов, простая навигация по записи, коррекция без повторного прослушивания, формирование профессиональное стенограммы и др. Управление осуществляется с помощью настраиваемых горячих клавиш, что делает решение более удобным.
Рассматриваемое приложение позволяет работать в команде над одним проектом. Предусмотрена оперативная техническая поддержка для обладателей платной лицензии. Подписка оформляется на год. На официальном сайте можно ознакомиться с системными требованиями, посмотреть наглядный видеоролик по работе с Transcriber-Pro, а также увидеть подробное руководство пользователя.
Express Scribe
Express Scribe — многофункциональный инструмент для ручной расшифровки аудиозаписей, представленный в виде удобного плеера с дополнительными возможностями. В одном интерфейсе сосредоточен звуковой и текстовый модуль, что избавляет пользователя от необходимости переключаться между окнами. Среди примечательных особенностей стоит отметить возможность переключаться между звуковыми дорожками, переходить к конкретным ее частям, а также добавлять заметки с тайм-кодами.
Для открытия файла можно использовать директорию компьютера, FTP-сервер, компакт-диск, электронное письмо или внешние накопители. Помимо этого, Express Scribe поддерживает портативное аудиозаписывающее оборудование. Рассматриваемое решение работает с огромным количеством звуковых форматов: WAV, MP3, WMA, VOX, AU, DSS и др. Поддерживаются расширения диктофонов Philips Digital Recorder, GSM 6.10, ALaw, DSP и т. д. Стоит отметить, что некоторые форматы недоступны в демо-версии, а русский язык здесь вообще не предусмотрен.
Voco — простая утилита для автоматического распознавания человеческой речи и преобразования в текст. Она работает в фоновом режиме, а соответствующий значок можно найти в трее. Микрофон запускается при нажатии комбинации горячих клавиш, после чего пользователь произносит нужные слова и уже через несколько секунд они появляются на экране. Благодаря совершенным алгоритмам система практически не ошибается, а скорость ее работы превышает опытных стенографистов.
Механизм Voco позволяет выставлять знаки препинания голосом и переводить курсор на новую строчку или абзац. Помимо этого, предусмотрена функция расшифровки аудио или видеофайла, но она доступна только в платной версии. Утилита имеет развивающийся словарный запас, который может пополнить любой пользователь. База уже насчитывает более 85 тысяч слов. Для получения демо-версии необходимо заполнить специальную анкету. Присутствует русская локализация.
Это были наиболее надежные и популярные средства для перевода голоса в текст. Одни из них работают в автоматическом режиме, где достаточно загрузить аудиофайл или воспользоваться микрофоном, другие же представляют собой лишь вспомогательный инструмент, значительно упрощающий ручную транскрибацию.
Диктуем текст: лучшие бесплатные программы для преобразования речи
Мы нашли несколько хороших программ, которые умеют автоматически распознавать речь и преобразовывать ее в связный текст. С их помощью вы можете надиктовывать письма или длинные тексты, а не печатать их вручную.
Представляем четыре способа преобразовать речь в текст, используя бесплатные программы и приложения.
Преобразование речи в текст непосредственно в Word
С помощью Microsoft Dictate вы можете диктовать и даже переводить текст прямо в Word.
- Скачайте и установите бесплатную программу Microsoft Dictate.
- Затем откройте Word – в нем появится вкладка Dictation. Кликнув на нее, вы увидите значок микрофона с командой Start.
- Рядом находится выбор языка. Выберите русский язык и начните запись. Старайтесь произносить слова максимально четко, и они появятся прямо в документе.
Превращаем речь в текст с помощью Speak a Message
Бесплатная программа Speak A Message записывает произнесенный текст, а затем расшифровывает его. Основные языки программы — английский, немецкий, испанский и французский, но есть и мультиязычная версия.
- Установите программу и нажмите кнопку «Запись». Произнесите весь текст, а затем кликните «Стоп».
- Под кнопкой записи рядом с записанными файлами вы найдете функцию «Транскрипция» — «Речь в текст».
- Скопируйте готовый текст и вставьте его в нужный текстовый редактор. Но не забудьте проверить то, что записала программа — иногда она допускает ошибки.
Преобразуем речь в текст без специальных программ
В операционной системе Windows 8 и 10 вам не требуется дополнительное программное обеспечение для преобразования голоса в текст.
- Нажмите на клавишу Windows и введите «Распознавание речи». Затем откройте совпадающий с запросом результат и следуйте указаниям программы.
- После завершения настройки запустите приложения и диктуйте текст прямо в документе Word. Для этого просто нажмите на кнопку микрофона и начните говорить.
Преобразование речи в текст через приложение
Если вы хотите диктовать тексты и получать их в напечатанном виде прямо на ходу, используйте специальные приложения.
- Android и iOS уже интегрировали в свои системы функцию распознавания речи. Когда вы открываете приложение для создания заметок и начинаете набирать текст, используйте значок микрофона, чтобы запустить распознавание голоса.
- Есть и другие приложения для аналогичной цели, например Dragon Dictation, доступное для Android и iOS.
Голос в текст: три метода, 10+ инструментов
Как ускорить и облегчить транскрибацию аудио/видео в текст
Транскрибация (расшифровка) аудио/видео в текст — не слишком творческая, но порой обязательная часть работы. Например, когда вы готовите интервью, материал по выступлению спикера или извлекаете тезисы из того, что наговорили на диктофон во время прогулки.
И это скучное занятие превратится в настоящее мучение, если работать по подобной схеме:
- Открываем аудиофайл в проигрывателе Windows.
- Создаем новый документ в Notepad/Word.
- Запускаем воспроизведение и переключаемся в текстовый редактор.
- Пишем, пока успеваем и хорошо слышим.
- Если запнулись или не расслышали, переключаемся на проигрыватель.
- Останавливаем воспроизведение и перематываем.
- Включаем, переключаемся на текстовый редактор и т. д.
Рассказываем, как можно ускорить и упростить перевод аудио/видео в текст.
1. Автоматизировать транскрибацию
Конечно, в эпоху нейросетей не обошлось без решений для автоматического перевода звука в текст.
Google Docs
В Гугл Документах есть встроенный инструмент для расшифровки аудио с микрофона (файлы не транскрибирует). Можно вызвать его через Ctrl+Shift+S, далее выбрать язык и нажать на значок микрофона.
Очень плохо справляется с тихой и шумной диктофонной записью, достаточно хорошо — с диктовкой в микрофон.
Главный недостаток — работает только в активном окне Google Docs, то есть наговорить что-то с другой вкладки (или включить запись на компьютере) не получится.
Чтобы добавить в текст пунктуацию, нужно надиктовывать знаки голосом: точка, запятая, вопросительный/восклицательный знак, новая строка, новый абзац, кавычки. Это работает в большинстве приложений для диктовки (иногда для этого нужно найти нужную галку в настройках).
Пример работы голосового ввода Google Docs
Speechpad
Расшифровывает только звук с микрофона, поэтому тот должен быть хорошего качества. Поддерживается Google Chrome, но есть еще приложения для iOS и Android. Плюс возможна интеграция с Windows, Mac и Linux — чтобы обеспечить голосовой ввод в любом текстовом поле. Хороший звук понимает достаточно хорошо, плохой — очень плохо.
Фрагмент YouTube-ролика хорошо перевел в текст, в общем и целом, редактуры не очень много
RealSpeaker
Платный онлайн-расшифровщик. Работает только с готовыми файлами, что-то наговорить с микрофона здесь нельзя. Переводит аудио в текст бесплатно, но только если запись длится до 1,5 мин. Далее стоимость — 8 руб. за минуту, максимальная продолжительность аудио — 180 мин. Поддерживается почти 40 языков, включая русский и украинский.
Интересно, что в разделе «Мои медиа» доступны транскрибированные тексты других пользователей. Можно приблизительно оценить качество расшифровки, подумать, стоит ли платить за нее деньги. Это же удобство — пугает. Никакой приватности, можно даже редактировать и удалять чужие тексты.
Оплаченный текст будет доступен только вам. Интересно, что при загрузке видео результат можно скачать сразу в формате субтитров (*.srt).
Сервис сейчас в бета-версии, многие функции вызывают вопросы. Например, нельзя удалить загруженный файл из облака, но со временем файлы удаляются автоматически.
Пример транскрипта другого пользователя, текст доступен абсолютно всем
Dictation
Тоже онлайн-сервис для распознавания речи. Бесплатный. Работает только со звуком с микрофона, готовые записи загрузить нельзя. Понимает не только русские слова, но и десятки команд («тире», «новая строка» и др.).
Включает простейший встроенный редактор — сразу меняйте форматирование, оформляйте списки и др. Не переключаясь, можно отправить текст на e-mail и в соцсети, сохранить на компьютер.
Четкую речь блогера, подготовленную профессионально и в тишине, распознал почти идеально. Речь героя интервью из того же YouTube-ролика, которая была записана без петлички и с фоновым шумом, уже понял только наполовину. С диктофонной записью все печально.
Пример того, как работает Dictation (1 — качественная запись, 2 — посредственная)
Это платная десктопная Windows-программа для расшифровки речи, не требующая доступ к интернету. Работает как с микрофоном, так и с готовыми аудиозаписями — поддерживаются все популярные форматы (wav, mp3, wma). Правда, последнее возможно только на дорогих тарифах.
Важный момент — программа обучается на ваших документах, начинает лучше понимать лексику и стиль, расширяет базовый словарный запас. Алгоритм версии 2.0 дообучен на звуковых данных, записанных на расстоянии 1 м от микрофона — для улучшенного распознавания со встроенных устройств и диктофонов.
Базовый тариф стоит 1867 руб. в год, профессиональный — 15 500 руб. (дальше продлевать будет дешевле в разы). Разница между ними — в функциональности (например, транскрибация аудиозаписей и встраивание в Word есть только у Voco.Professional). Необязательно платить сразу — есть триал на 2 недели.
Так Voco расшифровал озвученную статью Дурова о Долине. Не особо впечатляет, хотя это результат сразу после установки программы, без обучения
Экзотика: субтитры YouTube
Наверняка вы замечали, что YouTube достаточно хорошо автоматически расшифровывает, что говорят герои в видеороликах. Можно использовать эту технологию и в личных целях. Метод экстремальный, но вполне доступный при отсутствии других возможностей для расшифровки.
Загружаете с ограниченным доступом любое видео, открываете его в «Творческой студии», переходите в раздел «Субтитры». Далее выбираете язык, подтверждаете и — готово. Субтитры можно скачать в формате .sbv, файл легко откроется в стандартном Блокноте.
Проблема в том, что выгружаются именно субтитры — с таймкодами и постоянным разрывом текста. Довольно сложно собрать нормальный материал, если видео длинное. И еще сложнее, если качество звука оставляет желать лучшего. А если у вас не видеозапись, а чистое аудио — придется еще и превращать его в видео в каком-нибудь редакторе для такого способа расшифровки.
Используя автозамены и макросы в редакторе, такой текст несложно вычистить от таймкодов. А вот собирать в связные абзацы придется вручную.
Так выглядит файл с субтитрами, который скачивается из «Творческой студии» YouTube
2. Усовершенствовать ручную расшифровку
Можно пойти другим путем — не автоматизировать, но упростить работу и транскрибировать без кошмара, описанного в самом начале статьи. Вам все равно придется слушать и записывать, но это будет удобно делать внутри хорошо обустроенного сервиса.
oTranscribe
Бесплатный веб-сервис для ручной транскрибации текста. Работает как с аудио, так и с видео, в том числе YouTube-роликами. Открывает десятки форматов: wav, mp3, mpeg, webm и др.
Можно назначить горячие клавиши для управления воспроизведением. Есть автосохранение, простой текстовый редактор, интерактивные метки, упрощающие навигацию.
Интерфейс oTranscribeИнтерфейс oTranscribe
Express Scribe
Условно-бесплатное десктопное ПО для Windows/Mac. Позволяет загружать аудио и видеофайлы с самых разных источников: дисков, FTP-серверов, электронных писем и др. Поддержка форматов зависит от версии: например, mp3 и wav открываются в любом случае, а wmv, mp4 или 3gp — только в Pro.
Гибкие настройки воспроизведения: управляйте горячими клавишами, меняйте скорость, переключайтесь на определенный таймкод. Можно добавлять заметки к файлам, подключать к работе ножную педаль — специальное устройство, USB-переключатель для геймеров и транскрибаторов.
Удобно, что все записи добавляются в список и между ними легко переключаться — не нужно каждый раз заново их загружать. Неудобно, что нет текстового редактора (зато есть интеграция с MS Word, Corel Wordperfect, Lotus Wordpro и другими текстовыми процессорами под Windows).
Неограниченная лицензия PRO стоит от 25 $, но для личного использования вполне хватит бесплатной версии.
Так выглядит окно Express Scribe
Transcriber Pro
Тоже десктопный инструмент для ускорения ручной расшифровки (правда, только аудио в текст и только для Windows). Функциональность похожа на аналогичные решения: есть управление горячими клавишами, создание заметок (тегов), автозамена текста, настройка «прыжка» после паузы и др.
В числе преимуществ Transcriber Pro также указали командную работу — возможность разбивать проект на подзадачи, выгружать их и пересылать, потом объединять результаты в один файл. Участники команды будут работать в офлайне, но результат потом соберется в одно целое.
Платная лицензия стоит 640 руб. в год, но ее нет смысла покупать ради такой функции, как экспорт в интерактивные стенограммы. Этот формат похож на обычные субтитры, которые, например, выгружаются с YouTube.
LossPlay
Это десктопный плеер для Windows в помощь расшифровщикам аудио/видео. Открывает mp3, wav, mp4 и др. (разработчики отмечают, что есть также «интеллектуальная поддержка недокументированных форматов», что бы это ни значило). Парит поверх всех окон, поэтому позволяет работать в любом текстовом редакторе.
Hot keys настраиваются не только для управления воспроизведением, но и для вставки шаблонных текстовых фрагментов. Если не нравится стандартный дизайн, в настройках можно задать элементам другие цвета.
Придется по душе тем, кто ностальгирует или до сих пор пользуется Winamp.
Такой вот внешний вид у LossPlay
Универсальное решение: wreally.com
Альтернатива всем вышеперечисленным инструментам — Transcribe (wreally.com). Этот онлайн-сервис позволяет транскрибировать текст обоими способами: вручную (как в oTranscribe) и автоматически (создатели указывают точность 90%). Открывает десятки видов файлов: webm, mp3, mp4, 3gp, wmv и др. Есть автосохранение, работа без доступа к интернету, интеграция ножной педали, настройка горячих клавиш, экспорт видеосубтитров. В отличие от RealSpeaker, гарантируется безопасность и приватность.
Бесплатно можно получить только 1 минуту автоматической расшифровки. Далее — 6$ в час. Ручная транскрибация тоже стоит денег, но совсем небольших — 20$ в год.
Так выглядит инструмент для ручной транскрибации
Пример работы авторасшифровщика
3. Просто делегировать эту работу
Наконец, необязательно заниматься транскрибацией самому, неважно, автоматически или вручную. Можно делегировать это сторонним исполнителям. Например:
- Zapisano — служба расшифровки аудиозаписей, которая готова «освободить творческих людей от рутинной работы».
- YouDo — проект для поиска заказчиков и исполнителей.
- FL — крупнейшая русскоязычная фриланс-биржа.
- Kwork — онлайн-магазин фриланс-услуг.
- Advego — биржа контента.
Из всего списка только Zapisano специализируется именно на расшифровке (и это хороший повод выбрать именно их). Работают в сервисе живые стенографисты — они предлагают тексты без слов-паразитов и оговорок, в удобном формате. У заказчика есть личный кабинет, куда загружаются записи, где видны статусы и можно скачать результат. Оплатить можно банковскими картами, электронными деньгами или по безналичному расчету.
Стандартный тариф — около 30 руб. за минуту. Придется платить больше при пониженном качестве записи, наличии специальной терминологии или повышенной срочности.
Начало работы с Zapisano
Коротко о главном
— Высококачественное аудио можно попробовать расшифровать автоматически — тогда потребуется минимум правок. Чем хуже качество, чем больше шумов, чем тише голос — тем дольше нужно будет возиться с текстом после автотранскрибации. Примеры инструментов: Google Docs, RealSpeaker, Dictation, Voco.
— Если аудио неважного качества и с обилием посторонних звуков, а у говорящего тихая речь, много слов-паразитов и отвлечений не по теме — пожалуй, стоит выбрать ручную расшифровку. Главное, облегчить ее с помощью специальных решений: oTranscribe, Express Scribe, Transcriber Pro, LossPlay или Transcribe (wreally.com). У последнего также есть платный автотранскрибатор.
— Можно просто делегировать это дело фрилансерам — они сами разберутся, какой способ расшифровки аудио им выбрать и использовать. Как правило, стоимость часа работы опытного автора/редактора/журналиста в разы выше, чем цена на транскрибацию текста. Выгоднее заплатить сторонним исполнителям, а не тратить часы на рутину. Специалистов можно найти на Zapisano, YouDo, FL, Kwork и других площадках.