Espeak ng установка windows

Espeak ng установка windows

eSpeak — это компактный мультиязычный некоммерческий программный синтезатор речи, разработанный Джонатаном Дуддингтоном (англ. Jonathan Duddington). Синтезатор распространяется по свободной лицензии GNU GPL v3+ (GNU General Public License) и открыт для доработок и усовершенствований. Существует версия eSpeak для таких операционных систем, как Linux, Mac OS, Microsoft Windows и RISC OS, а также он просто доступен в виде исходного кода на языке C++.

eSpeak поддерживает 37 языков, а именно: Африкаанс, албанский, армянский, кантонский диалект, каталанский, хорватский, чешский, голландский, английский, эсперанто, финский, французский, немецкий, греческий, хинди, венгерский, исландский, индонезийский, итальянский, китайский (мандарин), курдский, латвийский, ложбан, македонский, норвежский, польский, португальский, румынский, русский, сербский, словацкий, испанский, суахили, шведский, тамильский, вьетнамский, валлийский. Поддержка всех этих языков включена в общий инсталляционный пакет. Однако многие языковые версии eSpeak находятся лишь на стадии становления, поэтому качество синтеза на некоторых языках далеко от естественной речи.

Установка

Версия eSpeak под операционную систему Windows создана для работы совместно с Microsoft SAPI 5.x, поэтому если на вашем компьютере отсутствует пакет Microsoft SAPI 5.x, то, прежде чем устанавливать eSpeak Win, необходимо установить Microsoft SAPI версии 5.x.

Для установки самого синтезатора запустите файл установки синтезатора (setup_espeak.exe). Появится окно «Установка eSpeak» с вариантом продолжения и отмены операции. После нажатия на кнопку «Далее» появится окно с вариантом выбора каталога, в который будет установлен eSpeak. По умолчанию это каталог "C:\Program Files\eSpeak\" (в зависимости от настроек операционной системы буква диска может быть другой). Можно принять вариант по умолчанию или, при необходимости, изменить путь установки. После подтверждения пути установки синтезатора нажатием клавиши «Далее», откроется окно с текстом:

Это сообщение можно перевести как «Выберите голоса для установки или нажмите клавишу Enter, чтобы принять вариант по умолчанию. Введите название голоса, например: (для португальского) pt, или дополнительно с этим вариантом, например: pt+f3».

В данном окне имеется пять полей редактирования для ввода текста, а также три клавиши: «Назад», «Далее» и «Отмена», между которыми можно перемещаться с помощью клавиши Tab. Поля редактирования предназначены для указания тех голосов eSpeak, которые хочет установить пользователь. Голоса различаются по языкам, а также в рамках каждого языка имеется вариант мужского и женского голоса. В свою очередь каждый мужской или женский голос eSpeak имеет несколько вариантов, которые отличаются оттенками речи. Возможно произвести одновременную установку голосов для разных языков, а в рамках одного языка установить до пяти мужских и пяти женских голосов.

Чтобы указать, какие именно голоса eSpeak требуется установить, надо прописать их вручную латинскими буквами в нижнем регистре. Язык голоса задаётся двумя буквами, например, английский — en, польский — pl, румынский — ro, русский — ru и так далее. Мужские голоса задаются только двумя буквами языка, например, «en» или «ru», а женские голоса задаются двумя буквами языка и прибавленными к ним символами «+f», например, «en+f» или «ru+f». Указание варианта мужского или женского голоса осуществляется путём прибавления его цифрового индекса, например, у мужских голосов это выглядет как «ru ru+2 ru+3 ru+4», а у женских как «ru+f1 ru+f2 ru+f3 ru+f4».

Если требуется установить два варианта одного и того же голоса, например, два варианта мужского русского, то их надо прописывать в разных полях редактирования. Если же требуется установить несколько разных голосов, например, по однаму мужскому и женскому голосу для русского и английского языков, то всё это прописывается в одном поле через двойной пробел, например, "ru ru+f2 en+2 en+f3".

Изначально мастер установки eSpeak предлагает вариант по умолчанию, при котором в первом поле редактирования прописаны мужской и женский голоса языка, установленного в системе, а также один мужской английский голос. Например, при русской локализации MS Windows вариант по умолчанию предлагает следующие параметры установки: «ru ru+f2 en», остальные четыри поля редактирования остаются пустыми. Можно согласиться с вариантом по умолчанию, или указать собственный вариант установки. После этого следует нажать на кнопку «Далее». В следующем окне вам будут показаны параметры установки. Можно вернуться назад для их редактирования, или приступить к процессу инсталляции, нажав на кнопку «Установить».

Читайте также:  Auto runs для windows

По завершению процесса инсталляции синтезатора следует закрыть мастер установки нажатием на кнопку «Завершить».

В дальнейшем, если возникнит потребность изменить параметры голосов eSpeak, например, добавить или удалить какие-либо языковые версии, или сменить одну вариацию голоса на другую, то это можно сделатьь, сново запустите файл «setup_espeak.exe» и пропишите в полях редактирования другие параметры голосов. Перед проведением данной операции удалять eSpeak не требуется.

Настройка JAWS

Для подключения eSpeak Win впишите в файл «JFW.ini», расположенный в папке JAWS, в раздел [Synthesizers] следующие строки:

Вместо «*» (звездочки) поставьте порядковый номер добавляемого синтезатора в списке уже прописаных синтезаторов.

Выгрузите JAWS (Insert+F4, и загрузите его вновь. Если вы используете JAWS 9.0 и ниже, то в списке доступных синтезаторов (Insert+Control+S) должна появиться строка eSpeak. Переместитесь на эту строку при помощи клавиш со стрелками и нажмите Enter.

Часто этого бывает недостаточно, чтобы после такого выбора JAWS заговорил голосом eSpeak. Дело в том, что под данным пунктом в списке выбора синтезаторов будут скрываться все установленные SAPI5-совместимые синтезаторы, поэтому, чтобы выбрать именно голос eSpeak, нужно выполнить следующее:
Открыть основное меню JAWS (Insert + J), затем: Параметры, Голоса, Общие настройки. Здесь в комбинированном списке голосов выбрать eSpeak, произвести остальные настройки (скорость, пунктуация, громкость и прочее) и в JAWS ниже 10 нажать кнопку «Ok», а в JAWS 10 и выше пройти до кнопки «Сохранить как», далее указать имя голосового профеля для синтезатора eSpeak и нажать кнопку «Ok».

Для JAWS версии ниже 10 ,больше ничего предпринимать не требуется.

Для JAWS 10 и выше: после повторной перезагрузки JAWS в списке доступных голосовых профелей (Insert+Control+S) должна появиться строка с тем названием, которое вы указали при сохранении голосового профеля для eSpeak. Переместитесь на эту строку при помощи клавиш со стрелками и нажмите Enter. Если вы всё сделали правильно, компьютер заговорит голосом нового синтезатора.

Также установленные голоса eSpeak всегда доступны в качестве дикторов SAPI5 в соответствующем разделе настроек программы экранного доступа и операционной системы.

Установка дополнительных компонентов

Некоторые языки не обладают простыми и универсальными правилами построения граматной речи и eSpeak требуются дополнительные компоненты, чтобы производить качественный синтез на этих языках. Для того, чтобы избежать увеличения размера основного пакета eSpeak, эти компоненты распространяются отдельно. В частности, в русском языке нет общих правил, устанавливающих ударный слог в словах. В этих случаях eSpeak пытается определить ударение слова, но данное произношение часто не соответствует правильному. Для решения данной задачи существует специальный расширенный словарь произношения, который надо установить отдельно от основного пакета eSpeak.

Данный словарь представляет собой файл «ru_dict», который можно загрузить с официального сайта проекта или его копию с нашего сайта.

Распакованный словарь следует положить в папку eSpeak по пути «. \eSpeak\espeak-data\». Там уже имеется файл с аналогичным названием, но в несколько десятков раз меньше по размеру; следует заменить имеющийся файл новым. После этого качество русской речи станет заметно выше.

Espeak ng установка windows

  • speak is a stand-alone version which includes its own copy of the speech engine.
  • Place the espeak or speak executable file in the command path, eg in /usr/local/bin

    Place the «espeak-data» directory in /usr/share as /usr/share/espeak-data.
    Alternatively if it is placed in the user’s home directory (i.e. /home/ /espeak-data) then that will be used instead.

    Dependencies

    Some Linux distrubitions (eg. SuSe 10) have version 19 of PortAudio which has a slightly different API. The speak program can be compiled to use version 19 of PortAudio by copying the file portaudio19.h to portaudio.h before compiling.

    The speak program may be compiled without using PortAudio, by removing the linein the file speech.h.

    Читайте также:  Clickhouse client install linux

    2.1.2 Windows

    It also installs a command line program espeak in the espeak program directory.

    2.2 COMMAND OPTIONS

    2.2.1 Examples

    Or just type
    espeak
    followed by text on subsequent lines. Each line is spoken when RETURN is pressed.

    Use espeak -x to see the corresponding phoneme codes.

    2.2.2 The Command Line Options

    Speaks a text file.

    —stdin
    Takes the text input from stdin.

    If neither -f nor —stdin is given, then the text input is taken from «text words» (a text string within double quotes).
    If that is not present then text is taken from stdin, but each line is treated as a separate sentence.

    -a
    Sets amplitude (volume) in a range of 0 to 200. The default is 100.

    -p
    Adjusts the pitch in a range of 0 to 99. The default is 50.

    -s
    Sets the speed in words-per-minute (approximate values for the default English voice, others may differ slightly). The default value is 175. I generally use a faster speed of 260. The lower limit is 80. There is no upper limit, but about 500 is probably a practical maximum.

    -b
    Input text character format.

    1 UTF-8. This is the default.

    2 The 8-bit character set which corresponds to the language (eg. Latin-2 for Polish).

    4 16 bit Unicode.

    Without this option, eSpeak assumes text is UTF-8, but will automatically switch to the 8-bit character set if it finds an illegal UTF-8 sequence.

    -g
    Word gap. This option inserts a pause between words. The value is the length of the pause, in units of 10 mS (at the default speed of 170 wpm).

    -h or —help
    The first line of output gives the eSpeak version number.

    -k
    Indicate words which begin with capital letters.

    1 eSpeak uses a click sound to indicate when a word starts with a capital letter, or double click if word is all capitals.

    2 eSpeak speaks the word «capital» before a word which begins with a capital letter.

    Other values: eSpeak increases the pitch for words which begin with a capital letter. The greater the value, the greater the increase in pitch. Try -k20.

    -l
    Line-break length, default value 0. If set, then lines which are shorter than this are treated as separate clauses and spoken separately with a break between them. This can be useful for some text files, but bad for others.

    -m
    Indicates that the text contains SSML (Speech Synthesis Markup Language) tags or other XML tags. Those SSML tags which are supported are interpreted. Other tags, including HTML, are ignored, except that some HTML tags such as

    and
    ensure a break in the speech.

    -q
    Quiet. No sound is generated. This may be useful with options such as -x and —pho.

    -v [+ ]
    Sets a Voice for the speech, usually to select a language. eg: To use the Afrikaans voice. A modifier after the voice name can be used to vary the tone of the voice, eg: The variants are +m1 +m2 +m3 +m4 +m5 +m6 +m7 for male voices and +f1 +f2 +f3 +f4 which simulate female voices by using higher pitches. Other variants include +croak and +whisper .

    is a file within the espeak-data/voices directory.
    is a file within the espeak-data/voices/!v directory.

    Voice files can specify a language, alternative pronunciations or phoneme sets, different pitches, tonal qualities, and prosody for the voice. See the voices.html file.

    Voice names which start with mb- are for use with Mbrola diphone voices, see mbrola.html

    Some languages may need additional dictionary data, see languages.html

    -w
    Writes the speech output to a file in WAV format, rather than speaking it.

    -x
    The phoneme mnemonics, into which the input text is translated, are written to stdout. If a phoneme name contains more than one letter (eg. [tS]), the —sep or —tie option can be used to distinguish this from separate phonemes.

    Читайте также:  Pulse secure mac os download

    -X
    As -x, but in addition, details are shown of the pronunciation rule and dictionary list lookup. This can be useful to see why a certain pronunciation is being produced. Each matching pronunciation rule is listed, together with its score, the highest scoring rule being used in the translation. «Found:» indicates the word was found in the dictionary lookup list, and «Flags:» means the word was found with only properties and not a pronunciation. You can see when a word has been retranslated after removing a prefix or suffix.

    -z
    The option removes the end-of-sentence pause which normally occurs at the end of the text.

    —stdout
    Writes the speech output to stdout as it is produced, rather than speaking it. The data starts with a WAV file header which indicates the sample rate and format of the data. The length field is set to zero because the length of the data is unknown when the header is produced.

    —compile [= ]
    Compile the pronunciation rule and dictionary lookup data from their source files in the current directory. The Voice determines which language’s files are compiled. For example, if it’s an English voice, then en_rules, en_list, and en_extra (if present), are compiled to replace en_dict in the speak-data directory. If no Voice is specified then the default Voice is used.

    —compile-debug [= ]
    The same as —compile, but source line numbers from the *_rules file are included. These are included in the rules trace when the -X option is used.

    —ipa
    Writes phonemes to stdout, using the International Phonetic Alphabet (IPA).
    If a phoneme name contains more than one letter (eg. [tS]), the —sep or —tie option can be used to distinguish this from separate phonemes.

    —path [=» «]
    Specifies the directory which contains the espeak-data directory.

    —pho
    When used with an mbrola voice (eg. -v mb-en1), it writes mbrola phoneme data (.pho file format) to stdout. This includes the mbrola phoneme names with duration and pitch information, in a form which is suitable as input to this mbrola voice. The —phonout option can be used to write this data to a file.

    —phonout [=» «]
    If specified, the output from -x, -X, —ipa, and —pho options is written to this file, rather than to stdout.

    —punct [=» «]
    Speaks the names of punctuation characters when they are encountered in the text. If are given, then only those listed punctuation characters are spoken, eg. —punct=».,;?»

    —sep [= ]
    The character is used to separate individual phonemes in the output which is produced by the -x or —ipa options. The default is a space character. The character z means use a ZWNJ character (U+200c).

    —split [= ]
    Used with -w, it starts a new WAV file every minutes, at the next sentence boundary.

    —tie [= ]
    The character is used within multi-letter phonemes in the output which is produced by the -x or —ipa options. The default is the tie character ͡ U+361. The character z means use a ZWJ character (U+200d).

    —voices [= ]
    Lists the available voices.
    If = is present then only those voices which are suitable for that language are listed.
    —voices=mbrola lists the voices which use mbrola diphone voices. These are not included in the default —voices list
    —voices=variant lists the available voice variants (voice modifiers).

    2.2.3 The Input Text

    Phoneme Input As well as plain text, phoneme mnemonics can be used in the text input to espeak. They are enclosed within double square brackets. Spaces are used to separate words and all stressed syllables must be marked explicitly.

    eg: espeak -v en «[[D,Is Iz sVm f@n’EtIk t’Ekst ‘InpUt]]»

    This command will speak: «This is some phonetic text input».

    Оцените статью