Speech API (SAPI) 5.1
Чтобы управлять компьютерными приложениями собственным голосом, а также преобразовывать набранный текс в речь используйте бесплатную библиотеку Speech API. С ее помощью пользователю становятся доступны широкие возможности для распознавания и синтеза речи.
SAPI часто применяется в разных электронных читалках для прочтения книг или других текстовых документов вслух, кроме того, данная библиотека крайне полезна для юзеров с плохим зрением или ограниченными возможностями.
Для распознавания голоса продукт получает звук и осуществляет его цифровое преобразование, затем звук переводится в так называемые фонемы, далее фонемы выстраиваются в слова, причем слова, не подходящие для контекста, могут быть заменены подходящими синонимами.
С синтезом речи все обстоит иначе. Сначала слова разбиваются на фонемы, потом текст анализируется на наличие спецсимволов, цифр и пунктуации, завершающим этапом является создание цифрового звука, который при воспроизведении имитирует голос.
Помните, что изначально новые версии ОС Windows поддерживают эту библиотеку. Если операционная система ее содержит, тогда не требуется повторная установка и более того, это может спровоцировать конфликт версий.
В остальных случаях следует скачать Speech API и использовать библиотеку для распознавания или синтеза речи. Программы, работающие с ней в связке, автоматически подхватят нужные компоненты и будут корректно функционировать.
Распространяется | Бесплатно |
Разработчик | Microsoft |
Операционная система | Windows 2K / XP / Vista / 7 / 8 / 8.1 / 10 |
Язык | Русский |
Размер | 68 Mb |
Speech API 4.0/5.1
Speech API активно используется в программах по преобразованию текста в голос (читалках), а также для голосового управления операционной системой и отдельными программами.
SAPI 4.0 вышел в 1998 году. Он входил в состав пакета SDK, содержащего инструменты для распознавания и синтеза речи. Также он входил в операционную систему Windows 2000 (только с возможностью синтеза речи).
Версия SAPI 5.1 вышла в 2001 году как составная часть Speech SDK 5.1. Эта версия входила в состав ОС Windows XP.
В операционной системе Windows Vista установлена версия SAPI 5.3, а в Windows 7 — SAPI 5.4.
Внимание:
Поскольку большинство современных операционных систем Windows уже содержат SAPI4 или SAPI5, то устанавливать их не нужно. Однако возможны случаи, когда такая необходимость возникает. Будьте особенно внимательны при установке библиотеки SAPI 5.1 — установка этой версии на компьютеры, где уже установлена высшая версия SAPI (5.3 или 5.4), может привести к ухудшению работы программ, его использующих.
Дополнительные материалы
Изменения в последней версии
— В SAPI 5.1 есть возможность использования Win32 Speech API (SAPI) для сторонних приложений написанных на Visual Basic ® , ECMAScript и других языках.
— SDK также содержит свободно распространяемые движки text-to-speech (TTS) (американский английский и упрощенный китайский) и движки распознавания речи (американский английский, упрощенный китайский и японский.
Разработчик: | Microsoft Corporation |
Официальный сайт: | www.microsoft.com |
Обновлено: | 03.03.2009 |
Версия Windows : | 2000, XP, Vista, 7 |
Язык интерфейса: | English, Українська, Русский |
MSpeech
Программа для преобразования речи в текст и выполнения Windows-команд голосом
Яндекс.Браузер — быстрый браузер с защитой от мошенников и вредоносных сайтов.
- Windows 10
- Windows 8.1
- Windows 8
- Windows 7
- Windows Vista
- Windows XP
Тип лицензии:
Условно-бесплатное
Языки: Русский
Полезные статьи
Снимки экрана 4
MSpeech — программа для распознавания голоса с последующим его преобразованием в текст или выполнением заданной пользователем команды. Кроме того, приложение может использоваться и в обратном направлении — для преобразования текста в голос.
MSpeech — условно-бесплатная программа с ограниченным функционалом (но имеется возможность бесплатно получить полнофункциональную версию). Подходит для компьютеров под управлением Windows XP, Vista, 7, 8, 8.1 и 10 (32 и 64 бит). Интерфейс программы выполнен на русском языке.
Как пользоваться программой MSpeech?
Для распознавания голоса программа MSpeech использует встроенный модуль Google Voice API (т.е. для работы приложения требуется доступ в интернет). В его задачу входит отправка записанного голосового сообщения на сервер Google, где оно обрабатывается (транскрибируется в текст) и отправляется обратно на пользовательский компьютер в виде текстового сообщения. Благодаря Google Voice API программа MSpeech способна распознавать более 50 языков, включая русский.
Для ввода звука (голоса) в приложении предусмотрен собственный звукозаписывающий модуль, которым можно управлять посредством горячих клавиш. Также через программу можно транскрибировать голос из ранее созданных аудиозаписей, но для этого придется внести соответствующие настройки в системные параметры Windows, отвечающие за управление микрофоном (нужно задействовать функцию «Прослушать с данного устройства» в свойствах микрофона).
Однако у Google Voice API есть недостаток — для работы с сервисом пользователю может потребоваться создать специальный ключ API (API key Google Speech), что можно сделать на одном из сайтов известного поисковика. Также у сервиса Google Voice API есть ограничение на бесплатное использование — общая продолжительность отправляемых звукозаписей не должно превышать 60 минут в месяц. За дальнейшее распознавание голоса требуется оформить платную подписку.
Функции MSpeech
Помимо основной функции по распознаванию голоса, в возможности программы MSpeech также входят:
- Возможность создания неограниченного количества голосовых команд. Всего их 5 категорий — запуск, закрытие и остановка процесса программ, запуск программ с параметрами командной строки, а также запуск функции преобразования текста в голос (синтез речи).
- Функция преобразования текста в голос имеет собственные настройки. Пользователь может выбрать одну из 5 систем синтеза речи, включая стандартную Microsoft SAPI, которая может работать без интернета. Все прочие системы — онлайн (сервисы от Google, Yandex, iSpeech и Nuance).
- Возможность передачи преобразованного из голоса текста в текстовые поля любых запущенных программ путем использования метода WM_SETTEXT +EM_REPLACESEL, WM_PASRE, WM_CHAR, WM_PASTE (MOD) или WM_COPYDATA (платная функция). Данный функционал предназначен, в первую очередь, для программистов с целью организации взаимодействия своих разрабатываемых программ с MSpeech.
- Автоматическая коррекция текста перед отправкой в поля ввода других программ (замена слов по словарю и изменение первых букв предложений на заглавные буквы). Это еще одна платная функция.
Как получить MSpeech без ограничений по функционалу?
Разработчик MSpeech на своем официальном сайте выложил исходный код своей программы на языке Delphi. Исходники можно скачать и самостоятельно скомпилировать в компиляторе «Delphi XE6» или более поздних версиях. Скомпилированная в итоге программа MSpeech не будет иметь функциональных ограничений (не относится к ограничениям сервиса Google Voice API).
При подготовке материала использовались источники:
https://www.besplatnoprogrammy.ru/speech-api
https://biblprog.org.ua/ru/speech_api/
https://www.softsalad.ru/software/sistema/utility/mspeech