Существуют два типа программ распознавания речи:
1. привязанные к говорящему – эти программы постоянно обучаются и со временем начинают понимать голос «своего хозяина» все лучше и лучше. Чем чаще пользователь работает в программе, тем лучше она понимает его. К счастью, обучение происходит довольно быстро – примерно через 20 минут программа научится неплохо понимать вас.
2. независимые от говорящего – вы можете начинать говорить сразу – программа будет реагировать на голосовые команды. В отличие от первого типа, этим программам не нужно учиться понимать вас. Наоборот, вам надо научиться говорить так, чтобы программа вас понимала.
Для чего на ПК используют программу распознавания речи?
Не думайте, что если вы поставите программу распознавания речи, то вам больше не понадобятся клавиатура и мышь, однако работа на ПК существенно облегчится.
1. Диктовка – с помощью программ распознавания речи многие пользователи надиктовывают тексты документов. Такая возможность актуальна, например, для медиков, проводящих обследование (в ходе которого руки обычно заняты) и одновременно протоколирующих его результаты. Для обычного пользователя, которому набивать текст по какой-либо причине сложно (или просто лень) она также может оказаться полезной.
2. Ввод команд – пользователи ПК могут использовать «распознавалку» для ввода команд, то есть проговариваемое слово будет восприниматься системой как щелчок клавиши мыши. Пользователь командует: «Открыть файл», «Отправить почту» или «Новое окно», а компьютер выполняет соответствующие действия. Это особенно актуально для людей с ограниченными физическими возможностями – вместо мыши и клавиатуры они смогут управлять компьютером при помощи голоса.
Что потребуется для распознавания речи?
1. Программа распознавания речи – англоязычные пользователи Windows могут воспользоваться, например, Dragon Naturally Speaking или IBM Via Voice. Русский язык понимают программы «Горыныч» и «Диктограф». В операционную систему Windows Vista программа распознавания речи уже встроена.
2. Микрофон или гарнитура (гибрид наушника и микрофона) – для «попадания» слов в компьютер.
3. Достаточно производительный компьютер – для работы функции распознавания речи компьютер не должен быть сверхбыстрым. Вполне достаточно 1 Гб оперативной памяти (для работы Windows Vista лучше иметь 2 Гб) и тактовой частоты процессора не менее 1 ГГц.
В каких устройствах используется функция распознавания речи?
Функция распознавания речи может использоваться не только в ПК, но и во многих других устройствах. Это особенно актуально, если у «гаджета» компактная клавиатура с малюсенькими клавишами (или вовсе ее нет).
1. Мобильные телефоны – уже несколько лет существуют модели с возможностью голосового управления. Но к распознаванию голоса это отношения не имеет – аппарат не переводит голос в текст, а сравнивает произнесенную фразу с заранее записанной (последняя является «эталонной» и обычно называется «голосовой меткой»). Голосовая метка может соответствовать записи в адресной книге (голосовой набор) или пункту меню (голосовое управление). Если телефон изначально не имеет соответствующих функций, «обучить» его будет невозможно.
2. Мобильные навигаторы – в новых навигационных устройствах, например, Tom Tom Go 720T водитель может голосом ввести пункт назначения. Если произносить слова отчетливо и, по возможности, в тишине, то эта функция работает очень хорошо. Хотя данная операция занимает столько же времени, сколько и клавиатурный ввод, но во время движения в любом случае более безопасно и удобно использовать голосовое управление. Правда, совсем без рук здесь не обойтись – для запуска голосовой команды нужно нажать на экранную кнопку.
3. Автомобили – некоторыми новыми марками автомобилей, например, Mercedes, Audi, Toyota, Ford или BMW, можно управлять при помощи голоса (правда, набор команд ограничен). Например, в некоторых моделях BMW после нажатия кнопки, расположенной на руле (см. рису
4. Мультимедийные диски для изучения иностранных языков – некоторые обучающие программы проверяют правильность произношения. Программа просит вас прочитать определенное предложение и, обработав с помощью функции распознавания речи результат, сообщает, все ли у вас в порядке с произношением.
Какие проблемы возникают при работе с программами-«распознавалками»?
Управление устройствами или диктовка текстов выполняются достаточно хорошо, но, к сожалению, не идеально. И вызвано это рядом причин:
1. Слова не всегда звучат одинаково – самая большая трудность при распознавании речи заключается в том, что ни один человек не произнесет одно и то же слово одинаково, даже если очень постарается.
2. Все люди говорят по-разному – поэтому программа распознавания речи будет функционировать более четко, если новый пользователь сначала немного «потренирует» ее. Правда, это не всегда возможно, а иногда даже и не нужно, например, при использовании программ, не привязанных к собеседнику. Многие программы распознавания речи умеют настраиваться на нового пользователя автоматически.
3. Фоновые шумы могут существенно искажать звучание произносимого слова. Это в значительной степени ограничивает функции распознавания речи, а в многолюдных или зашумленных местах и вовсе делает его невозможным.
4. Быстрая речь – некоторые пользователи говорят очень быстро – слова практически сливаются. Собеседник легко поймет такую речь, однако программе такая задача окажется «не по зубам».
5. Слова с одинаковым (или очень похожим) звучанием – особенно тяжело приходится программам распознавания речи с так называемыми омофонами – словами, которые произносятся практически одинаково, а пишутся по-разному («лез» и «лес», «рот» и «род»). Значение таких слов программа должна определять по контексту предложения.
Каковы перспективы функции распознавания речи?
В мобильных телефонах роль функции распознавания речи существенно возрастет, ведь набивать текст на маленьких клавиатурах мобильных телефонов весьма утомительно.
1. Диктовка SMS-сообщений – скоро вам не понадобится набирать текст сообщений на телефоне – можно будет просто диктовать. Эту функцию обещает внедрить в некоторые модели своих телефонов фирма Samsung (в ближайшее время они должны появиться на рынке).
2. Перевод – ко времени проведения Олимпийских игр–2008 в Пекине ожидается появление мобильного телефона со встроенным переводчиком. Если вы, находясь в Поднебесной, захотите, к примеру, отобедать в ресторане, то вам достаточно будет по-русски наговорить свой заказ в мобильный телефон – все будет переведено на китайский язык, а электронный голос из динамика передаст заказ официанту.
Можно предположить, что со временем все большее количество устройств будет понимать человеческий голос. Поэтому не удивляйтесь, если однажды утром ваша кофе-машина не только спросит вас, что приготовить – капуччино или эспрессо – но и поймет ваш ответ.
Распознавание речи в Windows Vista
В Windows Vista имеется программа распознавания речи. К сожалению, этот компонент понимает только английскую, немецкую, французскую, испанскую, японскую и китайскую речь. При первом запуске компонента (в Control Panel нужно выбрать пункты Ease of Access и Speech Recognition) открывается окно мастера обучения, который целых полчаса будет знакомить вас с принципами работы голосового управления Windows. Выполнив несколько упражнений, вы научитесь диктовать и управлять Windows с помощью голосовых команд. Поскольку программа распознавания речи является зависимой от говорящего, она будет одновременно изучать ваш голос. После успешного освоения вводной части Windows отреагирует на ваш призыв: «Слушать!» и начнет принимать голосовые команды. Недостаток: голосовой ввод функционирует только для программ Microsoft (например, для самой Windows, Word или Internet Explorer). При использовании других программ (например, Open Office или Firefox) компьютер будет «глух».