БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
Выпускная работа по предмету
«Основы информационных технологий»
3ФР73
Аспирант (магистрант)
кафедры информатики
Шейбак Анастасия Николаевна
Руководители:
Доцент Афанасьев Геннадий Константинович,
Доцент Кожич Павел Павлович
Минск – 2010 г.
Оглавление
Список обозначений ко всей выпускной работе. 2
Реферат. 3
Введение. 3
Глава 1 Обзор литературы.. 4
Глава 2 Методика исследования и описание системы.. 6
Глава 3 Основные результаты.. 8
Заключение. 8
Список литературы к реферату. 9
Предметный указатель к реферату. 10
Интернет ресурсы в предметной области исследования. 11
Действующий личный сайт в WWW... 12
Граф научных интересов. 13
Тестовые вопросы.. 14
Презентация магистерской диссертации. 15
Список литературы к выпускной работе. 16
Приложение. 17
Список обозначений ко всей выпускной работе
БПФ – быстрое преобразование Фурье
FFT (fast Fourier transform) – от англ. Быстрое преобразование Фурье
GUI (Graphic user interface) – от англ. Графический интерфейс пользователя
VUI (Voice user interface) – от англ. Голосовой интерфейс пользователя
Реферат
на тему «Применение информационных технологий для разработки голосового интерфейса измерительных приборов»
Введение
Посредством звука человек получает до 16% информации при взаимодействии со своим окружением. Таким образом, слух является вторым по важности органом чувств, благодаря которому мы познаём мир. XXI век стал поистине веком информации. Веком, когда человек постоянно взаимодействует с многочисленными искусственными информационными системами практически во всех сферах своей жизни. Самым распространённым каналом обмена информации при этом по праву является визуальный. Однако возможность получения информации посредством сразу двух дополняющих друг друга каналов позволило бы качественно преобразовать взаимодействие человека с информационными системами. Таким образом, благодаря созданию речевого сопровождения различного рода данных, открывается дополнительный канал обмена информации.
Одним из наиболее актуальных направлений применения речевого сопровождения является измерительная информация. То, что измерено всегда лучше не только увидеть, но и прослушать. Это позволило бы ускорить восприятие информации, а в ряде случаев и распараллелить восприятие сразу из нескольких источников, оптимизируя тем самым работу с измерительными приборами.
Эксплуатация второго канала связи становится необходимостью в случае, когда отображение информации графически либо сильно ограничено, либо вообще невозможно. Примером здесь может служить стартовый этап загрузки PC, когда ещё до возможности отобразить что-либо на мониторе, BIOS подаёт звуковые сигналы во время выполнения процедуры POST, обозначающие контрольные точки тестирования оборудования и подготовки к началу работы, инициализации в памяти начальных данных. Целым направлением деятельности, соответствующем подобному случаю является отладка сложных микропроцессорных систем на основе микроконтроллеров. Зачастую такие системы имеют весьма ограниченный набор средств, отображающих информацию о том, что в данный момент происходит в контроллере. Следует отметить, что в условиях высокой производительность современных процессоров, за очень короткие времена в устройстве совершаются гигантское количество операций, отследить которые при имеющихся на платах средствах крайне затруднительно. Для этого используются специальные анализаторы и устройства синхронизации, которые по сложности порой превосходят отлаживаемую систему. Голосовые знаки, распознаваемые человеком, могли бы позволить отслеживать работу программных алгоритмов, проистекающих в микроконтроллерной системе, создавая тем самым удобную поддержку отладки в существенно новом качестве.
Таким образом, для открытия второго канала получения данных из информационного устройства необходимо создать систему, относящуюся к классу систем речевого ответа [2].
При этом надо отдавать отчёт в том, что каждая информационная система, а особенно это касается микроконтроллеров, имеют свои собственные специфические задачи, на которые должна выделяться основная часть аппаратных ресурсов разрабатываемого устройства. Поэтому, создавая системы, реализующие речевую поддержку информации, необходимо до предела уменьшить используемые ресурсы, чтобы минимально влиять на выполнение основных функций и алгоритмов, для которых создавалось устройство.
Для создания реально действующей системы обмена информацией между оператором и системой необходимо привлечение самых передовых информационных технологий. Это, в первую очередь, технология объектно-ориентированного программирования, необходима для написания качественного программного обеспечения. Кроме того широчайшее использование программного пакета для инженеров MATLAB позволит реализовать весь необходимый в расчётах математический аппарат.
Глава 1 Обзор литературы
Голосовой интерфейс для взаимодействия с компьютером – давно не новость. Он годами присутствует, к примеру, в дистрибутивах Windows. Вот только пользоваться им, как показывает опыт немногочисленных пытливых исследователей, пока не слишком удобно.
Хотя в последних версиях самой популярной операционной системы ситуация обещает измениться. В новой операционной системе Windows 7 используется важная инновация – голосовой интерфейс. Эта функция будет доступна и в других версиях программных продуктов Microsoft, в частности – в будущей версии офисного пакета Microsoft Office 2010. Распознавание речи позволит применить в программных продуктах новый тип интерфейса – голосовой, с помощью которого можно управлять компьютером без клавиатуры и мыши.
«Голос является новым типом интерфейса для операционных систем. Такой тип интерфейса представляет собой результат естественной эволюции современных способов управления компьютером вслед за клавиатурой и сенсорным экраном, – отмечает Зиг Серафин (Zig Serafin), руководитель группы распознавания голоса Microsoft. – Скоро голосовое управление станет таким же привычным способом задать команду компьютеру, каким еще недавно были клавиатура и мышь. Концепция, впервые сформулированная Биллом Гейтсом более 10 лет назад, сегодня стала реальностью».
Функция распознавания речи в Windows 7 является продолжением интерфейса, появившегося еще в Windows Vista, только улучшенного и более функционального.
Наиболее органичным выглядит внедрение нового способа общения человека с машиной в мобильных устройствах связи. Наибольшего успеха в этой сфере добилась фирма Apple, создавшая новую версию своего знаменитого смартфона iPhone: iPhone 3G S. Благодаря передовым технологиям разработки распознавателей голоса, данная модель позволяет выбирать абонента либо композицию в плейере по речевому сообщению, поступившему на динамик.
Не отстаёт в этой сфере и интернет. Продолжая экспансию на просторах сети Интернет, Google пытается сделать всю информацию как можно более доступной и легко находимой. Продвигаясь в этом направлении, Google разработал голосовой интерфейс для поисковых систем. Патент номер 7.027.987, выданный 11 апреля 2006 года Бюро Патентов и Торговых Марок США, стал для SEO-сообщества настоящей сенсацией. Это событие может показаться неожиданным, но для него были серьезные предпосылки.
Во-первых, давайте обратимся к патенту, а именно к его авторам. Моника Хензингер, Александр Франц, Брайан Мильх и Сергей Брин. Эти имена, несомненно, стоит запомнить.
Патент предлагает следующее описание интерфейса: «система, представляющая поисковые результаты по голосовым запросам». Получив устный запрос от пользователя, система выводит одну или несколько гипотез оптимального различения, каждая из которых ассоциируется с весом запроса. После этого формируется взвешенный булевый запрос на основе оптимального различения гипотез. Затем данный запрос адресуется поисковой системе, которая в свою очередь предоставляет возможные результаты поиска пользователю.
Это более сложный процесс, чем описанный в работе Александра Франца и Брайана Мильха — «Голосовой поиск в Сети», появившейся в 2002 г. Тогда авторы проанализировали трудности, возникающие на пути создания интерфейса голосового поиска. Результатом этого труда было утверждение, что интерфейс сможет правильно представить устный запрос в 10 первых гипотезах, т.е. приблизительно в 60% случаев. Для того времени это был прорыв. Прошло 4 года, за которые многое изменилось и усовершенствовалось.
Глава 2 Методика исследования и описание системы
Большинство сигналов в природе, включая речь и музыку, могут быть описаны при помощи гармонической модели, которая определяется следующим набором параметров: фундаментальной частотой, амплитудой и фазой каждой частотной компоненты. Гармонический сигнал генерируется серией синусоид или гармонических компонент, частоты которых являются целочисленным кратным некоторой фундаментальной частоты. Данная модель является весьма эффективным решением для большого количества приложений кодирования сигнала, так как позволяет представить сигнал с помощью достаточно компактного набора параметров.
Некоторые сегменты речевого сигнала сложно разделить на периодическую и апериодическую составляющие, используя гармоническую и шумовую модели. Это происходит при попадании в сегмент взрывных звуков, наличии в сегменте одновременно гласных и глухих согласных, присутствии каких-то локальных явлений. Следующей ступенью развития представления речевого сигнала стала гибридная модель [3], предусматривающая три возможных класса для сегмента речи — вокализованный, невокализованный, переходный. Особенностью ее является анализ–синтез переходных сегментов во временной области, в то время как вокализованные
Модель речевого сигнала, рассматриваемая в данной работе, предполагает классификацию речевого сегмента с точки зрения возможности декомпозиции его на гармоническую и шумовую компоненты. Признаком такой возможности является вокализованность сегмента (рис. 1).
В такой модели важнейшим аспектом является корректное определение гармонической и шумовой компонент. Существуют различные подходы к их разделению. Так, например, в [2] сегмент речи представлен суммой гармонической и шумовой составляющих, спектры которых находятся соответственно до и после так называемой максимальной частоты вокализованности. Подход [4] характеризуется определением вокализованности в определенных частотных полосах.
Рисунок 1. Схема декомпозиции речевого сигнала в вокодере, основанном на раздельном кодировании гармонической, шумовой и переходной компонент
Данные подходы не вполне адекватно описывают речевой сигнал, поскольку в них используются бинарные решения о вокализованности сигнала в целой полосе частот. Отличие рассматриваемой модели анализа–синтеза речи от вышеупомянутых состоит в использовании для декомпозиции речевого сигнала дискретного преобразования Фурье, согласованного с изменением контура частоты основного тона [5–7]. Этот подход позволяет разделить гармоническую и шумовую составляющие во всем речевом спектре.
Математическая модель упрощённа в аналитическом виде может быть представлена следующим образом:
где F
0 — частота основного тона; A
k
— амплитуда k
-й гармонической компоненты; θk
— фаза k
-й гармонической компоненты; M
— количество гармоник; F
s
— частота дискретизации.
Реализовать данную модель позволил мощнейший инженерный пакет программ MATLAB. А конкретнее пакет инструментов данного приложения: Signal Processing Toolbox. В частности алгоритмы ДПФ реализовывались встроенными функциями fft и ifft. Реализация фильтров, преобразования линейных систем, статистическая обработка сигналов и спектральный анализ, всё это смоделировано в приложении MATLAB [9]
Глава 3 Основные результаты
Основным результатом данной работы должен стать самостоятельный программный модуль, интегрируемый в систему цифрового осциллографа. Задачей этого модуля и станет обеспечение дополнительного канала связи между оператором и устройством. В идеале, обмен информацией по голосовому каналу планируется двусторонний. Однако реализация такой схемы достаточно объёмная и, во многом, нетривиальная задача. Поэтому основной упор будет сделан на разработку системы, относящейся к классу систем речевого ответа. Цифровой осциллограф сможет озвучивать результаты измерений, а также голосом выдавать собственные аналитические заключения.
Заключение
Практическое значение данной работы таково, что разработанная система речевого сопровождения измерительной информации может быть применена в проекте «Smart Home», разрабатываемого на кафедре системного анализа факультета радиофизики и электроники Белорусского государственного университета, а также в проекте «Цифровой осциллограф» кафедры информатики того же факультета. Кроме того разработанная система может стать удобным и простым помощником при отладке сложных микропроцессорных систем. А также результаты данной дипломной работы будут использоваться в лабораторном практикуме, связанном с микроконтроллерами.
А главное созданная система даёт большие возможности для дальнейшей оптимизации и адаптации под конкретные нужды пользователя.
Список литературы к реферату
1. Almeida L., Tribolet J. // IEEE Trans. on Acoust., Speech, Sig. Proc. 1983. Vol. ASSP-31, № 3. P. 664–678.
2. Stylianou Y. // IEEE Trans. on Speech and Audio Proc. 2001. Vol. 9, № 1. P. 21–29.
3. Shlomot E., Cuperman V., Gersho A. // IEEE Trans. Speech and Audio Proc. 2001. Vol. 9, № 6. P. 632–646.
4. Griffin D., Lim J. // IEEE Trans. on Acoust., Speech, Sig. Proc. 1988. Vol. 36, №8. P. 1223–1235.
5. Петровский А.А., Серков В.В. // Цифровая обработка сигналов. 2002. № 2. C. 2–12.
Предметный указатель к реферату
M
MATLAB, 8
P
PC, 3
S
Signal Processing Toolbox, 8
Г
Гармонический сигнал, 6
И
Измерительная информация, 3
М
Модель речевого сигнала, 7
П
Преобразования Фурье, 7
Р
Речь, 6
С
Слух, 3
Ц
Цифровой осциллограф, 8
Интернет ресурсы в предметной области исследования
1. http://ru.wikipedia.org/wiki/Интерфейс - Доступное и понятное определение сущности интерфейса в самой популярной интернет энциклопедии Wikipedia.
2. http://blogs.pcmag.ru/node/1105 - Несколько интересных обзорных статей, сравнивающих наиболее доступные на данный момент голосовые интерфейсы.
3. http://usethics.ru/blog/lib/future_ui/ - Ресурсы, посвящённые обсуждению и обзору новых видов интерфейсов.
4. http://weblinks.ru/blog/technopark/1794.html - Самые удачные примеры VUI по версии разработчиков.
5. http://googlesworld.wordpress.com/2006/04/12/voice-interface-for-a-search-engine-patent-won/ - Обсуждение вопросов использования голосового интерфейса в технологии интернет поиска
6. http://www.biometricnews.net/articles/Biometrics_Article_Voice_Recognition.pdf - Обсуждения использования распознавания голоса в биометрических технологиях
7. http://www.sasked.gov.sk.ca/docs/physics/u5c42phy.html - Страница, посвящённая рассмотрению роли гармонического анализа голоса.
8. http://journals.aip.org/ - Ссылка на сайт он-лайн журнала американского акустического общества.
Действующий личный сайт в
WWW
http://nastya-sheybak.narod.ru/ - личный сайт, посвящённый магистерской работе автора.
Граф научных интересов
магистранта Шейбак А.Н. факультета Радиофизики и Компьютерных технологий
специальности компьютерная безопасность
(аппаратное и программно-техническое обеспечение информационной безопасности)
Смежные специальности
|
Основная специальность
|
Сопутствующие специальности
|
Тестовые вопросы
по предмету «Основы информационных технологий»
Вопрос 1. Какие виды интерфейсов взаимодействия человека и компьютера можно отнести к графическим?
1. Интерфейс командной строки
2. GUI
3. Touch screen
4. VUI
Вопрос 2. Перечислите интернет технологии которые появились с приходом Web 2.0.
1. Flash
2. Javascript
3. AJAX
4. OpenID
Презентация
магистерской диссертации
Презентацию магистерской диссертации можно скачать по ссылке в Интернете или посмотреть в приложении
.
Список литературы к выпускной работе
1. Almeida L., Tribolet J. // IEEE Trans. on Acoust., Speech, Sig. Proc. 1983. Vol. ASSP-31, № 3. P. 664–678.
2. Stylianou Y. // IEEE Trans. on Speech and Audio Proc. 2001. Vol. 9, № 1. P. 21–29.
3. Shlomot E., Cuperman V., Gersho A. // IEEE Trans. Speech and Audio Proc. 2001. Vol. 9, № 6. P. 632–646.
4. Griffin D., Lim J. // IEEE Trans. on Acoust., Speech, Sig. Proc. 1988. Vol. 36, №8. P. 1223–1235.
5. Петровский А.А., Серков В.В. // Цифровая обработка сигналов. 2002. № 2. C. 2–12.
6. Petrovsky A., Zubricki P., Savicki A. // Proc. Europ. Conf. on Circuit Theory and Design. 2003. Vol. 3. P. 169–172.
7. Sercov V., Petrovsky A. // Proc. EUROSPEECH’99. 1999. P. 1479–1482.
8. Gersho A., Gray R.M. Vector Quantization and Signal Compression. Kluwer
9. Солонина А.// Цифровая обработка сигналов. Моделирование в MATLAB, 2008, М.
Приложение
Презентация магистерской работы