по проекту № 1284
«Автоматическая интерпретация просодического оформления высказывания
»
аналитической ведомственной целевой программы “Развитие научного потенциала высшей школы (2009-2010 годы)”
мероприятие: Мероприятие 2
.
Проведение фундаментальных исследований в области естественных, технических и гуманитарных наук. Научно-методическое обеспечение развития инфраструктуры вузовской науки.
раздел: Раздел 2.1
. Проведение фундаментальных исследований в области естественных, технических и гуманитарных наук.
подраздел: Подраздел 2.1.3
. Проведение фундаментальных исследований в области гуманитарных наук.
Руководитель П.А.Скрелин
Отчет _75
_ с., _4_ ч., _28
_ рис., _5
_ табл., _31
_ источников, _0
_ прил.
<Фонетика, фонология, интонация, цифровая обработка сигнала, автоматическая обработка данных>
Объектом исследования
является интонационное оформление высказывания, его мелодические, темпоральные и спектральные характеристики.
Целью проекта
является разработка системы функциональных интонационных моделей и их просодических коррелятов, а также процедур для автоматического определения интонационного оформления высказывания на основе характеристик изменения частоты основного тона, длительности и интенсивности. Для достижения этой цели должен быть решен ряд задач: описание моделей просодических типов в функциональных и перцептивных терминах; автоматическая стилизация кривых изменения частоты основного тона; автоматическое определение функционально важных просодических характеристик высказывания: формы мелодического контура и места интонационного центра; построение эталонных моделей просодических типов на основе акустических характеристик речевого сигнала и их возможных вариантов, зависящих от длины, сегментного состава и акцентно-ритмической организации интонационных единиц; автоматическая интерпретация просодического оформления высказывания в терминах определенных ранее просодических типов. Выделенные в ходе автоматического акустического анализа признаки должны систематически сопоставляться с результатами аудиторского эксперимента в целях проверки их перцептивной значимости и обеспечения достоверности результатов обработки.
Повышенный интерес к фонетическому анализу целого текста, а не отдельных фраз, который наблюдается в последнее время, объясняется необходимостью поиска новых методов решения прикладных задач моделирования интонации, создания систем компьютерного синтеза и распознавания речи. Эти методы противопоставляются традиционному структурному методу анализа звуковых единиц, который ограничивает изучаемый материал отдельным высказыванием. По мере укрупнения речевых единиц, усложняется их структура, что отражается не только на сегментном составе, но и на разнообразии супрасегментных средств. В тексте все высказывания связаны между собой не только при помощи лексико-грамматических и синтаксических средств, но и посредством интонации. Для оформления фонетической целостности и обеспечения связи различных отрезков текста используются все компоненты интонации, которые не только берут на себя функцию средства связи одного отрезка с другим, но и, в известной степени, прогнозируют семантическую структуру последующих частей текста.
Основными теоретическими результатами
этого этапа стали две системы описания интонационных типов высказываний: перцептивная и функциональная, которые вместе дают всестороннее фонологическое описание системы интонационных типов русского языка.
Практическими результатами
является набор алгоритмов процедур автоматической обработки речевого сигнала с целью выделения акустических характеристик, на основе которых будут строиться акустические модели интонационных типов. Алгоритмы были разработаны и реализованы в виде программ на языках MatLab и Perl. Также была начата работа по разработке и реализации процедур акустического моделирования и автоматической интерпретации интонационного оформления высказывания.
В соответствии с техническим заданием
были получены следующие научные и научно-технические результаты
.
Был разработан алгоритм
(см. инфо. карту п. 10
) акустического описания и моделирования интонационных моделей, основанный на акустические характеристики, описанные в первом разделе данного отчета. Для статистической обработке данных использовались деревья регрессии и классификации. На основе анализа экспериментальных результатов были определена значимость акустических характеристик для классификации интонационных моделей. Предварительные результаты интерпретации интонационных типов также оказываю
В соответствии с техническим заданием
были получены следующие результаты в системе образования
.
Напечатана одна публикации в ведущих научных журналах
(см. инфо. карту п. 10
) Это статья Филясовой Ю.А. Сегментные факторы акцентной выделенности. Часть 2. // Вестник СПбГУ, 2009, № 1, Ч. 2., стр. 174-185. Была подготовлена и отдана в печать в ведущий научный журнал одна публикация
(см. инфо. карту п. 10
). Это статья Филясовой Ю.А. Восприятие слов с акцентным выделением в особых экспериментальных условиях (на материале английского языка) // Вестник СПбГУ, 2009, № 3, Ч. 2., (в печати).
Помимо публикаций в ведущих научных журналах были опубликованы
две статьи в сборниках трудов научных конференций
:
Вольская Н.Б., Скрелин П.А. Система интонационных моделей для автоматической интерпретации интонационного оформления высказывания: функциональные и перцептивные характеристики // Труды третьего междисциплинарного семинара «Анализ разговорной русской речи» (АР3
-2009), СПб, 2009; Скрелин П.А., Кочаров Д.А. Автоматическая обработка просодического оформления высказывания: релевантные просодические признаки для автоматической интерпретации интонационной модели // Труды третьего междисциплинарного семинара «Анализ разговорной русской речи» (АР3
-2009), СПб, 2009;
Результаты исследований
по этому проекту были представлены на междисциплинарных и международных конференциях и научных семинарах
:
1. Вольская Н.Б., Скрелин П.А. Система интонационных моделей для автоматической интерпретации интонационного оформления высказывания: функциональные и перцептивные характеристики // Третий междисциплинарный семинара «Анализ разговорной русской речи» (АР3
-2009), СПб, 26-27 августа, 2009;
2. Скрелин П.А., Кочаров Д.А. Автоматическая обработка просодического оформления высказывания: релевантные просодические признаки для автоматической интерпретации интонационной модели // Третий междисциплинарный семинара «Анализ разговорной русской речи» (АР3
-2009), СПб, 26-27 августа, 2009;
3. Kocharov D. A Acoustic Modeling of Prosodic Information // Russian – Finnish Phonetic Seminar, Saint-Petersburg, 16-17 November, 2009;
4. Filyasova Yu. Degrees of prominence: perceptual evidence from English // Russian – Finnish Phonetic Seminar, Saint-Petersburg, 16-17 November, 2009;
Разработанные программы отличаются
высокой скоростью обработки материала. В ходе проводившихся экспериментов выделение мелодических характеристик 5 часов речи занимало примерно 5 минут, что говорит о скорости около в 50-70 раз большей скорости реального проигрывания речевого сигнала. Это как минимум в 100 раз быстрее ручной разметки речевого корпуса того же объема. Параметр скорости очень важен в речевых технологиях, особенно при использовании систем в реальных условиях, когда пользователь хочет получить отклик менее чем за секунду. На данной стадии разработки процедуры обработки речевого сигнала и выделения акустических характеристик полностью работают. Разработанные системы интонационных типов активно используются для разработки системы акустического моделирования интонационных типов.
Результаты
исследований, полученные в рамках работы над проектом, к которым относятся выделенные акустические признаки речевого сигнала, алгоритмы вычисления акустических признаков и программы, реализующие эти алгоритмы, планируется использовать
в исследованиях современной русской речи в разных типах ее произнесения, акустической классификации интонационных единиц, а также для автоматической сегментации речевых корпусов на интонационные единицы с лингвистической интерпретацией их коммуникативного типа.
На следующем этапе предполагается
, используя полученные результаты, провести сопоставительный анализ интонационных и акустических (просодических) описаний, целью которого будет их коррекция. В результаты будет получена система соотнесенных друг с другом интонационных и просодических описаний высказываний. Разработанная методика обеспечит надежность автоматического извлечения и интерпретации полезных фонетических признаков из речевого сигнала, что приведет к автоматической интерпретации интонационного оформления высказываний на основе содержащихся в сигнале акустических (просодических) характеристик.