Реферат на тема:
Подходи за разпознаване статични пози на ръката в произволна среда
Надежда Златева – докторант към ИИТ-БАН
1. РЪКАТА – СРЕДСТВО ЗА КОМУНИКАЦИЯ
В ежедневната ни комуникация ръцете играят много важна роля: ние не само ги движим, но и обменяме информация, като изразяваме смислени жестове: палец нагоре в смисъл на „да”, вдигната длан в смисъл на „стоп”, махане с ръка за поздрав, задаване на n
бройка от нещо с вдигането на n
пръсти, посочване на обект към който да обърнем нечие внимание. Затова и не е странно, че значителна част от проучванията в сферата на взаимодействието човек-компютър търсят начин да имитират възприемането на жестове на ръката, подобно на начина, по който ние хората ги разбираме в ежедневните си задачи.
Настоящите широко разпространени технологии (базирани на клавиатура, мишка и монитор) не използват пълния потенциал на интерактивността базирана на ръцете. Компютърната мишка ограничава движенията до двумерно пространство, като натискането на бутони е единственият използван жест. Тъй като повечето модерни интерфейси са основно фокусирани около понятието за контрол, за да се случи някакво действие потребителя изрично трябва да придвижи мишката, да натисне бутон, то може да се каже че концепцията за съобразяване с присъствието на потребителя, неговата локация, поза, идентичност, изражение, и др. напълно липсва. Друг проблем с разпространените компютърни интерфейси е, че те не са еднакво пригодени за употреба от физически затруднени хора, за които биха били подходящи други средства (извън мишката и клавиатурата) за въвеждане на команди или данни в компютъра. Пример за няколко такива средства в помощ на затруднените потребители са жестове, реч, модули с докосване. С използването на Компютърно Зрение компютъра може да разпознае и изпълни жестови команди, зададени от потребителя, като по този начин се измества нуждата от клавиатура.
Новите изчислителни среди, които започнаха да се появяват и ще продължат да се разпространяват, ще разполагат с широка гама от форми, употреба, сценарии за взаимодействие и интерфейси, даващи предимство на естествените човешки умения за комуникация като реч, жестове, лицеви изрази, докосване. Те ще допълнят съществуващите методи за взаимодействие с компютрите и ще допринесат до появата на нови функционалности, които са били невъзможни или неудобни досега.
Докато хората вземат за даденост възможността си да проследяват човешката ръка и да разпознават направените жестове, като се позовават единствено на визуалността, то тази задача е тежка и трудно изпълнима от компютъра. Имайки в предвид, че: всеки пръст разполага с три стави, които му осигуряват 4 степени на свобода (DоF); при палеца степените на свобода са общо 5; безименния и кутрето разполагат с допълнителна 1 DoF в основите си, то цялостната конфигурацията на пръстите има 23 DoF. При добавянето на 4 DoF на китката в 3D пространството, получаваме приблизително около 27 DoF [14]. Като се добавят вариациите във формата и размера и цвета на кожата при различните хора, влиянието на осветеността на сцената и сложността на окръжаващата среда, в която се движи ръката, то сложността на задачата става очевидна. Поради тези големи вариации, устойчивостта на една система за разпознаване на жест или поза на ръката е от основно значение и приоритет в допълнение към необходимостта от бързодействие.
През последните години разпознаването на жестове чрез статична камера е широко изследван проблем. Много от настоящите методи използват сравнително сложни 3D модели на ръце в динамика, които са съпроводени от заплетени методики за решаване на основния нетривиален проблем: разпознаване при едновременно движещи се камера (окото на слушателя) и актьор (говорещият) в случайна среда. Този проблем може да се сведе до задача за откриване на тенденция в положението и формата на ръцете в някаква сложна среда, където сегментирането на ръката и класифицирането (интерпретирането на семантичното значение) на позата са фундаментални стъпки.
2. ПРИЛОЖЕНИЕ
Автоматичното определяне на очертанията (позата) на ръката е съществено в много практически приложения като видео наблюдение, разпознаване на жестове, мултимодални машинни интерфейси. Последните можем да определим като приложения в сферата на Взаимодействие Човек-Машина
на базата на жестова комуникация чрез конкретен жестов команден език или такъв, сформиран от речник от пози на ръката. Използва се като алтернатива и допълнение на друга важна модалност – речта. Следните примерни демонстрират широкия диапазон на приложимост на комуникацията с ръце и фундаменталността на разпознаването на ръката:
Обучение на ново поколение интелигентни роботи
, които могат да се научат как да боравят с обекти в дадена среда, като наблюдават как хората манипулират тези обекти. Тук, подобно на домашните роботи, от основно значение е възможността за просто, неограничено и естествено взаимоотношение между машината и нейните потребители. А базата за уместните действия на роботите е наличието на изчерпателен модел на съответното обкръжение и среда и най-вече на хората и поведението им в нея. Този тип взаимоотношение изисква например умението за разпознаване и интерпретация на реч, жестове или емоции. По отношение на ръката, едни от често използваните интуитивни жестове по време на човешката комуникацията са посочващите жестове
, които позволяват интуитивно показване на обекти и тяхното положение и могат да се интерпретират като команди за посока на движение на робота или просто за маркирането на определени обекти. Това е особено полезно в комбинация с разпознаването на реч, тъй като посочващите жестове могат да определят параметри на местоположение на обекти от вербални изрази (например израза „Сложи чашата там!”). Много по-лесно и точно е посочването на обект, отколкото даването на вербално описание за позицията му. В допълнение, командния език на ръката (било в пози или жестове) е много полезен в шумни среди
, където речевата модалност не би могла да се използва.
Дистанционно представяне на презентация
, като потребителят (под видео наблюдение) задава команди за презентацията, като посочва предефинирана активна зона от нея, а след това извършва и желаната команда. Набора от команди могат да включват команди за следваща и предишна страница или глава, таблица със съдържанието, отбелязване на страница и подчертаване на зона. За момента такава система е реализирана, но тя използва инструментална ръкавица за измерване на сгъването на пръстите и позицията и ориентацията на ръката в 3Д пространството.
Реализация на високо стерилни среди
, където докосването на екран, клавиатура или мишка е немислимо, а работа в реално време е задължителна. Такъв тип среда е хирургичната зала, където се налага многократно анализиране на скенерни и томографски изображения. Система, използваща разпознаване на команден език от жестове и пози на ръката, е в състояние да осигури необходимата стерилна среда. Набора от команди може да включва показване на предишна или следваща снимка, увеличаване или свиване на изображението, избиране на конкретна зона за манипулация.
Внасяне допълнителна модалност в интелигентни домове и среди
, които добиват все по-голяма популярност като домове на бъдещето. По известни са реализациите, при които навсякъде в дома са заложени сензори и компютри с радио комуникация, които оперират съвместно и обвързват различни домашни уреди и мебели. Могат да се контролират дистанционно чрез мобилни устройства (PDA, GSM) или модул с докосване, инсталиран в дома. Заложените компютърни системи определят дали има човек в дадено помещение и вземат решение за конкретно поведение, например светване или изгасване на лампа, включване на радио или телевизор. Напоследък добива все по-голяма популярност и възможността за интерактивност в интелигентните домове чрез гласови команди или жестове на ръцете. Например, докато гледа телевизор през медиа център, потребителят би могъл да смени каналите или да увеличи звука, като използва определен команден език от пози на ръката, а показалецът да служи като дистанционен заместител на мишката за избиране на менюта или бутони. По подобен начин, с обща система за разпознаване на ръцете, може да се контролират светлинните източници и други уреди.
Разпознаване езика на глухонемите
, който е основно средство за комуникация между слухово затруднените хора. Езикът на знаците е най-добрият пример за комуникация чрез жестове, който позволява хората да обменят информация по невербален начин. Може да се въведат следните дефиниции: поза – определя дадена позиция на ръката и пръстите в сцената; жест – времева поредица от пози. Езикът на знаците се състои от два основни компонента: 1) знаков речник на ниво дума, където се използват не само пози, но и жестове за изразяване на най-често срещаните думи, като е възможна употребата и на двете ръце и 2) дактилна азбука, където пръстите на едната ръка се използват, за да се спелуват буква по буква лични имена или неясни думи. Лицеви изражения също могат да се използват за различаване на твърдения, въпроси и директиви.
През последното десетилетие са вложени много усилия в разработката на автоматични системи, способни да превеждат езика на глухонемите до глас или текст, целящи да улеснят взаимоотношенията между глухи и чуващи. Значителни изследвания са проведени и на двете нива - азбука и дума, като естественото развитие на една системата за разпознаване на дактилната азбука е разпознаването на езика на глухонемите, а в перспектива – превода на цели изречения в естествена среда и интегрирането на системата към мобилни телефонни устройства. До момента, най-успешните подходи се базират на сензорни ръкавици, които доставят информация за позицията на пръстите. Основните проблеми на повечето системи, които не използват сензорни техники, а се базират на визуални подходи за разпознаване на азбуката, са свързани с разпознаване на знаци с припокриващи се пръсти – чест сценарий в повечето дактилни азбуки. Също така, някои знаци могат да изглеждат доста подобни един на друг, макар и да имат малки разлики в позицията на пръстите, което представлява допълнително предизвикателство за визуалните подходи.
Определяне на психологичен профил
на база анализ на ръката и характерни елементи от поведението на даден човек. Например, показването на показалец по време на разговор може да се интерпретира като силно изтъкване и лична власт или наблягане значимостта на някакво твърдение; отваряне на дланите пък определя отвореност към идеи, докато слабо подвижните или свити ръце се интерпретират като консерватизъм и затвореност. Изследвания посочват, че дори начина на държане на вестника дава информация за човешкия характер.
3. ЗАДАЧИ
Използването на жестове предлага атрактивна алтернатива на отежняващите сензорни оборудвания за комуникация между хората и компютрите. Визуалната интерпретация на ръката позволява мигрирането на естествените средства, които хората използват за комуникация помежду си и върху комуникацията с машините. За разпознаването на жестове една система трябва да е в състояние да определи в какво състояние е ръката: дали е неподвижна, в поза начало, край или междинна. С други думи, в основата лежи задачата за определяне уникалната поза на ръката, а тя може да съдържа следните фази, в зависимост от конкретната реализация: локализиране (дали ръката я има или не на сцената), сегментиране (отделяне района на ръката от общият фон/сцена), оконтуряване, скелетизиране, триангулация, изваждане на характерни точки (характеристичен вектор), интерпретиране на семантичното значение на знака - класифициране спрямо мярка за близост до предварително съществуващи образци, модели или характеристични вектори.
При изграждането на визуална система за локализиране на ръка и разпознаване на нейната поза (форма или знак) трябва да се наблегне и на нейната устойчивост на вариации в околната среда, тъй като изискването за постоянен или еднообразен фон би я направило недостатъчно гъвкава за повечето реални приложения. Необходимо е да се вземе в предвид, че: при една произволна сложна сцена на места ръката може да попада върху светъл фон, а на други - върху тъмен; границата на ръката може да бъде неразличима там, където ръката и фона имат един и същ или подобен цветови интензитет; части от сцената могат да бъдат лъжливи обекти и съответно да бъдат грешно причислени за части на ръката.
Други предизвикателства пред задачата за разпознаване на статична поза на ръката са:
- дискриминиране на конфигурации с висока степен на препокриване на пръстите: често ръбовете във вътрешността на ръката остават неоткрити поради ниската вариация на интензитета на цвета на кожата на местата с препокриване, а в същото време ръбовете на ноктите и гънките на кожата могат да объркат структурата на сцената и самият процес на разпознаване.
- различия в размера, формата и ориентацията на дланта между хората
- изграждане на цветови модел, който да е значително гъвкав по отношение на различните цветове на кожата – понякога осветеността се оказва по-голям фактор за точното локализиране на ръката от самия цвят на кожата. В този смисъл е необходимо и намаляване влиянието на осветеността и сенките върху сцената
- оценяване вероятността даден район от сцената да принадлежи на кожата (изследване на свързаните компоненти)
- определяне на съществени характеристични точки на ръката
- инвариантност по отношение на транслация, ротация, скалиране
- локализиране на дланта, т.е. игнориране на областта на ръката в изображението, съдържаща частта от рамото до китката
- намиране на адекватно решение при препокриване на съществена част на ръката (китката) от ръкав на дреха
- бързодействие, с цел приложимост в реално време – съблюдаване времевите ограничения, поставени от конкретното приложение
- избиране на позиция на камерата и общия ъгъл на снимане на ръката; точна калибровка или стабилност спрямо позицията и ориентацията на камерата
- избиране на подход за класифициране
Горе изброените подзадачи е възможно да наложат приемането на някои леки допускания за сцената, ръката или камерата – с цел решаването на общата задача. Например приемане, че сцената съдържа ръка, разположена фронтално и успоредно на камерата, при еднородна осветеност, а дланта заема значителна част от изображението.
4. ОБЗОР
Съществуват два основни подхода за въвеждане на жестове за разпознаване: чрез преки приспособления и на базата на визуален вход.
4.1 Сензорни подходи
Подхода на преките механизми използва набор от комерсиално налични инструментални ръкавици, сензори за прегъване, проследяване на движения на тялото, и др. Някои от предимствата на преките механизми като инструменталните ръкавици включват: директно измерване на параметри на ръката и пръстите (например ставни ъгли, въртене на китката и 3D пространствена информация), получаване на данни с висока честота на наблюденията, избягване на проблеми с препокриване. Недостатъците включват: намалена област на движение и комфорт, висока цена на прецизните системи. Примери за системи за разпознаване чрез инструментални ръкавици са дадени в [5]:
- Опростената
ръкавица на Райън Патерсън
[1] за разпознаване на дактилната азбука е с 10 сензора, малка платка съдържаща микроконтролер, аналого-цифров преобразувател (АЦП) и радио-честотен предавател към мобилно устройство, което показва жестикулирания текст върху екрана. Ръкавицата се тренира индивидуално по подобие на програмите за разпознаване на глас, като тренировъчният процес е кратък и се провежда на компютър. Обучените данни се свалят на преносим приемник. Макар и ръкавицата да е предназначена за разпознаване на дактилната азбука, тя може да се препрограмира, така че даден знак да означава дума.
- CyberGlove
[2] – 18 или 22 сензора за прегъване, които измерват с висока точност до 22 ставни ъгли. Сензорите включват и такива за измерване на отклонението на пръстите и китката, преминаването на палеца, извиването на дланта и китката. Ръкавицата предава данни към компютъра безжично по Bluetooth (безжичен протокол за обмяна на данни чрез радио комуникация) . Използва се активно в анимацията, биомеханиката на среди с Виртуална Реалност. Такава е и играта SMILE (S
cience and M
ath in an I
mmersive L
earning E
nvironment), която създава 3D фентъзи виртуална среда за образователни математически и научни задачи за глухи и чуващи деца [6]. Самото разпознаване на статичните и динамични жестове се осъществява чрез предварително обучени невронни мрежи за всеки знак (с по 18 входни неврона за 18-те ъгли, извлечени като сензорни данни). Тестовата извадка за всеки знак е събрана от 5 актьора, извършващи знака три пъти.
- VPL DataGlove
[3] – подобно на CyberGlove, се състои от fiber-оптични сензори за измерване ъглите на прегъване на пръстите. Необходимо е прекалибриране за всеки индивидуален потребител, в противен случай при по-големи или по-малки ръце, системата не би възпроизвеждала много точни жестове.
- AcceleGlove
[4] – „механични скелети” или сензори разположени директно върху ставите на дланта. Сензорите са двуосови акселерометри, които дават информация за позицията по отношение на гравитационния вектор и могат да се използват за измерване на абсолютната ъглова позиция. AcceleGlove не е точно ръкавица, а набор от сензорни пръстени, което я прави независима по отношение размера на ръката. Дава информация за формата на ръката и нейната ориентация в 12 байтов вектор.
4.2. Визуални подходи
Визуално базираните подходи използват една или повече камери за получаване изображения на ръката, които се интерпретират до извличане на визуални характеристики за разпознаване на жестове. Най-често използваните техники за разпознаване са анализ на 3D модел на ръката, анализ с използване на маркери и маркирани ръкавици, и анализ базиран на характеристики на изображението. Основното предимство на визуално-базираните системи е, че потребителят остава необременен с външни уреди. Основните недостатъци включват: комплексни изчислителни изисквания за извличане на използваема информация, проблеми с препокриване на пръсти, чувствителност към осветеността.
Още през 1992 се разработва камера, която се фокусира върху човешка ръка, носеща ръкавица с маркировки на върха на всеки пръст, а по-късно през 1994 и върху ръка с цветни пръстени около всяка става [5]. Комбинирането на този подход с филтриране по Калман опростява проблемите с препокриване и позволява възстановяването на детайлен модел на ръката при голям обхват на движение. През 1995 Starner започва разработването на система, която в началото си изисквала жестикулиращият да носи две различно оцветени ръкавици, а в последствие нуждата от ръкавици отпада. При тази система камерата се поставя или върху бюро или е монтирана върху шапка, носена от жестикулиращия [8].
За сегментирането на ръцете се сканира изображението до намирането на пиксел с подходящ цвят, т.е. съответстващ на цвета на кожата на ръката по предварително зададен модел. Този пиксел се използва като зърно и района около него се разширява чрез проверка на осемте най-близки съседа за подходящ цвят. Всеки проверен пиксел се счита за част от ръката. Тази операция всъщност извършва морфологична дилатация върху резултантното изображение и спомага за избягване на отклонения в ръбовете и осветеността. При разглеждане на динамични жестове във видео клип, за зърно в следващ фрейм се използва изчисления центроид на вече намерения регион на ръката в настоящия фрейм.
Напоследък се появяват и системи за въвеждане на жестове, които комбинират визуалнo и инструментално базирани техники с цел събирането на повече информация относно жестовете, което спомага за по-точното им разпознаване. Такава хибридна система е представена в [10].
Методите за разпознаване варират в зависимост от това дали знаците представляват статични пози на ръката или динамични жестове. За разпознаването на статични знаци могат да се използват следните техники [6]: сравняване с еталони, класифициране по геометрична характеристика, невронни мрежи, както и други стандартни методи за разпознаване на образци за класифициране. Разпознаването на динамични жестове е по-сложно, тъй като изисква вземането в предвид времеви събития. Обикновено се осъществява с използването на техники като: времево компресиращи образци, динамично изкривяване на времето, скрити Марковски модели (HMM) [7, 8], и Бейсови мрежи.
4.3 Разпознаване на статични знаци
Статичните пози са важна част от една система за разпознаване на динамични жестове, затова и във фокуса на този обзор са методите за разпознаване на статични пози чрез визуално базирани подходи. Предизвикателствата, пред които трябва да се изправи една такава система са: да бъде независима по отношение на жестикулиращия, т.е. да се справя с геометричните отклонения породени от различната анатомия на ръката или различното изпълнение на знаците от различни хора; да се справя със сложен, многоцветен фон, който затруднява сегментирането на ръката. По-долу са представени четири подхода, насочени именно към преодоляването на тези проблеми. Всеки от тях представя интересна техника за обработка и класифициране на позите.
Okapi-Chamfer Matching
[12]. Авторите формулират проблема за разпознаване на статична поза на ръката в проблем за извличане на текст, като така създават възможност за интегриране на някои мощни техники за търсене на текст с техники от компютърното зрение. В подхода локалните визуални характеристики се третират като терми, обучаващите изображения като документи, а входните изображения - като заявки. Алгоритъма се базира на техниката на обратно/инвертирано индексиране, ефективно използвано при организирането на колекции от текстови документи. Чрез обратното индексиране се осъществява достъп и търсене на подобие единствено в документи, съдържащи термите на заявката. За да се осъществи обратното индексиране в база от изображения, се построява лексикон от локални визуални характеристики чрез клъстеризиране на характеристиките, извлечени от обучаващите изображения.
Алгоритъма за разпознаване на дадено тестово изображение включва следните стъпки: областта на ръката се сегментира от входното изображение чрез хистограми на цвета на кожата; сегментираното изображение се бинаризира и разделя на подпрозорци с размери 24x24 пиксела, така че минимум 20% и не повече от 80% от пикселите в прозореца да принадлежат на ръката, като по този начин се елиминират прозорците, които са почти изцяло в ръката или във фона; за всеки прозорец се извличат визуални характеристики (локален дескриптор) и се квантуват на базата на лексикона, след което чрез обратно индексиране се идентифицира набора от обучаващи изображения с ненулев коефициент на подобие. За изчисляване на коефициентите на подобие се комбинират модифицирана Okapi теглова формула (само с положителни стойности) и Chamfer distance подхода за измерване на подобие на криви, който взема в предвид пространствената информация при положението на термите. Подхода позволява бързо и прецизно разпознаване на пози на ръката от големи бази с изображения, като се използва само силуета на ръката.
За разлика от традиционните подходи, базирани на глобални измервания при намиране на подобие на обекти, Okapi-Chamfer Matching алгоритъма сравнява групи от локални характеристики и по този начин е по-устойчив при неточно сегментиране на ръката. В допълнение, локалните характеристики позволяват покриването на по-широка област от деформации на формата на ръката. За да се подсигури инвариантност по отношение на ротация в равнината на сцената, скалиране и 2D транслация, всеки локален дескриптор се маркира с пространствен етикет, носещ относителната пространствена информация за дескриптора.
За тестване на подхода се създава обучаваща база от 16 384 изображения (1024 форми на ръката снимани от 16 различни ъгъла), които са генерирани чрез 3D кинематичен мрежов модел на ръката. Използваните тестови изображения са както синтезирани, така и реални снимки на ръката. В последния случай, геометрията на ръката е малко по-различна от тази на 3D модела, затова и пръстовите конфигурации (използвани за изчисляване на минимална квадратична грешка след намиране на подобно изображение) се маркират ръчно, което е времево скъп и предразположен на грешки процес. Поради това, тестовете по отношение на реални изображения не са много обширни.
Подход с Проек
[13]. Представен е прост алгоритъм за класифициране в реално време на изолирани знаци от дактилната азбука, който е базиран на 2D проекция на Ойлерови ъгли. За да се достигне до тези ъгли, дадено входно изображение подлежи на следната обработка: локализиране областта на ръката чрез използването на Гаусов цветови модел на кожата на ръката и изчисляване вероятността даден пиксел да принадлежи на кожата; оконтуряване на ръката чрез анализ на свързаните компоненти в бинарното изображение и намиране на най-големия компонент с цвета на кожата; определяне на характерните точки (на база на кривината) и приблизителния център на дланта, като ръката се разглежда до китката; изчисляване на проектираните Ойлерови ъгли, които се използват като точки в ниско-мерно пространство, като мерността зависи от броя на издадените пръсти.
Класифицирането се осъществява на база на предварително създадена база от по 3 изображения на жест, като за всеки жест се изчисляват 2n+1
ъгли, където n
е броя на издадени пръсти. Така ъглите формират характеристичен вектор, а сравняването за подобие се ограничава върху набора от изображенията, които са в едно и също n мерно пространство (брой удължени пръсти) с входната поза.
В алгоритъма се приема, че всеки съществен фрейм от дадено видео съдържа ръка, която е разположена фронтално-паралелно на камерата, осветена е равномерно, заема значителна част от изображението и е в сравнително изправено положение. Предложеният подход постига 91% успех в класифицирането, и макар и идейно прост демонстрира, че правилният избор на характеристики играе важна роля в разпознаването. Предимствата на подхода са, че: работи сравнително бързо, не налага ръчна интервенция по време на фазите на обучение и тестване; не изисква избор на теглови параметри за използваните филтри. Тъй като прецизната сегментация на ръката не е била приоритет за авторите, тази стъпка от алгоритъма е сравнително чувствителна по отношение на осветеността на сцената, и би могла да доведе до лошо клъстеризиране при слаба осветеност и съответно подвеждане на алгоритъма.
Elastic Graph Matching (EGM)
[9] – архитектура вдъхновена от теорията за невронна обработка на информацията, но по същество подобна на други подходи за еластично сравнение. Представя различните изгледи на обектите като маркирани графи с двумерна топология. Възлите на графа са маркирани с локално описание на изображението, а ребрата – с вектор на разстоянието. Еластичното сравнение на модел на граф с входно изображение представлява търсене на този набор от позиции на възлите, така че едновременно да са удовлетворени следните ограничения: 1) локалното описание (локална информация за изображението) свързано с всеки възел да е подобно на областта от изображението около позицията, в която е сложен възела и 2) графа не е много изкривен, т.е. разстоянието между подбраните позиции на възлите не трябва да се различават твърде много от оригиналните разстояния. Тези изисквания са отразени с дефинирането на функция на подобието за възлите и оценъчна функция за ребрата на сравнявания граф.
В EGM за локално описание на изображението се използва Gabor Jet,
базиран на уейвлет трансформация с комплексни филтри на Габор. Един jet е комплексен вектор, съставен от 24 отговора на комплексни филтри (използват се филтри с 3 различни размера и 8 ориентации). Габор базираните филтри имат формата на равнинни вълни, ограничени от Гаусова покриваща функция, а формата им наподобява рецепторното поле от неврони във визуалния кортекс на бозайниците. За да се осъществи сравнението на jet-овете на графа с точки от изображението, се изчисляват jet-овете за всяка точка от изображението и се сравняват с тези на графа, като се използват две функции на подобие, които са с различни свойства. Коефициента на подобие е между нула и едно.
Една от целите на подхода е да се разпознава позата на ръката при сложен фон. Тъй като ръката може да бъде отчасти върху по-светъл и отчасти върху по-тъмен фон, се въвежда концепцията bunch-graph
или куп от графи при представянето на поза на ръката. По този начин се отразява естествената променливост в jet-овете на съответните точки в няколко изображения, с други думи – всеки възел се маркира с колекция от jet-ове вместо само с един.
Модел на графа на дадена поза се задава ръчно, като за възли се избират такива позиции, които да лежат на ръба на ръката и при високо текстурни места в ръката. Обучаващата извадка се формира, като всяка поза се показва от три различни физически лица и се заснема съответно върху светъл и тъмен фон. Ръчно моделирания граф при първото изображение се поставя върху всяко следващо изображение като начално предположение и при необходимост се донастройва че възлите да попадат върху коректни части на ръката.
Еластичното сравняване на даден граф с входно изображение включва следните стъпки: грубо позициониране на графа; сканиране на изображението на груби стъпки от по 5 пиксела в двете посоки и изчисляване коефициента на подобие; скалиране на графа с възможност за разширение до 20% и свиване до 10% без относителни промени в дължината на ребрата (за компенсиране на големината на ръцете на различните субекти и за различно разстояние от камерата); възможност за транслиране на позицията на графа до 6 пиксела; равнинна ротация до 15º в равнината на изображението и около центъра на тежестта на графа; локално разсейване на отделните възли с възможност за транслация на позицията им с един пиксел, за да се компенсират остатъчни геометрични отклонения.
За класифицирането на едно изображение се изчисляват стойностите на подобие при всеки куп от графи за всички пози. Избира се позата, чийто модел на граф има най-голямо подобие.
За да постигнат по-голяма устойчивост по отношение на сложния фон, авторите развиват метода до включването на повече типове характеристики, които се извличат за всички възли на графа. Въвеждат понятието за съставен jet (съответно и за съставен куп от графи), който се състои от свързването на няколко локални описания на изображението в даден възел, но с различни характеристики. Разглежданите характеристики в конкретния подход и в допълнение към Gabor jet са: усреднен цвят за локални области с размер 3x3 пиксела; цветови Gabor jet – конволюцията се извършва върху изображения, отразяващи подобието на интензитета на всеки пиксел с цвета на кожата. Тези характеристики са съпроводени и от съответни функции за подобие. По този начин, процента на успешно разпознатите пози значително се увеличава.
Извън фокуса на EGM подхода са: работа в реално време, естественост на жестовете, устойчивост при променливи осветеност. Предимствата му са, че притежава вградена възможност да се справи с геометрични отклонения, не изисква перфектно сегментирано входно изображение, елегантно представя вариациите във визията на обекта, като използва метода на купа от графи. Тъй като при всички стъпки на сравнение EGM използва метода на грубата сила за изчерпателно търсене в ограничена област, този подход е доста скъп по отношение на времето. Трябва да отбележим, че подхода не използва отделен механизъм за сегментиране и локализиране на ръката на базата на интензитет, стерео-визуалност, движение и други. Включването им би повишило ефективността на системата.
Метод на
дълбочинни ръбове
представен в [11]
, който разчита на мулти-флаш камера със стратегическо позициониране на светкавиците, така че да хвърлят сенки по дълбочинните прекъсвания на сцената. Това позволява ефикасно и прецизно извличане на дълбочинните ръбове, като по този начин се адресира проблема за надеждно дискриминиране на сложни конфигурации на ръката при дактилната азбука.
По-ранните подходи, използващи сянката като основна характеристика, полагат източниците на светлина на голямо разстояние от центъра на прожекция на камерата, като по този начин сенките са отделени от обектите. За разлика от тях, подхода предложен в [11] разглежда източниците на светлина разположени на малка дистанция от камерата, като позволяват вграждането им в самостоятелен уред, не по-голям от днешните фотоапарати.
Идеята за метода е провокирана от наблюдаваната поява на тънка ивица от сянка при дълбочинните прекъсвания (ръбове) в някаква сцена, когато е снимана с камера с близо разположена светкавица. Установява се, че положението на сянката се определя от относителната позиция на камерата и светкавицата: когато светкавицата е в дясно, сянката се образува в ляво, и т.н. Така при снимането на поредица от изображения с различни източници на светлина, при което обекта е осветен от различни позиции, може да се асемблира карта на дълбочинните ръбове на база на сенките.
Подхода позиционира светлините, така че всяка точка от сцената, която е засенчена в някаква снимка, да бъде заснета без засенчване в поне една друга снимка. Това става като светлините се поставят, така че за всяка да съществува срещуположна от другата страна на камерата. Така дълбочинните ръбове се заснемат от две страни, а близостта на светлините до камерата минимизира промените между различните снимки, дължащи се на други ефекти извън сенките. Авторите избират 4 източника на светлина, които се контролират от PC микроконтролер и осветяват последователно обекта на всеки 4ms.
За откриване на сенките във всяка снимка на дадена поза, първо се изчислява незасенчено изображение, т.е. максималното съставно изображение Imax
, съдържащо максималния интензитет на всеки пиксел измежду набора от снимки на позата. Imax
се сравнява със всяко засенчено изображение, като се изчислява изображение на отношението Ir
, т.е. се извършва попикселово интензитетно деление на засенченото към Imax
изображението. Ir
е със стойности близо до 1 при незасенчени пиксели и близо до 0 в обратния случай. Това спомага за акцентиране на сенките и премахване на интензитетните преходи, дължащи се на повърхностни материални промени. Ir
се сканира в посоката на осветяване на обекта и се намират пикселите с прагови ръбове и негативен преход. Съвкупността от всички намерени прагови пиксели по различно осветените снимки на позата (в случая 4 на брой) дефинира дълбочинните ръбове.
Метода е разширен да поддържа и динамични сцени, където светкавиците се задействат в циклична поредица с едно светване за фрейм, с което подхода е подходящ и за опериране в реално време. Светкавиците биха могли да се заменят с инфрачервена светлина при интерактивни приложения.
За класифициране на позата се използва описател на формата, който е инвариантен по отношение на транслиране и мащабиране. Състои се в изчисляването на коефициент от 0-255 за всеки от намерените пиксели на дълбочинните ръбове. Анализира се контекста на всеки пиксел, като се преброява броя ръбови пиксели в 8 съседни района. Полученият вектор от осем елемента се нормализира (по общия брой ръбови пиксели), така че всеки елемент кодира информация за висока или ниска плътност на ръбови пиксели по дадено направление. Следва прагуване с емпирично установена стойност от 0.15. Новият вектор от елементи със стойности 0 и 1 се аранжира по посока обратна на часовниковата стрелка от дадена референтна област (в случая долния десен район). Получената децимална стойност гласува в съответен бин от показаната хистограма. След прилагането на този алгоритъм върху всички съществени пиксели, се получава 256-мерен характеристичен вектор – описател. Предварително се създава обучаваща извадка от набор от изображения за всяка поза, за които се намират ръбовите пиксели и се изчислява описателя на формата. Създава се маркирана обучаваща база от 256-мерни вектори, която се използва за намиране на най-добро подобие (по Евклидово разстояние) при някакво входно изображение за класифициране.
Предложеният метод не открива ръбове при границите на пръстите, където няма дълбочинно прекъсване, което пък осигурява по-уникално описание за всяка дактилна буква. Въпреки че обучаващата извадка е била събрана само от един актьор, се очаква че този подход ще е по-ефективен в сравнение с традиционните Canny Edges и Mean Shift сегментацията, тъй като текстурните ръбове варират при хората (например бръчките, петънцата, вените), а настоящият подход ги елиминира. Контекстните описатели на формата са доказано ефективни при вариации във формата на ръката при различните хора. При по-сложни сцени, отрупана с повече обекти, подхода дава предимството да елиминира текстурните ръбове и запазва контурите, дължащи се на дълбочинни прекъсвания. По този начин значително се намалява сложността на модела на сцената. При една предварителна стъпка от по-грубо сегментиране на ръката (например цветово) се очаква да се увеличи надеждността на подхода в сложна среда.
5. ЗАКЛЮЧЕНИЕ
В реферата се разглежда необходимостта от въвеждането на ръката като естествено средство за комуникацията човек-машина. Представени са няколко практически приложения в сферите видео наблюдение, разпознаване на жестове, и мултимодални машинни интерфейси, където ръката се явява допълнителна модалност към вече съществуващи системи за обработка на реч. Документа завършва с обзор върху някои съществуващи сензорни и визуални подходи за решаване на проблема за разпознаване на статични пози на ръката в сложна среда.
Въз основа на по-детайлно разгледаните четири визуални подхода, заедно с техните предимства и недостатъци, можем да заключим, че все още не съществува перфектен метод за разпознаване позата на ръката. Всеки подход има своите специфични силни и слаби страни, които могат да бъдат повече или по-малко важни в зависимост от конкретното приложение. Таблица 1 съдържа сравнителен анализ между разгледаните техники за разпознаване, като се основава на докладваните устойчивост, работа в реално време, справяне с ниска резолюция, независимост по отношение ъгъла на гледане и жестикулиращия, ефективност.
В анализа участва и подход базиран на CBIR (Content Based Image Retrieval) чрез системата EFIRS [15], който е разработен в екип с участието на автора на реферата. Накратко, този подход разглежда позата на ръката за класифициране като статично изображение, чийто най-близки подобия се търсят в база данни от изображения образци (БДИО). Образците са 2D проекции на 3D пози (букви от българската дактилна азбука), снимани на малки стъпки в пространствен сектор (до 80º по осите x и y), като всяка проекция е представителен фрейм, извлечен от предварително заснет видео клип, обхождащ сектора на видимост на ръката застинала в даден жест (буква). Системата EFIRS осигурява бърз и шумоустойчив достъп до БДИО, като използва ключове за търсене – глобални описатели на формата (например Фурие и/или Wavelet дескриптори) на дадено изображение. Този тип описатели могат да се справят с обекти с малки текстури, но поради глобалността си изискват много чиста сегментация на обекта. Поради ранния етап на развитие, този подход не се фокусира върху проблема за сегментиране на ръката в сложна среда, а по-скоро е насочен към доказване приложимостта на CBIR подходите за решаване проблема за разпознаване позата на ръката.
Таблица 1: Сравнителен анализ на разгледаните визуално базирани подходи за разпознаване позата на ръката.
Okapi-Chamfer Matching |
Ойлерови ъгли |
Elastic Graph Matching |
Дълбочинни Ръбове |
CBIR подход чрез EFIRS |
|
Устойчивост при: |
|||||
Сложна среда |
да (1) |
да (1) |
да |
да (1) |
не е реализирана |
Препокриване на пръсти |
да (2) |
да, класифици-рането зависи от издадените пръсти |
не е обявена |
да |
да |
Променлива осветеност |
не е обявена |
не |
да |
не е обявена |
не |
Инвариантност при ротация в дълбочина, скалиране, транслация |
да (използва пространствен дескриптор) |
не за ротация; да за скалиране и транслиране |
не за ротация; да за минимално скалиране; да за транслиране |
не за ротация, да за скалиране и транслиране; |
не за ротация, да за скалиране и транслиране; |
Работа в реално време |
очаквано (3) |
да |
не |
да |
да |
Работа с изображения от ниска резолюция |
не е обявена, но се предполага мин. oбласт на ръката (120x80) |
да |
не е обявена |
не е обявена |
не е изследвана |
Независимост от ъгъла на снимане |
да (до 60град. по x и y) |
не |
не |
не |
да (до 80град. по x и y) |
Независимост от жестикулиращия |
не е обявена |
да |
да |
не е обявена, но се предполага |
не е изследвана |
Ефективност |
не е обявена |
91% от 105 базови изобр.; тестване на всяко към базата. |
86.2% в сложна среда, 94% при еднороден фон |
96% от 72 базови изобр. при еднороден фон и един актьор; тестване на всяко към базата |
96% от 344 базови изобр. (~49 за буква) и 358 тестови за всяка буква; при еднороден фон и един актьор |
1. Извличането на областта на ръката зависи от цвета на кожата и следователно подхода е сравнително устойчив при сложна среда
2. Обучаващата извадка е генерирана от 3D кинематичен мрежов модел на ръката, заснет от различни ъгли
3. Резултатите са обявени при тестване с остарели машини или без оптимизация на кода. На база на напредъка на компютърната мощност, се очаква изпълнение в реално време
Представените визуални подходи дават идея за тенденциите при задачата за разпознаване пози на ръката. Авторът на реферата вижда предизвикателство в развитието на подходите, използващи локални характеристики на базата на формата и ръбовете, каквито са методите на Ойлеровите ъгли и дълбочинните ръбове, в които се запазва информацията за пространственото положение на характеристиките и в същото време осигуряват инвариантност по отношение на транслация, мащабиране и ротация в екранната равнина. Подобни подходи използват например разстоянието от съществени контурни точки до центъра на тежестта на ръката, скаларното пространство на кривината (Curvature Scale Space), хистограми на направлението на пикселите със значителна вариация от областта на ръката, скелета на ръката (запазва топологичната информация). Тези подходи могат да се комбинират, както и да се изследва ефективността им като различни класификатори в AdaBoost алгоритъма.
За да са гарантира максимална ефективност на предложените методики, е необходимо да се гарантира максимално точна локализация на областта на ръката. Следователно, една бъдеща разработка трябва да отдели немалко внимание и на процеса на сегментиране в сложна среда, като изследва използването на адаптивно сегментиране, различни цветови модели, или търсене на минималния обхващащ правоъгълник.
БИБЛИОГРАФИЯ
[1] K. Thomas, (2002, January), “Glove lends the deaf a hand,” USA Today
. Retrieved December 1, 2008, from http://www.usatoday.com/news/science/2002-01-16-deafglove.htm.
[2] CyberGlove (n.d.). Retrieved December 1, 2008 from http://www.vrlogic.com/html/immersion/cyberglove_ii.html.
[3] Glove-Based Input Interfaces (n.d.). Retrieved December 1, 2008 from http://www.geocities.com/mellott124/glove1.htm.
[4] J.L. Hernandez-Rebollar, N. Kyriakopoulos, and R. Lindeman, “The AcceleGlove: A Whole-Hand Input Device for Virtual Reality,” Proc. of ACM SIGGRAPH - 29th International Conference on Computer Graphics and Interactive Techniques
, 2002.
[5] B.S. Parton, “Sign Language Recognition and Translation: A Multidisciplined Approach From the Field of Artificial Intelligence,” The entity from which ERIC acquires the content, including journal, organization, and conference names, or by means of online submission from the author.
Journal of Deaf Studies and Deaf Education
, vol 11, no 1, pp94-101, Win 2006.
[6] N. Adamo-Villani, J. Heisler, and L. Arns, “Two gesture recognition systems for immersive math education of the Deaf,” IMMERSCOM
, Oct 10-12, 2007, Italy.
[7] T. Starner, A. Pentland, “Real-time american sign language recognition from video using hidden markov models,” Technical Report MIT TR-375
, Media Lab, MIT, 1996.
[8] T. Starner, J. Weaver, and A. Pentland, “Real-time American Sign Language recognition using desk and wearable computer-based video,” IEEE Transactions on Pattern Analysis and Machine Intelligence
, vol. 20, no.12, December 1998
[9] J. Triesch and C. von der Malsburg, “A System for Person-Independent Hand Posture Recognition against Comlex Backgrounds,” IEEE Transactions on Pattern Analysis and Machine Intelligence,
vol. 23, no. 12, December 2001
[10] H. Brashear, T. Starner, P. Lukowicz, and H. Junker, “Using Multiple Sensors for Mobile Sign Language Recognition,” In Proceedings of IEEE International Symposium on Wearable Computing,
pp. 45-52, 2003.
[11] R. Feris, M. Turk, R. Raskar, K. Tan, and G. Ohashi, "Recognition of Isolated Fingerspelling Gestures Using Depth Edges," In Real-Time Vision for Human-Computer Interaction
, B. Kisačanin, V. Pavlović, and T. S. Huang, Eds.: Springer, pp.43-56, 2005.
[12] H. Zhou, D. J. Lin, and T. S. Huang, “Static Hand Posture Recognition Based on Okapi-Chamfer Matching," In Real-Time Vision for Human-Computer Interaction
, B. Kisačanin, V. Pavlović, and T. S. Huang, Eds.: Springer, pp. 85-101, 2005.
[13] S. Chandran and A. Sawa, “Appearance-Based Real-Time Understanding of Gestures Using Projected Euler Angles," In Real-Time Vision for Human-Computer Interaction
, B. Kisačanin, V. Pavlović, and T. S. Huang, Eds.: Springer, pp. 57-66, 2005.
[14] J. Napier, “Hands,” Pantheon Books
, New York, 1980.
[15] D. Dimov, A. Marinov, N. Zlateva, “CBIR approach to the recognition of a sign language alphabet, ” In Proceedings of International Conference on Computer Systems and Technologies – CompSysTech
, 2007, pp.V.2.1-9.