БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
Выпускная работа по«Основам информационных технологий»
Магистрант
кафедры теоретического и славянского
языкознания
Пачковская Виолетта Чеславовна
Руководители:
профессор Кожинова Алла Андреевна,
ст. преподаватель Громко Николай
Иванович
Минск – 2008 г.
ОглавлениеОглавление 3
Список литературы к реферату 12
Интернет ресурсы в предметной области исследования. 14
Действующий личный сайт в WWW (гиперссылка). 15
Список литературы к выпускной работе. 17
Реферат по теме «Перспективы применения ИТ в изучении рукописных текстов»
1. Введение
Ни для кого не секрет, что на сегодняшний день довольно остро стоит проблема изучения рукописных текстов. Наряду с проблемой распознавания и записи звучащей речи, проблема распознавания и записи рукописного текста является одной из самых сложных в современных информационных технологиях. Многие ученые и информатики-любители не первый день бьются над созданием программы для перенесения текста, написанного рукою человека, в компьютер и последующей его обработки.
Мы также столкнулись с данной проблемой, хотя информатиками и не являемся. Приступая к изучению польскоязычных юридических рукописных текстов 17 века, мы пытались найти оптимальный способ перенесения текстовой информации в компьютер, однако столкнулись с рядом трудностей, главная из которых – отсутствие какой-либо компьютерной программы, которая могла бы помочь нам именно в перенесении древних текстов в электронный вид, которая облегчила бы нашу работу и сделала ее более быстрой и эффективной.
Целью данного реферата является поиск оптимального на сегодняшний день решения проблемы изучения древних рукописных текстов, а также возможных перспектив использования ИТ в данной области исследований языка. Для достижения данной цели поставлены следующие задачи:
1) изучить существующие программы и средства для распознавания текста, в том числе и рукописного;
2) познакомиться с новыми разработками и планируемыми путями решения проблемы распознавания рукописного текста
3) найти решение проблемы для применения его в собственном исследовании.
Глава 1
Изучение, первоначально, поиск информации по теме работы вызвали у нас технические трудности. Дело в том, что практически нет никаких серьезных источников, которые описывали бы современное состояние разработок. Это и понятно, ведь коммерческая тайна остается коммерческой тайной до тех пор, пока продукт не появится на рынке, и наш случай именно такой. Возможно, сегодня реально что-то создается, но пока об этом ничего не говорится. Поэтому при написании нашей работы мы вынуждены были довольствоваться только интернет-ресурсами, в частности это были рекламные сайты компаниай-разработчиков программ ABBYY FormReader, CellWriter (разработка Linux), статья из компьютерной газеты о существующих программах для распознавания текста, а также множество форумов, посвященных данной проблеме.
Начнем с рекламных сайтов. На первый взгляд все очень здорово, ABBYY FormReader обещает, что «автоматизировав ввод форм, вы в 5 раз сократите объём ручного ввода, избавив себя и свой бизнес от всех связанных с этим проблем!» [1].Но на том же сайте, только в форуме, администратор разводит руками и говорит, что «речи об распознавании обычного текста, даже если он написан печатными буквами, здесь не идет». Русскоязычный сайт Linux предлагает писать на экране их компьютера и также ссылается на приоритетность разработок. То есть, на сайтах компаний мы ничего нового для себя не узнаем.
Что касается статьи «Программы для распознавания текстовой информации», опубликованной в «Компьютерной газете», то из нее мы получили более точную картину. В статье описываются наиболее популярные программы с ученом их удобства, стоимости и точности работы. Данная статья была использована для написания главы 2. Путем сравнения выделяются достоинства и недостатки программ.
Наиболее четкую картину того, как разворачиваются события в создании программ для распознавания рукописного текста, мы можем увидеть на тематических форумах. Из них мы узнаем, что пока нет даже теоретической базы для данных программ, есть только идеи, направления мысли, о правильности которых можно будет сказать только в будущем.
Таким образом, изучив доступную нам информацию, мы пришли к выводу, что на сегодняшний день нет решения проблемы распознавания рукописного текста, а значит, есть только перспективы использования ИТ как в нашем исследовании в частности (исследовании польскоязычных рукописных юридических текстов 17 века), так и в архивных исследованиях вообще.
Глава 2
Для распознавания текста существуют специальные OCR-программы . О них, а также о программах, использующих средства ввода, мы постараемся рассказать в данной главе.
Наиболее качественной, по мнению многих экспертов и обычных пользователей, является FineReader. Эта программа известна многим — особенно тем, у кого есть сканер. Она часто входит в комплект сканера при продаже как бонус, и, как оказывается, не зря. FineReader на сегодня считается лидером, эталоном, если хотите, распознавания текста из графических документов в текстовые. Программа способна производить сканирование документа на сканере, обращаясь к его драйверу (что весьма удобно — не нужно открывать множество окон). При распознавании в опциях FineReader следует указать язык для распознавания текста. Программа способна самостоятельно проверять орфографию и сохранять распознанную информацию в файлы форматов doc, pdf, html, sxw и др. Весь процесс — от сканирования и до распознавания — можно проводить самостоятельно вручную (для продвинутых пользователей) и с помощью мастера распознавания и перевода в автоматическом режиме (для новичков) [6]. Однако появляется много проблем, связанных с нашим исследованием и исследованием рукописного текста вообще. Во-первых, данная программа не распознает рукописный текст. Существует разновидность FineReader - ABBYY FormReader - система ввода форм, заполненных от руки или на принтере, с применением технологии ICR (Intelligent Character Recognition) [1].Распознавание рукописного текста очень трудоемкая задача, на данный момент мы умеем распознавать только машиночитаемые формы. При этом для корректного распознавания такие формы должны удовлетворять ряду условий. Речи об распознавании обычного текста, даже если он написан печатными буквами, здесь не идет. Следует также добавить, что FormReader предназначен для обработки больших объемов однотипных документов с последующим сохранением этой информации в базу данных. Это программа предназначена для обработки информации полученной от клиентов, пользователей, сотрудников и т.п. в виде анкет, заполненных бланков, и т.п и централизованное хранение подобной информации в электронной базе данных, таким образом чтобы всегда быстро можно было поднять нужные данные. Однако данная программа также оказывается неприменимой в нашем исследовании, т.к. мы изучаем не какие-то заполненные формы, а рукописный произвольный текст, к тому же текст 17 века, язык которого мы также не можем выбрать для распознавания.
Существуют также похожие OCR-программы (SimpleOCR, CuneiForm, Recognita, Microsoft Office Document Imaging), но мы не будем более подробно на них останавливаться, т.к. их описание их различий не является необходимым для рассмотрения в нашей работе, поскольку ни одна из них не может делать того, что необходимо в нашем исследовании, а именно не может распознавать написанный ранее рукописный текст.
После знакомства с различными материалами на тему распознавания рукописного текста, заглядывания на тематические форумы у нас возникло подозрение, что на сегодняшнем уровне AI-алгоритмистики данная задача (распознавание произвольного рукописного текста) не решаема в принципе. Во всяком случае авторы всех попадавшихся нам материалов относятся к этой идее достаточно скептически.Правда в одном из американских университетов соорудили устройство, способное распознавать рукописи на арабском. Но известно, что для арабского письма характерно довольно строгое написание кожного графического элемента, что намного упрощает последуещее его распознавание. Для кириллицы, а также для польского написания букв 17 века, которое мы встречаем в нашем исследовании, создание какого-либо похожего устройства было бы намного проблематичнее из-за широкой вариативности начертания графических элементов.
Однако, не стоит думать, что рукописный текст на сегодняшний день нельзя распознать вообще. На самом деле программы распознавания есть для устройств ввода (планшет,мышь,цифровая ручка), но есть маленькое "но": они работают только с этими устройствами, и в основном в режиме реального времени. [2]. Примером такой программы может бытьCellWriter.
Разработал данную программу американский студент Майкл Левин. Вот что сообщает нам сайт компании Linux, для компьютеров которой и предназначена данная программа: «Положив в основу индивидуальную тренировку программы под каждого пользователя, Левин обошел очень важную проблему: нет двоих людей с одинаковым почерком, так что системе распознавания рукописного текста общего назначения необходимо выработать некий "наименьший общий каллиграфический знаменатель".
CellWriter работает, обучаясь почерку каждого индивидуального пользователя, так что тренировка обязательна. Если при запуске CellWriter не находит файл ~/.cellwriter, то он запускает режим обучения, чтобы изучить ваш почерк. Если в какой-то момент вы испытываете особенные трудности с определенным символом (буквой), вы можете, нажав кнопку Train (Обучение), задать больше образцов почерка - программа продолжает обучаться по мере накопления опыта. Режим обучения подправляет таблицу символов, в которой каждый символ занимает собственную клетку. Вы рисуете соответствующий символ в его клетке, а CellWriter запоминает его. "Обученные" клетки отличаются по цвету от "необученных", поэтому легко следить за процессом обучения.
Если вы неаккуратно нарисовали букву, можно удалить каракули. Когда вы пишете в режиме ввода текста, CellWriter преобразует ваши штрихи в символы по мере продвижения ручки из одной клетки в другую. Если символ интерпретирован некорректно, вы правым щелчком мыши вызываете выпадающий список близких символов и выбираете правильный. Если же CellWriter не уверен в выборе буквы, он выделит соответствующую клетку цветом, чтобы предупредить вас, но не прервет вашей работы» [8].
То есть получается, что даже имея данные приборы, мы должны все равно смотреть в текст и механически его переписывать каким-то из существующих устройств ввода. В результате, мы еще усложняем себе работу: если просто принося с собой ноутбук мы набирали текст, то теперь нам с собой еще нужно приносить устройство ввода и иметь на компьютере соответствующую программу, которая бы распознавала бы то, что мы написали, к тому же, программу сначала нужно обучить понимать свой почерк. Конечно, это уже шаг вперед, но, к сожалению, нашу работу данный путь вряд ли облегчит.
Глава 3
В данной главе мы попытаемся описать пути, по которым намечается движение в поисках решения проблемы распознавания рукописного текста – бесспорно, одной из важнейших проблем векторной графики. При этом мы пользовались идеями, предложенными на различных интернет-форумах, обсуждавших данную проблему, т.к. каких-либо более «убедительных», научных статей по данному вопросу нам найти не удалось.
Главное препятствие в развитии исследований по созданию программ/устройств, позволяющих переносить рукописный текст в текстровый редактор, - это, как ни печально, отсутствие надлежащей теоретической базы. Существует несколько идей для решения проблемы распознавания рукописных текстов, но каждая из них имеет на пути своей реализации значительные припятствия.
Распознавать рукопись - не только сложная идейно, но и трудоемкая задача, так как необходимо держать как минимум словарь всех слов - а лучше учитывать контекст предложения. Потому что даже человек не может разобрать типичный почерк, не анализируя смысл (невозможно однозначно распознать тарабарщину). В связи с этим возникло такое предложение:
1) разделить рукописный текст на строки;2) определить ширину линии пера(ручки) и высоту строки;3) все элементы рукописного текста соединяются между собой одним из 3-4 способов. Нужно выделить эти стандартные элементы, отличающиюеся большим разнообразием, и получить представление данного элемента в виде набора дуг с учетом высоты строки и ширины линии. Выделить в процессе распознавания, поскольку они зависят от конкретного почерка, а не от стандартов;4) все особенности начертания букв зависят не только от почерка, но и от конкретного слова. Тем не менее, есть общие признаки, по которым мы и выделяем конкретные буквы или их элементы из текста. Потом к ним пристраиваем остальное.
Распознать текст, не имея возможности выдернуть из него буквы или лигатуры, - практически невозможно. Суть в создании алгоритма, позволяющего выделить наборы штрихов, содержащие буквы или лигатуры с некоторым перебором вариантов (намного меньшим нежели в случае перебора всего слова). По замыслу - будет использован словарь слов языка, в котором содержится слова с вероятностью их встречаемости в языке. Если алгоритм не может сказать какое слово написано в данном фрагменте текста, то он должен выдать пользователю набор возможных вариантов для корректировки в котором должно содержаться нужное сочетание, при этом количество вариантов должно быть минимальным и содержать правильный.То есть анализируется набор дуг каждого элемента и пропорции относительно ширины линии и высоты строки. формируется семейство начертаний элемента. формируется семейство элементов для данного символа, а лучше для данного слова. то есть, формируется семейство начертаний данного слова.
Оппоненты данного «пути» высказываются о нереальности данного решения рукописном распознавании: «Это способ замечательно подходит для рукопечатного текста, где человек пишет одну букву несколькими штрихами, а вот при рукописном написании слово пишется одной непрерывной линией (может и несколькими, но это не суть важно), и в таких случаях возникают совершенно другие дефекты - наезд линий друг на друга, самопересечение линии, слипание соседних букв и их пересечение и т.д. Как пример, посмотрите, как пишется буква Ф и Ж, выделить конкретные элементы (линии, дуги) не получится, так что пока единственный хороший подход - выделение траекторий».
Выделение траекторий – следующий сценарий развития. Как высказываются сами его разработчики,
Если зайти с другого конца, то как человек читает неразборчивый почерк? Сначала ищет знакомые буквы, пытаясь угадать смысл предложения, или ищет образец - точно определенное слово, букву и так далее. Потом запоминает начертание символа и производит поиск всех форм данного символа, вырабатывая устойчивый набор признаков символа. Потом то же самое для коротких слов, потом более длинных и так далее. Неопознанные символы подставляются по контексту. Конечно, это нереально перенести на компьютер, но только в данный момент.Многие информатики говорят о больших сложностях, возникающих при попытке разработать программу для распознавания рукописного текста. Однако они все же склоняются к мысли, что это возможно в ближайшем будущем, т.к. понемногу появляются какие-то разработки в данной сфере. Вот, например, некоторые из условий, которые должны соблюдаться пробных программах, распознающих цифры и некоторые рукописные буквы:1) буквы должны стоять отдельно. Решения этой проблемы разработчики пока не находят, т.к. в доброй половине подчерков случаются "слияния" букв и человек интуитивно догадывается о том, какая это буква, по слову вцелом, а иногда даже по предложению;2) программа ориентирована на конкретный шрифт. К примеру, написание буквы "т" имеет множество различных вариантов;3) реализовано чтение не всех букв, т.к. для инициализации буквы программа ищет замкнутое пространство, а на нём уже находит различные "приросты". Т.е. программа читает только те буквы ,в которых есть замкнутые элементы(да и то не со всеми буквами справляется) [4].
Если проанализировать приведенные выше данные, получается, что даже при воплощении перечисленных проектов в жизнь, для нашей работы они не будут иметь решающего значения, поскольку это будет, судя по всему, уже после ее написания, к тому же, нужно будет сначала создать словарь употреблявшихся в 17 веке слов, что опять таки требует первоначального их механического ввода в электронную базу. Однако для дальнейших исследований рукописных текстов создание подобных программ будет иметь огромное влияние, т.к. это намного облегчит «неблагодарный» и ужасно тяжелый труд архивиста, а также позволит быстрее переходить от фазы ввода текста в базу к непосредственному его изучению.
Заключение
В данной работе были проанализированы как уже существующие программы для распознавания текста, так и находящиеся на стадии разработки теоретические основы будущих программ. Для этого были использованы материалы различных сайтов, представляющих программы, а также форумы, на которых проходили обсуждения данных проблем. Все данные были проверены на возможность и (!) рациональность их внедрения как в нашу работу по изучению рукописных польскоязычных текстов 17 века, так и в архивные работы в общем.
Целью работы был обзор и поиск программ, которые могли бы помочь более быстро и правильно (а именно – исключая человеческий фактор) записывать рукописный текст в текстовый редактор. Однако после изучения проблемы оказалось, что единственным возможным методом оказывается механический набор на клавиатуре, т.е. отсканировать древний рукописный текст и потом его распознать оказалось в свете состояния современной науки просто невозможно. Учитывая тот факт, что изучаемые нами тексты написаны рукою далеко не одного человека, и даже не одного десятка людей, создание какой-либо самообучаемой программы, которая разбирала бы написанное им (ими), также остается делом неблагодарным, поскольку такая программа потребовала бы огромных временных затрат не только из-за огромного количества авторов текстов (а значит и их почерков, следовательно, пришлось бы такую программу переучивать под каждого), но также из-за отсутствия словаря, характерного для изучаемых нами документов. Еще одна проблема – это то, что изучаемые нами тексты написаны не рукопечатно, а различными линиями, т.е. кождая буква, а иногда и целое слово представлено одной непрерывной линией, что затрудняет распознавание не только компьютеру, но даже и человеку.
Таким образом, перспективы применения информационных технологий в изучении рукописных текстов довольно велики, но пока так и остаются перспективами. Распознавание рукописного текста будет востребованной задачей еще очень долгое время из-за существования огромного количества необработанных документов. Это многочисленные архивы, конспекты, рукописи, заполненные бланки (платежные поручения), существует множество форм документов, заполняемых от руки (доверенности, например). Хотя есть спрос на разработку подобных систем, практически никто не рискует заниматься таким проектом в силу его рискованности. Нам остается только надеятся и верить в силу прогресса и – набирать все вручную.
Список литературы к рефератуСписок использованных источников
1. http://www.abbyy.ru/formreader/
2. http://www.abbyy.ru/finereader/forum/actualthread.aspx?tid=185
3. http://forum.proc.ru/index.php?showtopic=39072
4. http://forum.sources.ru/index.php?showtopic=64547
5. http://www.inno.ru/project/15970/
6. http://msk.nestor.minsk.by/kg/2005/15/kg51507.html
7. http://www.nowa.cc/showthread.php?t=30655
8. http://rus-linux.net/lib.php?name=MyLDP/comfort/handwriting.html
Интернет ресурсы в предметной области исследования.1) http://starbel.narod.ru
На сайте находятся электронные книги и библиография по истории ВКЛ 13-18 вв., даются адреса первоисточников, а также прилагается краткое описание некоторых источников. Сайт очень полезен для поиска литературы по теме, для создания теоретической базы по теме исследования.
2) http://xvii-wiek.ijp-pan.krakow.pl/pan_klient/index.php
Сайт содержит словарь польского языка первой половины 17 века, где можно проверить правильность расшифровки определенного слова из рукописи и узнать его значение. Возможен детализированный поиск, когда пользователь сам выбирает функции поиска.
3) http://pawet.net/book/hist/szlachet_demakrat_ru.html
На сайте размещена статья о зарождении и функционировании шляхты в ВКЛ, детально описана реальная обстановка в княжестве после Люблинской унии. Возможно ознакомление на начальном этапе архивных работ.
4) http://pl.wikipedia.org/wiki/System_prawa
Сайт содержит описание правовой системы государства как таковой. Дается краткая история зарождения права, показывается, какие элементы происходят из Римской империи, какие – из английской правовой системы 13 века. Рекомендуется на самом раннем этапе подготовки работы.
5) http://www.agad.archiwa.gov.pl
Сайт Главного архива древних рукописей в Варшаве (Archiwum Głуwne Akt Dawnych w Warszawie). Содержит описания рукописей, а также характеристику юридической документации в Польше в разные периоды. Научный подход, сжатая форма, много конкретики. Замечательный источник на всех этапах подготовки работы.
6) http://www.court.by/economic-justice/history
Сайт содержит очерк о истории экономического правосудия в Беларуси. Дается описание развития судебной системы на протяжении веков. Рекомендуется для ознакомления на начальном этапе сбора материала по теме диссертации.
7) http://www.archiwa.gov.pl
Сайт, посвященный архивам Польши. Содержит разнообразные методические материалы для организации архивных исследований, знакомство с которыми поможет начинающему архивисту разобраться в системе. Также содержит ответы на наиболее часто возникающие в архивной работе вопросы. Будет полезен на всех этапах подготовки диссертации.
8) http://www.bestdisser.com/work/work_21040.html
Ресурс содержит фрагменты диссертации, посвященно становлению юридической документации в России. Может быть полезен для сравнения истории польской и русской юридической документации.
Действующий личный сайт в WWW (гиперссылка).http://vio-perepachkovskaya.narod.ru
Граф научных интересов
магистранта Пачковской В.Ч. филологический факультет
Специальность «славянский языки»
Смежные специальности
| Основная специальность
| Сопутствующие специальности
|
http://www.abbyy.ru/formreader
http://www.abbyy.ru/finereader/forum/actualthread.aspx?tid=185
http://www.agad.archiwa.gov.pl
http://www.archiwa.gov.pl
http://www.bestdisser.com/work/work_21040.html
http://www.court.by/economic-justice/history
http://forum.proc.ru/index.php?showtopic=39072
http://forum.sources.ru/index.php?showtopic=64547
http://www.inno.ru/project/15970/
http://msk.nestor.minsk.by/kg/2005/15/kg51507.html
http://www.nowa.cc/showthread.php?t=30655
http://pawet.net/book/hist/szlachet_demakrat_ru.html
http://pl.wikipedia.org/wiki/System_prawa
http://polkojich.com
http://rus-linux.net/lib.php?name=MyLDP/comfort/handwriting.html
http://starbel.narod.ru
http://vak.org.by
http://xvii-wiek.ijp-pan.krakow.pl/pan_klient/index.php
Предметный указатель
Перспективы 3
программа 5, 7, 10, 12
Распознавание 6, 12
рукописных 3, 4, 5, 9, 10, 11, 12
текст 12
текста 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 16