Курсова робота
Переклад тексту у редакторі Word 2002
План
Вступ. 3
І. Принципи та алгоритми машинного перекладу. 5
1.1. Постановка задачі машинного опрацювання текстів на природній мові 5
1.2. Основні складові компоненти систем машинного перекладу. 10
ІІ. Використання Word 2002 як середовища перекладу іншомовних текстів 16
2.1. Загальна характеристика Word 2002. 16
2.2. Стандартні засоби перекладу у Word 2002. 19
2.3. Використання мови VВА для реалізації систем машинного перекладу 22
ІІІ. Програмні реалізації систем машинного перекладу сторонніх виробників в Word 2002. 25
3.1. Оцінка ефективності систем машинного перекладу. 25
3.3. Оптимальний вибір програмних компонентів для задач перекладу іншомовних текстів в середовищі Word 2002. 28
Висновки. 32
Список використаних джерел. 34
Вступ
Розширення міжнародного обміну інформацією, виникнення нових форм міжнародних інформаційних контактів і співробітництва в сфері обміну документальною інформацією, а також нові перспективні форми обробки документів і нові форми самих документів, що виникають в міжнародній практиці, - все це ставить нові проблеми в інформаційній і перекладацькій діяльності. При цьому центральною проблемою стає застосування обчислювальної техніки не лише в системи пошуку інформації, але і в процеси перекладу, тобто впровадження систем машинного перекладу в інформаційне обслуговування спеціальних комунікацій.
Включення України в загальну світову сферу міжнародної комунікації – обов’язкова умова інтенсифікації розвитку науки і техніки, інтеграції нашої країни в річище загальноєвропейського і загальносвітового економічного і культурного розвитку, подолання кризових явищ в національній економіці України. Однією з істотних форм збагачення сфери міжнародної комунікації є переклад іноземної літератури і документації. Закономірності розвитку світової економічної системи показують, що інтенсифікація міжнародних комунікацій неможлива без розв’язання проблем машинного перекладу. Ця проблема поставлена на порядок денних достатньо давно (ще у 50-х рр. ХХ ст.), однак доступні системи машинного перекладу з’явилися в комп’ютерній техніці порівняно недавно (80-ті рр.), з того моменту і до нашого часу системи машинного перекладу постійно вдосконалювалися, з іншого боку, вимоги до кваліфікації кінцевого користувача і сукупна вартість володіння засобами машинного перекладу неухильно знижувалися. В цьому контексті поява текстового процесора Microsoft Word 2002 з вбудованими функціями перекладу іншомовних текстів є етапною подією в індустрії інформаційних технологій. Вперше система машинного перекладу інтегрується як допоміжна частина у найбільш популярну в світі (й в Україні) програму обробки текстових документів. В той же час питання, щодо обсягу функціональних можливостей вбудованих функцій перекладу іншомовних текстів в Word 2002 залишається відкритим. Отже, актуальність теми
полягає у необхідності дослідження функціональних можливостей наявних на ринку систем машинного перекладу (як стандартних Word 2002, так і програмних рішень від сторонніх виробників для Microsoft Word), з огляду на доцільність і необхідність їхнього практичного використання.
Метою
даної роботи є дослідження засобів машинного перекладу використовуваних в новітньому текстовому процесорі фірми Microsoft – Word 2002.
Для досягнення мети автором були поставлені наступні конкретні завдання
:
· визначити рівень функціональності програми Microsoft Word в цілому;
· визначити функціональність стандартних засобів перекладу іншомовних текстів в Word 2002;
· розглянути програмні рішення систем машинного перекладу для Word 2002 від сторонніх виробників для Word 2002;
· визначити оптимальний варіант використання, оптимальну стратегію використання стандартних і додаткових (Add-In) програмних засобів для перекладу іншомовних текстів в середовищі Word 2002.
Структурно робота складається зі вступу, трьох основних розділів, списку використаних джерел.
І. Принципи та алгоритми машинного перекладу
1.1. Постановка задачі машинного опрацювання текстів на природній мові
Перші системи машинного перекладу з’явилися ще у 50-х рр. ХХ ст. Однак обмежені можливості тогочасних комп’ютерів і недосконалість алгоритмів, що лежала в основі цих систем не дозволили їм вийти за стадію експериментальних розробок.
Розвиток апаратної частини обчислювальної техніки й удосконалення програмного забезпечення (зокрема високорівневих мов програмування) дозволили значно підвищити якість систем машинного перекладу (МП) і призвели наприкінці 70-х – на початку 80-х рр. до нової хвилі ентузіазму з приводу їх промислового і комерційного використання. Серед інших факторів цьому сприяли, з одного боку, такі яскраві свідчення можливості застосування МП для розв’язання реальних задач, як використання системи SYSTRAN для перекладу англійською мовою російської космічної документації в рамках програми радянсько-американського співробітництва “Аполлон – Союз”, а з іншого – активне включення в розробку систем МП японських комп’ютерних і перекладацьких фірм, котрі і зараз успішно освоюють дану область і все більш продуктивно конкурують з провідними фірмами – розробниками таких систем в США і Європі.
Розробка вітчизняних систем МП визначалася роботам по двох основних напрямках перекладу: послівного і глобального.
Історія розвитку систем МП в СРСР пов’язана з групою “Статистика мови”, що була створена на початку 70-х рр. в Ленінградському педінституті імені Герцена професором Р. Г. Піотровським
[1]
. В 1976 р. цією групою була розроблена одна з перших в СРСР систем машинного перекладу. Трохи раніше цієї події, в 1974 р. почала самостійні пошуки група, очолювана учнем Р. Г. Піотровського В. В. Рожковим. Потім цією групою був створений електронний перекладач “Сарма”, який став прототипом системи Socrat. Ідеї Ленінградської школи виявилися напрочуд плідними і послужили основою для багатьох комерційних систем машинного перекладу – окрім Promt та Socrat на цих же принципах засновані, наприклад, системи Multis і Pars
.
Всі ці системи, хоча і розроблялися самостійними групами, мають досить багато спільного, їх можна охарактеризувати як системи, що реалізують “послівний” переклад. Між тим, давно відомо, що текст не можна подати як просту сукупність слів, які мають той чи інший зміст. Левова доля сенсу міститься не в самих словах, а там, де вони вступають у відносини між собою. Наприклад, підводний човен
– це не човен під водою. Ринок
і базар
– синоніми. Але птичий
ринок
та птичий базар
– зовсім різні речі. Біляча клітка
в технічному жаргоні не має нічого спільного ані з білкою, а ні з кліткою, це позначення короткозамкненого ротора електродвигуна. Це не ефектні виключення, за оцінкою Г. Г. Білоногова, що очолює колектив розробників МП RETRANS, в розвиненому мовному співтоваристві налічуються десятки, якщо не сотні мільйонів понять, а слів – всього біля мільйону
[2]
. Отже, достатньо велика частина понять виражається фіксованою комбінацією слів – серед них і птичий базар,
і біляча клітка
(навіть переставити слова в такому словосполученні не можна – клітка біляча
– це вже не технічний термін, а цінник в магазині). Наша мова знаходиться в більш жорстких рамках, ніж нам здається: можна сказати: їхав автобусом
, але не можна сказати їхав велосипедом
, увагу приділяють
(чому-небудь) або звертають
(на що-небудь), висновок роблять, перевагу віддають, роль грають, значення мають, перемогу здобувають
і т. ін. Такі словосполучення в лінгвістиці називають стійкими словосполученнями.
Чи здатний комп’ютер навчитися подібним тонкощам, і якщо так, то як? Спроба дати відповідь на це питання і послужила розвитку другого напрямку в розробці систем МП. До нього насамперед належить лінгвістична школа. Це експериментальні системи ЕТАП і RETRANS.
Система МП ЕТАП розробляється в лабораторії комп’ютерної лінгвістики Інституту проблем передачі інформації (ІППІ РАН). Абревіатура ЕТАП, вказувала на “електротехнічний автоматичний переклад”. На протязі ряду років розробку очолював академік Ю. Д. Апресян (керівник авторського колективу “Нового великого англо-російського словника” – найбільш повного з існуючих на сьогодні англо-руських словників), а потім його учень, доктор філологічних наук І. М. Богуславський. Система заснована на лінгвістичній теорії “СЕНС – ТЕКСТ”, основоположником якої є російський вчений І. А. Мельчук, що проживає зараз у Канаді
[3]
.
Згідно з цією теорією виділяються декілька рівнів подання мовної інформації: орфографічний, морфологічний, синтаксичний і семантичний. Якщо ж мова йде про машинний переклад, то інформація однією мовою повинна послідовно пройти ці стадії від введення вихідного тексту до отримання сенсу, зашифрованого за допомогою спеціальної семантичної мови. Потім процес йде у зворотному порядку: від семантичного рівня (сенсу) до орфографічного (конструювання готового тексту) мовою перекладу. Для цього необхідно пройти наступні етапи аналізу вихідного тексту: морфологічний аналіз, синтаксичний, семантичний, і в зворотному порядку такі ж етапи синтезу. Це складний процес. Так, наприклад, щоб правильно упоратися з синтаксичним аналізом речень, системі перекладу слід “мати уявлення” про те, які типи зв’язків з іншими словами характерні для того чи іншого слова. Так, про дієслово “купити
” система повинна знати: купити може хтось що-небудь у кого-небудь за скільки-небудь і т.д.
Одиницею перекладу в цих системах вважається не окреме слово, а речення, з його синтаксичною структурою.
Інший підхід до глобального перекладу реалізований у системі RETRANS (автор концепції – професор Г. Г. Білоногов). Процес перекладу в цьому випадку складається з наступних основних стадій:
Перша стадія – аналіз вихідного тексту. На основі “локального семантико-синтаксичного аналізу” тексту розпізнаються фразеологічні одиниці: дієслівні сполучення, іменні словосполученні й інші відрізки тексту, для яких має сенс шукати перекладні еквіваленти в машинному словнику.
Друга стадія – нормалізація і формування пошукових образів. Пошуків образ – це нормалізоване уявлення текстової одиниці (для іменника – це називний
відмінок однини, для дієслів – основа, що має спеціальний код, який характеризує тип словозміни і т.д.).
Третя стадія – пошук в словнику.
Нарешті, остання стадія – синтез вихідного тексту, котрій виконується на основі синтаксичного аналізу тексту-оригінала.
Серйозна проблема МП – багатозначність (полісемія). Поява неоднозначностей в тексті є природною, але вона відносно малоймовірна, якщо основною структурною одиницею тексту і словника є не слово, а фраза або словосполучення: багатозначних фраз і мовних зворотів набагато менше, ніж багатозначних слів. Взагалі, чим менше відрізок тексту, тим менш ймовірною є полісемія. Багатозначних коренів і слів в мові більше, ніж багатозначних слів, котрих, в свою чергу значно більше, ніж багатозначних словосполучень.
Додатковим засобом розв’язання проблем, пов’язаних з багатозначністю є тематичні словники, де для багатозначного слова або фрази вказується пріоритетний перекладний еквівалент, специфічний для даної предметної області. Методика застосування додаткових словників істотно розрізняється в різних програмних продуктів. Стандартні засоби перекладу в Word 2002 передбачають можливість підключення словників з Інтернету (для зареєстрованих користувачів), деякі системи не дозволяють користувачу обирати словник самостійно (додаткові словники обираються автоматично на основі ключових слів з тексту, які програма інтерпретує як належні до певної предметної області). Такий алгоритм реалізований у системі Pragma компанії Trident Software
[4]
. Більшість представлених для Word 2002 комерційних систем машинного перекладу реалізують алгоритми глобального перекладу, стандартні ж засоби Word 2002 орієнтовані більшою мірою на технологію перекладу послівного. Слід однак зазначити, що конкретні програмні продукти як правило поєднують алгоритми різних видів, сполучають в різних пропорціях велику кількість інженерних ідей і рішень.
Історія розробки систем машинного перекладу показала, що традиційна лінгвістика, яка не ставила перед собою задач створення точних і одночасно вичерпних описів мов і майже не займалася проблемою відповідності між мовами, дуже мало займалася семантикою і навіть синтаксисом окремих мов, далека від потреб забезпечити розробки по системам МП готовими відомостями. “Складність виявилася не в тому, щоб формалізувати і “машинізувати” дещо відоме про мови, а в тому, щоб зрозуміти, якого роду інформація про мови необхідна в даному зв’язку, а потім навчитися добувати і описувати цю інформацію”
[5]
. Тим самим велика доля відповідальності зі існування автоматичного перекладу виявилася покладеною на лінгвістику. З’ясувалося, що спочатку повинна бути проведена досить трудомістка лінгвістична робота з формалізованого опису мов, і тільки потім її результати можуть бути використані для побудови системи МП, в той же час МП – це та експериментально-прикладна галузь, де лінгвістичні теорії, описи, гіпотези і т.п. можуть проходити перевірку практикою.
1.2. Основні складові компоненти систем машинного перекладу
Однією з головних особливостей сучасної технічної діяльності є системний підхід до об’єктів дослідження і проектування. В термін “система” вкладаються різні поняття, але у всіх випадках система являє собою підмножину взаємопов’язаних елементів, виділених з множини елементів будь-якої природи у відповідності з вимогами вирішуваної задачі. Система являє собою певну цілісність, що складається з взаємозалежних частин, кожна з яких робить свій внесок в характеристику цілого.
З функціональної точки зору будь-яке програмне середовище обробки текстів природною мовою (в тому числі і система МП) включає в себе
[6]
:
- програмно-математичне забезпечення системи;
- лінгвістичне забезпечення системи;
- інформаційне забезпечення системи;
- технічне забезпечення системи;
- кадрове забезпечення системи.
Всі ці складові в комплексі забезпечують роботу системи. При відсутності якого-небудь компонента функціонування системи неможливе, при цьому різні види забезпечення системи повинні бути узгоджені один з одним. Тому представники різних наукових дисциплін повинні спільно обирати і розробляти як будову усієї системи, так і окремих її частин. Наприклад, математики і лінгвісти повинні спільно обрати тип граматики, встановити допустимий вид граматичних правил і т. ін. Після того, як рамки встановлені, заповнення цих рамок, тобто конкретні розробки в кожній галузі, можуть вестися представниками кожної спеціальності самостійно. “Якість розробки лінгвістичного забезпечення залежить значною мірою (якщо не повністю) від професіоналізму лінгвістів
”[7]
.
Під програмно-математичним забезпеченням
(ПМЗ) розуміють комплекс програм і алгоритмів, які дозволяють автоматизувати деякий процес.
Лінгвістичне забезпечення
системи включає дані про граматику (тобто морфологічну, синтаксичну і семантичну інформацію) вхідної і вихідної мови та набір алгоритмів обробки цих даних, що називається лінгвістичним процесором. Дані про мову подаються у вигляді спеціально організованих словників. Словарна стаття містить інформацію, подану машинними кодами. Навчитися визначати, яка інформація використовується в процесі перекладу, які мовні рівні інформативні для перекладу (наприклад, для російської мови інформативність явно починається з морфологічного рівня мови, а для китайської – з лексичного), ці задачі стоять перед лінгвістами-перекладачами.
Інформаційне забезпечення системи включає словники предметної області і програми для їхньої обробки. Для систем МП в якості інформаційного забезпечення виступають перекладні електронні словники. Ці словники подібні до перекладних книжкових словників і місять слово вихідного тексту і його перекладні еквіваленти. В залежності від ідеології, закладеної в розробку системи МП можуть використовувати одночасно від одного до декількох перекладних словників. Словарну повноту системи МП важко визначити на основі яких-небудь ознак, окрім кількісних. В експериментальних системах МП використовуються словники від 60 до 10 тис. слів, в практично діючих системах МП – обсяг словників досить істотно розрізняється: так, в словнику МП Плай 4.02 – 360 тис. слів, Socrat 4.1 (Personal Edition) – 115 тис., L-Master – 540 тис. і т.д.
[8]
Вважається, що для практичного перекладу текстів з певної тематики (наприклад, з радіоелектроніки або мікробіології) достатньо словника в 10-12 тис. слів
[9]
.
Технічне забезпечення
включає технічні засоби (в теперішній час це ПЕОМ), на яких реалізована система. Технічні характеристики системи обов’язково повинні вказуватися у супровідній документації. Технічні характеристики містять наступну інформацію:
· тип ПЕОМ, на якій працює дана система (як правило, вказується клас процесора);
· вимоги до обсягу оперативної пам’яті;
· вимоги до наявності вільного обсягу дискової пам’яті.
За даними корпорації Microsoft для роботи зі стандартними засобами перекладу в Word 2002 необхідний процесор Pentium 166, 128 Мб оперативної пам’яті, 150 Мб вільного місця на жорсткому диску
[10]
, для стабільної роботи бажано також використовувати ОС Windows XP. Програма є досить ресурсоємною; більш вимоглива до обсягу оперативної пам’яті, ніж до потужності процесора.
Кадрове забезпечення
системи на етапі її функціонування включає людей, котрі експлуатують дану систему. Більшість систем машинного перекладу орієнтовані не на кінцевого користувача (спеціаліста в певній області, який не володіє вихідною мовою), а на користувача-перекладача, тобто такі системи МП є засобом інтенсифікації праці перекладача. В цьому контексті стандартні засоби перекладу Word 2002 є виключенням; система позиціонується корпорацією Microsoft як інструмент для бізнес-користувача, сервісні можливості якого, хоч і поступаються спеціалізованим програмним продуктам (системам МП, програмам розпізнавання мови, OCR-системам), є достатніми для ведення ефективного електронного документообігу
[11]
.
З точки зору розробника, система поділяється на три основні компоненти:
· інтерфейс користувача;
· підсистема обробки мовної інформації (тобто лінгвістичний процесор);
· підсистема ведення електронних словників (тобто інформаційне забезпечення системи).
Для кінцевого споживача програмного продукту інтерфейс користувача має особливе значення: вдало продуманий інтерфейс здатен забезпечити програмі популярність і комерційний успіх, його непродуманість – завадити пакету зайняти гідне місце на ринку програмного забезпечення (навіть при наявності видатних функціональних можливостей).
Інтерфейс користувача
– це програмний комплекс, що вирішує завдання взаємодії (діалогу) користувача і системи. Інтерфейс користувача включає сервісні програми, котрі дозволяють:
· мати доступ до текстових вхідних файлів (тобто до текстів, які необхідно перекласти);
· встановлювати режими перекладу (пакетний або діалоговий);
· встановлювати мовні пари (з якої на яку мову перекладати, якщо система має декілька напрямків перекладу);
· використовувати вбудовані редактори (тобто редагувати вихідний текст не виходячи з системи МП);
· мати засоби поповнення словників (тобто система меню, що дозволяє поповнювати електронний словник новими словниковими статтями);
· видаляти непотрібні користувачеві словникові статті і вносити зміни в старі словникові статті при необхідності);
· мати доступ до режиму друку на принтері вхідного та вихідного текстів.
З усіх перелічених функцій особливе значення має редагування тексту, безпосередньо в системі МП. Відомо, що жодна з існуючих на даний момент програм-перекладачів не може перекладати текст безпомилково. Вихідний текст практично завжди потребує редагування. В той же використання вбудованого в систему МП редактора потребує певного часу на оволодіння навичками роботи з ним, що дещо знижує продуктивність праці користувача, саме тому більшість існуючих систем МП передбачають функцію інтеграції з текстовим процесором Microsoft Word: ця програма стала стандартом де-факто для підготовки текстів і практично кожний користувач ПК має певні навички у роботі з нею, отже для більшості користувачів простіше здійснювати переклад безпосередньо в Word, використовуючи зручний і зрозумілий інтерфейс цієї програми. Інтеграція систем МП і Word відбувається шляхом додавання в Word нових інтерфейсних елементів (меню та панелей інструментів), склад і призначення яких відрізняються в залежності від конкретної системи МП.
ІІ. Використання Word 2002 як середовища перекладу іншомовних текстів
2.1. Загальна характеристика Word 2002
В даний час Microsoft Word є одним з найбільш розповсюджених текстових процесорів, використовуваних при підготовці важливих документів – звітів, листів, бізнес-планів і т.д. – для друкування і публікації в Web. Остання версія Microsoft Word розширює можливості створення і редагування текстів, пропонуючи засоби, необхідні для оптимізації процесів підготовки, спільного використання, перевірки і публікації документів. Word 2002 спрощує доступ до існуючих функціональних можливостей і пропонує нові, гнучкі засоби роботи з документами. Крім того, тепер за допомогою Word існує можливість спільної роботи над документами.
Далі поданий огляд основних цілей, що ставилися при розробці Word 2002, а також його нових і удосконалених функцій, що сприяють досягненню цих цілей.
Найважливішою метою, що ставилася при розробці Word 2002, було спрощення доступу до існуючих і нових функціональних можливостей програми, а також оптимізація способів їхнього використання
[12]
. Спрощені методи виклику і застосування наявних у програмі засобів сприяють освоєнню нових можливостей продукту, що, у кінцевому рахунку, підвищує ефективність роботи користувача, допомагаючи створювати більш якісні звіти, бізнес-плани й інші документи. Для досягнення цієї мети у всіх додатках пакета Microsoft Office були реалізовані нові засоби (такі як області задач і смарт-теги), а також поліпшені методи застосування форматування, використання стилів, маркірованих списків, змістів документів і багатьох інших функцій і можливостей.
Смарт-теги імені, адреси і дати.
У попередніх версіях Word була передбачена можливість розпізнавання URL-адресів і адресів електронної пошти та активізації посилань, зв'язаних з цими елементами. Клацнувши такий елемент мишею, користувач міг активувати його. Word 2002 розширює цю можливість, пропонуючи засоби розпізнавання імен, адрес і дат. Розпізнавши елемент, Word пропонує користувачу смарт-тег, за допомогою якого той може одержати додаткову інформацію з Web чи з інших додатків Office
. Додаткові смарт-теги будуть доступні на web-вузлі Office Update. Вони можуть використовуватися організаціями і незалежними виробниками для розширення існуючого набору смарт-тегів, що дозволить створювати унікальні рішення для роботи з документами. З точки зору користувача-лінгвіста технологія смарт-тегів є перспективною насамперед в плані можливості підключення нових словників і словарних статей (з інтрамережі організації, з Інтернету), смарт-теги також можуть використовуватися для додавання в документ визначень та пояснень до використовуваних іншомовних термінів тощо.
Переклад
. Нова версія Word дозволяє виконувати переклад слів безпосередньо в документах (підтримувані мови залежать від встановлених у системі словників) і надає доступ до служби перекладу у Web. За допомогою даної служби може здійснюватися переклад цілих документів і забезпечується підтримка додаткових мов.
Розпізнавання мови.
Word 2002 підвищує продуктивність праці завдяки тому, що крім традиційних способів введення — за допомогою миші і клавіатури — використовуються також мовні команди. Завдяки функції розпізнавання мови користувачі можуть диктувати текст, а також застосовувати мовні команди для безпосередньої зміни форматування і переміщення по меню.
Розробники Word 2002 значну увагу приділили підвищенню ефективності роботи груп. Важливе значення має можливість надання матеріалів у загальний доступ і виконання спільної роботи над документами. Саме тому одна з основних цілей, що ставилися при розробці Word 2002, полягала в спрощенні реалізації зазначених функцій
[13]
. При цьому користувачі не повинні були вивчати методику застосування відповідних нових засобів або відмовлятися від звичного стилю роботи. Прикладом такої можливості є функція відправлення на перевірку, що пропонує більш ефективні методи надання матеріалів у загальний доступ і виконання спільної роботи над документами.
Відправлення на перевірку.
У Microsoft Word є відомості про конкретну роль кожного з користувачів у процесі перевірки. Цим користувачам надаються засоби, необхідні для успішної спільної роботи над документами. При відправленні документа на перевірку (меню "Файл", команда "Отправить") автоматично включаються відповідні засоби резензування для інших користувачів. Крім того, при поверненні документа всі зміни можуть бути включені у вихідний документ. Оскільки процедура перевірки в кожному конкретному випадку може мати свої особливості, не потрібно призначати ролі або визначати порядок перевірки. Наприклад, якщо користувач відправляє документ як вкладення електронної пошти, а потім одержує його змінену версію, Word допускає, що документ міг бути відправлений на перевірку і дозволяє автору вихідного документа в разі потреби легко включити в нього запропоновані рецензентом зміни.
Порівняння й об'єднання виправлень
. Microsoft Word тепер дозволяє поєднувати примітки і виправлення, зроблені декількома рецензентами. Потім автор (власник документа) може прийняти або відхилити одне чи усі виправлення.
Багатокористувацькі документи
. Тепер за допомогою Word декілька користувачів можуть одночасно працювати над тим самим документом. Хоча дана функція не дозволяє виконувати одночасне редагування, користувачам не доводиться чекати, доки файл буде розблокований, щоб почати роботу над ним. Коли перший користувач закінчує редагування і закриває файл, всім іншим користувачам, що працюють з файлом, надається можливість переглянути зміни, внесені першим користувачем, і включити в цей файл свої зміни
[14]
.
2.2. Стандартні засоби перекладу у Word 2002
Функція перекладу тексту в Word 2002 є однією з найбіл
В основі алгоритмів перекладу Word 2002 лежить технологія Transfer, яка будується як комплекс трьох процесів. На першій стадії вихідний текст реалізується з розбиттям на групи іменників, прикметників, дієслів та прислівників. Далі відбувається перетворення цієї структури в аналогічну структуру вихідної мови, після чого відбувається синтез кінцевого речення за отриманою структурою
[15]
. Ця система дає прийнятні результати при перекладі коротких речень, в яких використовуються стандартні словосполучення і які мають стандартний порядок слідування членів речення: підмет, присудок, інші члени речення. Тому, якщо Word 2002 (і вбудована функція перекладу) використовується для ділового листування (можливість використання Word 2002 як редактора повідомлень електронної пошти передбачена в Office XP), доцільно попрохати свого ділового партнера писати короткими реченнями та уникати нестандартних мовних зворотів.
Використовувані в Word 2002 алгоритми перекладу малоефективні для флективних мов (котрі використовують в морфології флексію – словозміну, при якій словоформи з’являються шляхом зміни основи слова), які припускають довільний порядок слів в реченнях (таких як російська і українська); якщо за родом професійної діяльності користувачеві доводиться часто стикатися з необхідністю російсько-українського і україно-російського перекладу, альтернативи купівлі додаткового програмного забезпечення немає.
Звичайно, вбудовані в Word 2002 засоби комп’ютерного перекладу мають й істотні переваги. Основною перевагою в даному випадку є висока швидкість. Переклад тексту здійснюється за декілька секунд, що дозволяє швидко зрозуміти його зміст. Іншою важливою перевагою є надійний доступ до послуг перекладу. Перекладач завжди може бути використаний в разі потреби, в той же час як використання послуг бюро перекладів або людини-перекладача потребує витрат часу і грошей; використання ж спеціалізованих програм-перекладачів обмежене їхньою високою вартістю. Так, наприклад, Плай 4.02 продається по роздрібній ціні 150 доларів США, а Promt XT Office Giant – 2610 грн.
[16]
, що перешкоджає їхній інсталяції на комп’ютери усіх зацікавлених користувачів.
Однією з реальних можливостей підвищення якості перекладів засобами Word 2002 є використання так званої “обмеженої” мови. Існує два способи “обмеження” природної мови вхідних текстів: передмашинна обробка авторських текстів; написання текстів авторами з урахуванням встановлення дозволених синтаксичних конструкцій і вокабуляра. Так, міжнародна фірма Xerox ввела в обіг між центром і фірмами на місяцях (її філіали є в більшості країн світу) “обмежену” англійську мову – Multinational Customized English (MCE)
[17]
, що значно підвищило якість машинного перекладу, стандартизувало термінологію і полегшило розуміння документації, в першу чергу, неангломовними спеціалістами і споживачами. Настанова авторів документів на обмеження природної мови і якісний автоматичний словник дозволяють прискорити процес перекладу в п’ять разів
[18]
.
В цьому контексті виникає однак, занепокоєння з приводу того, що широке розповсюдження обмеженої природної мови може негативно позначитися на культурі мови взагалі. Однак, специфіка використання відповідних документів фактично виключає таку можливість.
2.3.
Використання мови VВА для реалізації систем машинного перекладу
Сьогодні вже нікого не може здивувати позиціонування сімейства офісних додатків Microsoft як платформи розробки спеціалізованих бізнес-систем. Основою таких розробок стала мова програмування VBA (Visual Basic for Applications), якою написані практично усі вбудовувані (Add-In) модулі систем МП для Word 2002 (Promt, Плай, Pragma та ін.). Вказана технологія бере початок з реалізації ще у версії Office 97 уніфікованої ієрархічної об'єктної моделі на основі OLE Automation (кілька сотень об'єктів, більше половини з який є загальними), створення єдиного внутрішнього механізму програмування додатків на основі VBA, а також інтеграція з іншим засобами розробки Microsoft, у першу чергу з Visual Basic.
У наступних версіях Office (2000 і XP) у цілому просліджується еволюційний розвиток цієї платформи без якихось революційних змін.
Випуск Microsoft Office XP Developer (поставляється тільки в англомовному варіанті), як і раніше, включає набір засобів, об'єднаних у набір Developer Tools. У ньому окрему групу складають розширення середовища розробки VBA для створення бібліотек Active DLL (у тому числі розширень COM Add-In для додатків Office), а також додатковий комплект конструкторів, майстрів і утиліт. Серед новинок слід зазначити DashBoard Project для розробки компонентів Web Parts.
Крім того, у складі цього випуску мається цілий ряд автономних додатків: засоби підтримки групової розробки Visual SourceSafe, спеціальні видання для розроблювачів SQL Server 2000 і Exchange 2000 Server, а також два нових інструменти Microsoft для створення додатків керування бізнесами-процесами - WorkFlow Designer for SQL Server і WorkFlow Designer for Exchange 2000 Server.
І все-таки, незважаючи на появу різних "супутніх" технологій, розробка додатків на платформі Microsoft Office як і раніше базується на системі об'єктів додатків і середовищу програмування VBA. У цьому зв'язку слід підкреслити, що розширення функціонала програм для кінцевого користувача автоматично підвищує можливості і створення спеціалізованих бізнесів-додатків.
Як і раніш, інструментарій VBA використовується в шести додатках зі складу Microsoft Office - Word, Excel, Access, PowerPoint, FrontPage і Outlook. Крім того, він застосовується в продуктах Microsoft Project і Microsoft Visio, а також поширюється у вигляді SDK для інтеграції в додатках третіх фірм. Нововведення VB.NET поки не знайшли відображення в Microsoft Word 2002: середовище розробки і мова програмування VBA залишилися приблизно такими ж, як у Office 97/2000. Word 2002 включає VBA версії 6.3, що, як говориться в коментарях Microsoft, містить ряд модернізацій у порівнянні з VBA 6.0 у складі Office 2000
. Такий "консерватизм", напевно, обрадує більшість VBA-програмістів, але варто мати на увазі, що тим самим буде порушена сумісність VBA і VB, до якої багато розроблювачів уже звикли. До того ж можна екати, що це лише тимчасова відстрочка в процесі переходу до VB.NET.
Об'єктна модель Microsoft Office XP не перетерпіла яких-небудь радикальних структурних змін, хоча вона продовжує розширюватися і модифікуватися. Ця модель складається з великої групи загальних об'єктів за назвою Office Objects і наборів об'єктів окремих додатків. Повну інформацію про нововведення об'єктної моделі Office XP можна знайти в електронній довідці. Зокрема, у довідковій системі Word 2002 маються розділи "Whаt's New for Microsoft Office Developers" (загальний для всіх додатків) і " Whаt's New for Microsoft Word 2002 Developers" (тільки для Word).
Раніш для операцій відкриття/збереження файлів на програмному рівні використовувалися ActiveX-елемент керування Common Dialog (крім роботи з файлами він виконує багато інших операцій, у тому числі вибір шрифту і друк) чи відповідні функції Win API. Тепер же Office 10 Object Library містить власний об'єкт FileDialog для роботи з файловою системою
. Він дозволяє поряд із традиційними вікнами Open і Save As реалізувати режими File Picker і Folder Picker. Це дозволяє виконувати пакетну обробку даних, зокрема потоковий переклад документів. Використання цієї функції вже реалізоване в системі МП для Microsoft Word фірми Trident Software – комерційному продукті Pragma 1.0.
ІІІ. Програмні реалізації систем машинного перекладу сторонніх виробників в Word 2002
3.1. Оцінка ефективності систем машинного перекладу
Широке розповсюдження мікрокомп’ютерів і мікропроцесорів в перекладацькій справі сприяє розширенню сфери використання систем МП. Тепер ситуацію можна охарактеризувати так: “знайомство перекладачів з МП запевнило їх в тому, що машина все ж таки може перекладати, але вона це робить так, що не виникає небезпеки конкуренції”
[19]
. Поповнення традиційних форм перекладу машинними внесе впорядкованість в систему задоволення різних інформаційних потреб замовників в перекладі і в характер роботи виконавців, залишаючи професійним перекладачам найбільш відповідальну роботу.
Якість МП значно поступається перекладу, виконаному спеціалістом, тому “конкурентноздатність” МП може виявлятися лише в конкретних інформаційних умовах. В міру впровадження МП в інформаційне обслуговування він буде набувати все більш яскраво виражений технологічний характер, де основне його використання – забезпечення оперативною експрес-інформацією спеціалістів.
Так, канадська фірма Mitel, що поставляє свою продукцію (обладнання для телефонних систем) в багато країн світу, зіткнулася з необхідністю оперативної зміни документації до свого обладнання одразу ж на декількох мовах, так як приблизно кожні півроку продукція фірми вдосконалюється. Обсяг перекладацьких робіт при цьому досягає 4500 сторінок, або 2 млн. слів, кожною мовою. Крім того, відбувається переклад документації до нової продукції. Для виконання цієї роботи було б потрібно п’ять – шість перекладачів по кожній з мов, причому спеціалістів вузької тематики. Для скорочення видатків на переклад фірма придбала систему “Вайднер”, що працювала в інтерактивному режимі і перекладала з англійської на французьку, іспанську і німецьку.
Практичні результати експлуатації системи наступні. Якщо зазвичай перекладачем витрачається 20% робочого часу на переклад, 40% на пошук по словнику і 40% на передрук і оформлення (таблиці, графіки та ін.), то в процесі роботи з інтерактивною системою перекладачем витрачається 95% часу на переклад і редагування і лише 5% - на поповнення словника. Розробники системи “Вайднер” продовжують вдосконалювати її лінгвістичне забезпечення, вносячи в неї кожні три або чотири місяці ті чи інші корективи
[20]
.
Практика впровадження систем МП така, що до недавнього часу в ній переважали питання відпрацювання технології, в першу чергу програмування, тоді як стадія функціонування систем показала, наскільки цінним може виявитися досвід перекладачів і редакторів, що працюють з системами, причому не лише для “поточного” виправлення недоліків, але й для перспективного вдосконалення МП.
Усі зусилля, таким чином, спрямовуються в кінцевому підсумку на зниження обсягів постредагування – найбільш дорогого етапу МП. Порівняльну вартість усіх етапів МП можна проілюструвати даними, отриманими групою під керівництвом Ван Слайпа, яка оцінювала економічну конкурентоспроможність систем МП професійним перекладачам
[21]
. В таблицях 3.1 та 3.2 приводиться вартість обробки 100 слів (в доларах). Оцінка економічної ефективності системи Taum свідчить про її нерентабельність (табл. 3.1), вона не набула широкого розповсюдження.
Таблиця 3.1
Економічні показники системи МП Taum і традиційного перекладу
Етапи
|
Вартість
|
|
Традиційний переклад
|
МП
|
|
Введення |
- |
0,68 |
Переклад |
4,67 |
3,58 |
Редагування |
1,42 |
3,41 |
Передрук |
0,68 |
0,85 |
Загальна вартість
|
6,77
|
8,52
|
Таблиця 3.2
Економічні показники системи МП Reverso і традиційного перекладу
Етапи
|
Вартість
|
|
Традиційний переклад
|
МП
|
|
Введення |
- |
1,20 |
Переклад |
5,60 |
0,40 |
Передрук |
0,47 |
- |
Всього |
6,07 |
1,60 |
Редагування |
2,00 |
4,00 |
Передрук |
0,47 |
0,47 |
Всього
|
8,54
|
6,07
|
Економічні показники системи Reverso виглядають більш оптимістично. Дані таблиць підтверджують положення про те, що постредагування – одне з головних питань МП, так як його характеристика – обсяг, складність та ін. визначають рентабельність системи в цілому; оптимізація постредагування – комплексна проблема, яка потребує докладного вивчення способів підвищення якості текстів МП і оптимізації процесів перед- і постредагування.
3.3. Оптимальний вибір програмних компонентів для задач перекладу іншомовних текстів в середовищі Word 2002
Нова версія текстового процесора Microsoft Word має вбудовані засоби перекладу іншомовних текстів, однак за своїми можливостями вони поступаються спеціалізованим програмам машинного перекладу. Отже, при необхідності професійної роботи з іншомовними текстами актуальною стає питання вибору найбільш оптимального програмного забезпечення сторонніх виробників. Повнофункціональні системи МП являють собою, як правило, не одну програму, а комплекс взаємопов’язаних програм. Так, популярна система Promt XT Giant окрім власної програмної оболонки включає модулі перекладу для Internet Explorer, Acrobat Reader, Word, Excel та ін. Модулі для Word (з підтримкою Word 2002 в останніх версіях) існують практично в усіх популярних програмах-перекладачах. При цьому, звичайно, продукти різних виробників досить істотно відрізняються за своїми характеристиками і функціональними можливостями.
Promt XT Office Giant
. Подальший розвиток популярної системи МП Stylus (російська компанія “ПРОект МТ” вимушена була відмовитися від назви Stylus через суперечку з компанією Epson, що просуває свою продукцію під маркою з аналогічною назвою). Promt XT Office зараз є однозначним лідером за кількість напрямків перекладу і функціональністю. Так, Promt XT підтримує прямий і зворотний переклад з англійської, французької, німецької на російську, а також виконує односторонній переклад з іспанської та італійської на російську. Продукт поставляється в декількох варіантах комплектації: від “легкого” Express до Promt XT Professional, котрий комплектується максимальною кількістю різних модулів. В стандартний комплект поставки входять 17 спеціалізованих словників, також можна підключати свої власні
[22]
.
Promt XT має багато корисних функцій, такі як озвучування тексту при наявності встановлених на комп’ютері засобів синтезу мови, сумісних зі стандартом Text-To-Speeh, і синхронний переклад, коли текст обробляється програмою одразу ж після введення чергового фрагмента речення.
Для передачі стилістичних особливостей документу, з якими системам машинного перекладу працювати важко, використовується модуль асоціативної пам’яті (АП), котрий працює на базі концепції Translation Memory. Некоректно інтерпретовану фразу користувач може перевести самостійно, після чого заносить в базу виправлений варіант. В настройках АП вказується ступінь співпадіння фрази. В подальшому, якщо в майбутніх документах зустрінеться аналогічна фраза, вона буде перекладена на основі даних з бази АП.
За швидкістю перекладу Promt XT поступається іншим програмам, але цей фактор компенсується більш високою якістю перекладу. В програмі збільшено словниковий запас, текст перекладається більш гладко з узгодженням відмінків. Окрім цього, програма більш надійно в порівнянні з попередньою версією розпізнає скорочення і абревіатури.
Pragma 1.0
. Програма машинного перекладу Pragma 1.0 прийшла на зміну більш ранній і досить популярній L-Master 98. Pragma 1.0 працює за новою, відмінною від L-Master технологією, і дозволяє здійснювати переклад трьома мовами – російською, українською, англійською, причому в будь-якій комбінації
[23]
. Продукт має два види словників – системний і словник користувача. Останній має більш високий пріоритет, тому слова спершу розглядаються в ньому, потім в системному. Спеціалізовані словники в програмі обираються автоматично за ключовими словами з тексту. При інсталяції Pragma 1.0 встановлює свої модулі не лише в Word, але й в Notepad та WordPad. Це дозволяє здійснювати переклад безпосередньо у вікні цих додатків. Функціональні можливості продукту достатньо обмежені: Pragma 1.0 не має в комплекті поставки навіть електронного словника у вигляді окремого додатка, присутній лише орфографічний модуль. Проте в області експорту / імпорту програма має досить широкі можливості, дозволяє відкривати і зберігати файли в більш ніж 10 форматах. Швидкість перекладу в порівнянні з L-Master збільшилася в декілька разів. Якість перекладу теж дещо покращилася.
Socrat 4.1
. Свою історію системи машинного перекладу Socrat ведуть з 1995 року, коли була випущена перша версія цього електронного перекладача. Через деякий час компанією Арсеналъ була випущена 32-розрядна версія продукту Socrat 97. Нещодавно випущена система машинного перекладу Socrat 4.1 здійснює переклад всього в двох напрямках – з російської на англійську і в навпаки. До складу продукту, окрім перекладача, входить також електронний словник, що використовує загальні словникові бази.
За кількістю сервісних функцій ця програма поступається конкурентам – з додаткових засобів в її склад входить лише електронний словник. В настройках програми не можна вказати спеціалізований словник під час перекладу, а також визначити зарезервовані слова. Хоча, за інформацією розробника, система автоматично враховує тематику і стилістичні особливості тексту
[24]
.
Плай 4.02
. Програма Плай 4.02 входить в склад пакету ProLing Office 4.02. Окрім, власне електронного перекладача в пакет входить популярна система перевірки орфографії Рута 4.02, а також електронний українсько-російсько-український словник Уліс 1.1. Система комп’ютерного перекладу (як і модуль перевірки орфографії) інтегрується під час інсталяції в Microsoft Word і працює в його вікні.
До складу продукту Плай 4.02 входить 2 загальних і 4 спеціалізованих словника загальним обсягом біля 300 тисяч слів. Швидкість перекладу є достатньо високою: 1 тисяча знаків в середньому опрацьовується за 2-3 секунди. Якість перекладу достатньо висока.
Висновки
Важливість і перспективність машинного перекладу стали реально усвідомлюватися з того часу, як було визначено його потенційне місце в системі опрацювання науково-технічної і ділової інформації при включенні в сферу міжнародної комунікації.
Характеристики ділового і наукового спілкування як інформаційного процесу, сприяють виявленню складнощів, що встають на шляху інтенсифікації ділової і наукової діяльності і допомагають, таким чином, оцінювати можливі шляхи їх подолання, яке, на сучасному етапі розвитку науково-технічного прогресу тісно пов’язане з використанням електронно-обчислювальної техніки.
Автоматизація і інтенсифікація – такою є перспектива розвитку інформаційних процесів в системі міжнародної комунікації. Важливою складовою інформаційного обслуговування сфери міжнародної комунікації є переклад літератури і документації, питання автоматизації якого набувають все більшого значення в світлі перспектив розвитку професійної сфери діяльності.
Разом з постановкою проблеми автоматизації перекладу іншомовних текстів виникає і її рішення, яке в річищі загальних тенденцій розвитку програмного забезпечення ПК передбачає використання інтегрованих багатофункціональних офісних пакетів. Саме таким пакетом і є новий текстовий процесор корпорації Microsoft – Word 2002. Дослідження можливостей і засобів перекладів іншомовних текстів в середовищі Word 2002 дозволяє зробити наступні висновки:
1. Microsoft Word 2002 є багатофункціональним повноцінним рішенням автоматизації офісного документообігу на підприємствах усіх рівнів. Використання нових можливостей і інтегрування додаткових сервісних функцій, в числі яких чільне місце посідає можливість машинного перекладу іншомовних текстів ще раз підтверджує статус Microsoft Word як провідної програми на ринку текстових процесорів, стандарту де-факто для задач обробки текстової інформації.
2. За рівнем функціональності в області машинного перекладу текстів вбудовані засоби Word 2002 поступаються спеціалізованим продуктами сторонніх виробників. Це пов’язане з використанням більш простих алгоритмів аналізу іншомовних текстів і генерації вихідних документів.
3. Перспективи використання вбудованих засобів перекладу іншомовних текстів в Word 2002 пов’язані насамперед з діяльністю користувачів – непрофесійних перекладачів, у яких виникає необхідність побіжного ознайомлення з іншомовними текстами. Задачі створення чорнового варіанту іншомовного тексту з метою подальшого його редагування і літературної обробки зручніше й ефективніше виконувати за допомогою спеціалізованих програмних засобів, функціональність яких є значно вищою, ніж у стандартних засобів Microsoft Word 2002. Можливість вбудовування таких програм в Word за допомогою Add-In модулів позбавляє користувача необхідності переносити текстові фрагменти між текстовим процесором і системою машинного перекладу і забезпечує кінцевому користувачеві роботу у звичному й інтуїтивно зрозумілому інтерфейсі.
Список використаних джерел
1. Войнов В. К., Блехман М. С. Состав, методики разработки и эффективность действующих систем машинного перевода. – Харьков, 1987.
2. Вопросы моделирования языка и машинного перевода / под ред. Х. А. Радзикулова. – Самарканд, 1984.
3. Марчук Ю. Н. Проблемы машинного перевода. – М., 1983.
4. Машинный перевод и прикладная лингвистика. Проблемы создания системы автоматического перевода / под ред. Г. В. Чернова. – М., 1986.
5. Машинный перевод как информационная и технологическая реальность / под ред. Ю. Н. Марчука. – М., 1988.
6. Международный семинар по машинному переводу (Москва, 5-10 марта 2002 г.). – М., 2002.
7. Моделирование языка и машинный перевод / под ред. А. А. Коверина. – Иркутск, 2001.
8. Пилипенко О. Персональное бюро переводов // Chip. – 2002. - №8.
9. Рябцева Н. К. Информационные процессы и машинный перевод. Лингвистический аспект. – М., 1986.
10. Степанов М. Ф. Машинный перевод и общение на естественном языке. – Саратов, 2000.
11. Хайрова Н. Ф., Замаруева И. В. Машинный перевод. – Харьков, 1998.
12. Вонг У. Office XP для "чайников". – М., 2002.
13. Хабрейкен Д. Изучи Microsoft Office XP за 10 минут. – М., 2002.
14. www.ars.ru
15. www.microsoft.com/rus/office/
16. www.mtsoft.kiev.ua
17. www.promt.ru
18. www.trident.com.ua
[1]
Рябцева Н. К. Информационные процессы и машинный перевод. Лингвистический аспект. – М., 1986. – С. 29.
[2]
Степанов М. Ф. Машинный перевод и общение на естественном языке. – Саратов, 2000. – С. 91.
[3]
Хайрова Н. Ф., Замаруева И. В. Машинный перевод. – Харьков, 1998. – С. 44.
[4]
Пилипенко О. Персональное бюро переводов // Chip. – 2002. - № 8. – С. 59.
[5]
Моделирование языка и машинный перевод / под ред. А. А. Коверина. – Иркутск, 2001, – С. 128.
[6]
Машинный перевод и прикладная лингвистика. Проблемы создания системы автоматического перевода / под ред. Г. В. Чернова. – М., 1986.
[7]
Машинный перевод как информационная и технологическая реальность / под ред. Ю. Н. Марчука. – М., 1988. – С. 202.
[8]
Пилипенко О. Персональное бюро переводов // Chip. – 2002. - № 8. – С. 62.
[9]
Моделирование языка и машинный перевод / под ред. А. А. Коверина. – Иркутстк, 2001. – С. 144.
[10]
www.microsoft.com/rus/office/
[11]
там само.
[12]
www.microsoft.com/rus/office/
[13]
Хабрейкен Д. Изучи Microsoft Office XP за 10 минут. – М., 2002. – С. 101.
[14]
Вонг У. Office XP для "чайников". – М., 2002. – С. 122.
[15]
Международный семинар по машинному переводу (Москва, 5-10 марта 2002 г.). – М., 2002. – С. 33-34.
[16]
Пилипенко О. Персональное бюро переводов // Chip. – 2002. - № 8. – С. 62.
[17]
Международный семинар по машинному переводу (Москва, 5-10 марта 2002 г.). – М., 2002. – C. 49.
[18]
Там само.
[19]
Хайрова Н. Ф., Замаруева И. В. Машинный перевод. – Харьков, 1998. – С. 339.
[20]
Степанов М. Ф. Машинный перевод и общение на естественном языке. – Саратов, 2000. – С. 214.
[21]
Хайрова Н. Ф., Замаруева И. В. Машинный перевод. – Харьков, 1998. – С. 304.
[22]
www.promt.ru
[23]
www.trident.com.ua
[24]
www.ars.ru