Przegląd zagadnień algorytmiczno-inżynierskich w aplikacji wspomagającej tłumaczenie przy tworzeniu wielojęzycznych wersji dokumentów DTP

Brak miniatury

Data

2010

Tytuł czasopisma

ISSN czasopisma

Tytuł tomu

Wydawca

Wydawnictwo Politechniki Łódzkiej
Lodz University of Technology. Press

Abstrakt

Praca przedstawia szereg zagadnień związanych z automatycznym tłumaczeniem katalogów i broszur reklamowych przy użyciu systemu klasy CAT (Computer-Aided Translation) i dokumentuje nasze prace związane z otrzymaniem efektywnych rozwiązań algorytmicznych. Programy CAT zwykle działają na poziomie małych segmentów tekstu (fraz), zorganizowanych w postaci słowników (ang. Translation Memory). Programy CAT umożliwiają m.in. swobodną nawigację po dokumencie, automatyczne tłumaczenie rozpoznanych fraz i sugestie tłumaczenia dla fraz podobnych do już istniejących w systemie, wygodne wyszukiwanie i edycję słowników. Ogólnie biorąc rozważane przez nas zagadnienia można podzielić na: dotyczące interfejsu użytkownika oraz dotyczące algorytmów tekstowych. W szczególności rozwiązaliśmy zagadnienia detekcji symboli (tj. sekwencji znaków nie wymagających tłumaczenia dla większości par językowych takich jak liczby, jednostki fizyczne, kody, numery fabryczne i referencyjne, zastrzeżone znaki towarowe itp.), edycji słowników, etykietowania wybranych elementów dokumentu, tłumaczenia z dziurami (ang. gaps), pasowania rozmytego (ang. fuzzy matching). Funkcjonalności te przyśpieszają pracę tłumacza, minimalizując szansę zaistnienia pewnych klas błędów w procesie tłumaczenia oraz ułatwiają zarządzanie dokumentem oraz bazą słowników. Tym samym, skrócony jest cykl produkcyjny dokumentu, co szczególnie jest ważne przy dokumentach DTP, które wymagają równoległego tłumaczenia na wiele języków (katalogi, broszury reklamowe).
We present and discuss a number of problems related to effective translation of product catalogues and advertising brochures with a CAT (Computer-Aided Translation) application. CAT tools usually work on smali text phrases (snippets) organized into so-called Translation Memories (TM). Those tools make it possible to navigate freely over the document, automatically translate recognized phrases and prompt suggestions for translating phrases similar to ones already found in the system, search and update the TMs, and more. The problems and issues we consider here can generally be divided into those related to the user interface and those based on text algorithms. In particular, we solved the problems of symbol detection (where "symbols" are sequences of characters which should not be translated, like numbers, abbreviations of physical units, product codes, reference numbers, registered symbols and trademarks etc), TM editing, document annotation, translating with gaps, fuzzy matching. Those functionalities speed up the work of a translator (e.g., by minimizing the probability of occurrence of some classes of errors in the translation process) and make the management and maintenance of the document and TMs easier. In this way, the document release cycle is shortened, which is of utmost importance for the DTP documents which require parallel translation into many languages (catalogues, advertising brochures).

Opis

Słowa kluczowe

Cytowanie

Zeszyty Naukowe Politechniki Łódzkiej. Elektryka., 2010 z.121 s.423-450 sum.