keresés

2016. május 4., szerda

Többnyelvű információkeresés III.

Manuálisan létrehozott fordítórendszerek és erőforrások


A kutatók és szakemberek sokáig kénytelenek voltak saját kezűleg kialakítani fordítórendszereket és erőforrásokat, így a gépi fordítórendszereket és a gépi olvasású kétnyelvű szótárakat és a tezauruszokat.

A gépi fordítókat abból a célból hozták létre, hogy teljes szöveges fordítást biztosítsanak anélkül, hogy bármiféle emberi beavatkozás kellene a működésükhöz. A fordítás minősége idővel nagyot javult, melynek több oka is van (pl. a számítógépek és teljesítményük fejlődése, jobb és kidolgozottabb rendszereket alakítottak ki, a terület egyre nagyobb figyelmet kapott, stb.) Bár a gépi fordítók távolról sem tökéletesek, mégis az általuk létrehozott fordítások meglehetősen érthetőek az olvasó számára. Emellett azt is gondolhatnánk, hogy a gépi fordítók ideális megoldást nyújtanak akár a lekérdezések fordítására is, nem csak a dokumentumokéra. Hiszen a lekérdezést csak lefordíttatjuk a fordítóval, s onnantól már csak az egynyelvű keresés problémáival találkozhat az ember.

Gépi fordítás


A gépi fordítást két fő kategóriára lehet osztani:
– a tradicionális szabály alapúra és
– a statisztikai alapúra.
Például: a Systran szabály alapú fordító, míg a Google Translate és a Language Weaver statisztikai alapú. A szabály alapú rendszerek manuálisan megállapított szabályok és eszközökkel operálnak, melyek különböző típusai: lexikai, kifejezéses, szintaktikus, szemantikus, stb. rendszerek. A kifejezések és a fordításaikat el lehet tárolni szótárakban, akárcsak a szimpla szavakat. Például a francia „pomme de terre”-t és annak magyar megfelelőjét a „burgonya”-t el is kellene tárolni, hogy a megfelelő fordítás később is gyorsan rendelkezésre állhasson.

A nyelvtani és szintaktikai szabályok segítenek felismerni a forrásnyelv szintaktikai szerkezetét és segítenek létrehozni a célnyelvben a megegyező szerkezetet. A szemantikai szabályok segítenek kiválasztani a helyes fordítást, amikor a forrásnyelvben fordítási bizonytalanság áll fönn. A szemantikai szabályokat azonban a legnehezebb felépíteni és beépíteni a fordítási folyamatba. Egy nyelv teljes szemantikai modelljének a felállítása hatalmas mennyiségű szemantikai információt igényel, ami majdhogynem egyenlő lenne a világ tudásának lemodellezésével. Egyértelmű, hogy ezt elég nehéz, vagy még inkább képtelenség a gyakorlatban megvalósítani.

A statisztikai alapú fordítás statisztikai nyelv és fordító modelleken alapul, melyeket automatikusan nyernek ki nagy mennyiségű szövegből és fordításaikból – azaz legalább két dokumentumcsoport van. Ezek a kinyert elemek lehetnek szavak, azok ragozott változatai, kifejezések, stb., melyek mindkét nyelvben és a fordításukban is szerepelhetnek.

Meg kell jegyezni, hogy a gépi fordítás nem feltétlenül a legjobb módszer a többnyelvű információkeresés problémájának a megoldására, mivel elég messze van a lehető legjobb pontosság elérésétől, valamint a lehetséges és interneten elérhetővé vált hatalmas mennyiségű dokumentum-gyűjteményt teljesen lefordítani igencsak nagy kiadásokkal járna, emellett teljesen felesleges pluszfeladatok végrehajtásával is járna – például a szórend helyes kialakítása.

Ezért a mai kutatások inkább arra fókuszálnak, hogy magát a lekérdezést fordítsák le a célnyelvre. Ez sokkal költséghatékonyabb, tekintve, hogy a dokumentumok relatíve kis százaléka felé mutatnak nagy érdeklődést a felhasználók, ezért elég csak ezeket a dokumentumokat lefordítani. Ezen felül a felhasználók egy részének van akkora szókincse az adott nyelvben, hogy megértse a dokumentumot, bár magát a lekérdezést nem tudta volna helyesen megfogalmazni.

Tudás alapú technikák


Ezek a technikák többnyelvű szótárakat, -tezauruszokat és -ontológiákat alkalmaznak a többnyelvű információkeresés feladatának végrehajtására. Már a legelső próbálkozások is szótárak felhasználásával kísérelték meg megoldani a többnyelvű információkeresést. Bizonyított tény, hogy a szótár alapú lekérdezés-fordítás, amelyekben minden kifejezést és fogalmat a másik nyelvben lévő megfelelőjével összepárosítanak – vagy ha ez nem lehetséges, akkor annak egy értelmében legközelebb álló, releváns szóval kapcsolják össze –, megfelelő első kísérlet a többnyelvű információkeresésre. Természetes azonban, hogy ezek a megoldások mindig gyengébben teljesítenek, mint az egynyelvű keresések. A kutatások szerint a gép által olvasható automata lekérdezés-fordítás az egynyelvű keresés pontosságának csupán negyven-hatvan százalékát éri el.
Ennek három oka van:
– az első, hogy az átlagos szótárakban nincsenek meg a szakszótárak szavai, kifejezései,
– a második a hamis, illetve rossz fordítások jelenléte,
– a harmadik, hogy nem tudják lefordítani a többszavas kifejezéseket.

Az ontológiák és tezauruszok legfőbb problémája, hogy drága a kiépítésük és a fenntartásuk, ráadásul nehéz őket frissíteni. A nyelvek közti különbségek és a kulturális tényezők miatt nehéz a hatékony feltérképezés elérése a lexika és fogalmi megfelelők között a két adott nyelvben, ezt a problémát tovább súlyosbítja, ha több nyelvvel kell dolgozni. Ezért elengedhetetlen valamilyen közvetítő nyelv, mely lehetővé teszi a többi nyelv közötti fordítást, ennek velejárója az lesz, hogy kompromisszumot kell kötni a többnyelvűség és az egynyelvű specializálódás között.

Szótár alapú fordítás


Egy kétnyelvű szótárban minden szó vagy kifejezés egyenként le van fordítva a célnyelvre, gyakran több szinonimával együtt. A szótárak különböző elvek alapján vannak felépítve. A többnyelvű információkeresésnél használatos szótárak általában szólisták, melyek mellett ott van a fordításuk is. Némely szótárban példák vannak a felhasználásra, vagy jelentésmagyarázattal is kiegészítik a szavakat. A szótárban lévő többletinformáció segíthet kiválasztani a legmegfelelőbb fordítást a szöveg kontextusából. Azonban a legtöbb tanulmányban az ilyen többletinformációk nem elérhetőek a felhasznált szótárakban.

A szótár alapú fordításban általában egy gép által olvasott kétnyelvű szótárt használnak, hogy lefordítsák a célnyelv és a forrásnyelv megegyező jelentésű szavait, kifejezéseit. Viszont itt van néhány probléma jelentkezik: pl. vannak olyan szavak, amik nincsenek a szótárban. Nincs olyan szótár, amely teljes lenne, hisz a használatban lévő nyelvek fejlődnek, módosulnak – egyes szavak több jelentést is kaphatnak, de akár teljesen megváltozhat a jelentésük. Emellett a több jelentésű szavak már önmagukban is gondokat okozhatnak, de megeshet még az is, hogy az adott szó több jelentéssel bír a célnyelvben is – ez növeli a fordítás bizonytalanságát és ezzel párhuzamosan csökkenti a pontos keresés esélyét.

Probléma lehet az is, hogy esetleg nincs megfelelő szó vagy kifejezés az adott célnyelvben. További nehézségek: a szótárakban általában a szavak alapesete áll fent, míg a keresésben lehet, hogy azok egy változatát írják be; a kifejezéseket előbb fel kell ismerni, hisz lehet, hogy csak hasonló jelentéssel bír célnyelv kifejezésével, ezért fel kell őket bontani, hogy kereshetővé válhassanak . Ez utóbbi két gond fennáll a hagyományos keresőrendszereknél is, így itt is alkalmazható az ott használt megoldások egyike.

Bár a szótár alapú gépi fordításnál rengeteg rendszer tűnik ígéretesnek, azonban nagy részüknél nem lehet eléggé kibővíteni a szótár méretét úgy, hogy az ne okozzon problémát a felhasználóknak. Erre egy lehetséges megoldás, ha maga a felhasználó tudja irányítani az új szavak vagy mondattani szerkezetek hozzáadását, illetve elvételét . Ennek segítségével egy képzett felhasználó úgy képes hozzáadni és megváltoztatni nyelvtani szabályokat, hogy közben nem kell lefordítani a többi szót.

Források:


Kirchner, Jesse Saba; Nuger, Justin; Zhang, Yi: An extensible crosslinguistic readability framework. In BUCC '09 proceedings of the 2nd workshop on building and using comparable corpora: from parallel to non-parallel corpora. 11-18. p. Szingapúr, Association for Computational Linguistics, 2009. 67 p.

Prószéky, Gábor: An approach to machine translation via the rule-to-rule hypothesis. In Proceedings of the 10th Conference of the European Association for Machine Translation (EAMT) 219-225. p. Budapest, PPKE IKT, 2005. 304 p.

Nie, Jian-Yun: Cross-language information retrieval. San Rafael, Morgan & Claypool, 2010. 125 p.

Soergel, Dagobert: Multilingual thesauri in cross-language text and speech retrieval. In Working notes of AAAI spring symposium on cross-language text and speech retrieval 164-170. p. Stanford, American Association for Artificial Intelligence, 1997. 1123 p.

Sutskever, Ilya; Vinylas, Oriol; Le, Quoc V.: Sequence to sequence learning with neural networks. In Advances in Neural Information Processing Systems 27 (NIPS 2014) 3104-3112. p. Montréal, NIPS Foundation, 2014. 3697 p.

Nincsenek megjegyzések:

Megjegyzés küldése