keresés

2016. április 13., szerda

Többnyelvű információkeresés I.

Bevezetés a többnyelvű információkeresés témakörébe


A többnyelvű információkeresés egy olyan technológia, amely kiegészíti a hagyományos információkeresést azzal, hogy lehetővé teszi, hogy más nyelven íródott dokumentumokban is kereshessünk.

A cikkek áttanulmányozása után, az olvasó átfogó képet kaphat a többnyelvű információkeresésről és az általa felvetett problémák megoldásához szükséges megközelítési módozatairól.

A többnyelvű információkeresés során a nyelvi akadályokat kétféleképpen lehet leküzdeni: vagy a lekérdezést fordítjuk le vagy magukat a talált dokumentumokat. Számos megközelítés létezik mindkét problémakör megoldására. Ezeket több kategóriába lehet sorolni: manuális vagy gépi fordítás, tudásalapú technikák, gyűjteményes módszerek. Ezeket további alcsoportokra lehet osztani, melyekről a további cikkekben térek ki.

A többnyelvű információkeresés története körülbelül 50 évre tekint vissza, s a különböző módszerek az évtizedek alatt hatalmas fejlődésen mentek keresztül, s mára már igencsak nagy hatékonysággal működnek. Bizonyos helyzetekben el is érik az egynyelvű keresők hatékonyságának szintjét.

A múltban az angol volt az a nyelv, amelyre a legnagyobb figyelmet fordították a szakemberek, s ez ma sincs másképp. Azonban az internet elterjedésével egyre jobban előtérbe kerülnek más nyelvek is.

Az internetet soha nem látott mértékben lepi el az információ, s ez egy egyre csak gyorsuló folyamat. Amíg az emberek képtelenek áthidalni a nyelvi akadályokat, például egy univerzális fordítóval, egy rendkívül fejlett mesterséges intelligencia használatával vagy mindenki egy nyelven kezd el beszélni, addig a többnyelvű információkeresés szerepe és létjogosultsága megkérdőjelezhetetlen és egyre fontosabb lesz a jövőben.

Az információ keresése mindennapjaink része, legyen az szórakozás vagy munka céljából való használat. Célja, hogy releváns információhoz jussunk hozzá, de legalábbis olyan dokumentumokhoz, melyek tartalmazzák azt. Ezzel az ún. információs igényünket akarjuk kielégíteni. Amikor pedig azt akarjuk eldönteni, hogy a dokumentumban benne van a számunkra értékes információ, akkor annak szemantikai tartalmát vizsgáljuk, értelmezzük. Ehhez szükséges, hogy a kereső olyan szempontok szerint keressen, amelyek megfelelnek az adott egyén speciális igényeinek, s amelyek azonos szemantikai szempontok szerint keresnek. Azonban ilyen keresők sajnos még nem léteznek. A fentiekben leírtak az információkeresés alapvető feladata, problémája, melyre különböző megoldások léteznek.

Tegyük fel, hogy szeretnénk egy bizonyos termékről az interneten információkat beszerezni. Találunk is egy dokumentumot, amely valószínűleg magában foglalja a keresett kérdést, de sajnos csak egy olyan nyelven, amelyet nem értünk. Ezzel pedig eljutunk a nyelveken átívelő információkeresés mindennapi problémájához.

Azaz olyan dokumentumokkal, információkkal találkozik a felhasználó, amelyek nyelve nem azonos a kereső személy által beszélt nyelvvel. A legtöbb esetben az emberek saját anyanyelvükön szeretnének releváns információt találni, amely egyben a lekérdezés nyelve is. Az internet-hozzáférés lehetőségeinek kiszélesedésével, egyre jobban körülvesznek minket az olyan információk, melyek nem az anyanyelvünkön íródtak. Az internet hatalmas mennyiségű információhoz nyújt hozzáférést, melyekhez különböző médiákon – szöveg, kép, videó, hang – és nyelveken keresztül lehet hozzájutni. Ha például szeretnénk hozzáférni egy orosz nyelvű dokumentumhoz, melyre német nyelven teszünk fel lekérdezéseket, azonnal felmerül a többnyelvű információkeresés problémája. Lényege ennek, hogy olyan információkat keresünk, melyek más nyelven vannak, mint a lekérdezés nyelve.

A többnyelvű információkeresés annyiban különbözik a hagyományos információkereséstől – nevezzük a saját nyelven történő keresésnek –, hogy a felmerülő nyelvi akadályokat valahogyan át kell hidalni. Viszont akárcsak a hagyományos keresésnél, a többnyelvű keresésnél is több összetett technológiából épül fel. A hagyományos keresés és a többnyelvű keresés alapvető céljai megegyeznek, hiszen mindkét esetben egy bizonyos dokumentumot szeretne elolvasni valaki, a különbség csakis annyi, hogy a hagyományos keresés az egyén saját nyelvén történik. A többnyelvű információkereséshez azonban szükséges a hagyományos keresés problémáinak ismerete is. A nyelvi nehézségeket megoldhatjuk azzal, hogy a lekérdezéseket lefordítjuk a célnyelvre, vagy pedig fordítva, azaz a dokumentumokat fordítjuk le a forrásnyelvre

A nyelveken átívelő többnyelvű információkeresésnek leggyakrabban három fő megközelítési módja lehetséges:

– Szövegfordítás gépi fordítási technikák útján.
– Tudás alapú technikák.
– Gyűjtemény alapú technikák.

Mindegyik technikának meg van a maga előnye és hátránya. Helyzetfüggő, hogy mikor melyik módszert alkalmazzuk, melyik a legjobb megoldás.

Az információkereső rendszerek lehetőséget biztosítanak a felhasználóknak arra, hogy olyan információkat szerezzenek be, amelyek relevánsak a megszerezni kívánt információra nézve, és ezt lekérdezés formájában tehetik meg. A többnyelvű információkereső rendszerek hasznosak lehetnek a különböző szintű nyelvtudást birtokló felhasználóknál, pl. valaki képes megérteni a dokumentum célnyelvét, viszont nem képes azt használni, így nem is tud lekérdezéseket feltenni. A rendszerek használata bármilyen formában megnyilvánulhat, lehet pl. egy tudományos kutatás, munkával összefüggő keresés vagy barkácsolással kapcsolatos tippek beszerzése. Az információkereső rendszereket viszonylag jól fel lehet osztani, a legcélszerűbb terminológiai megközelítés a következő két csoport:

– rendszerorientált rendszerek és
– felhasználó-orientált rendszerek.

A többnyelvű információkeresés fejlesztése napjaink fontos feladata, mert ha sikerülne megoldani, hogy különösebb anyagi és munkaerő ráfordítás nélkül jussunk hozzá idegen nyelvű dokumentumokhoz – ehhez elsősorban gépi fordítást kellene alkalmazni –, akkor gyakorlatilag bárki bármilyen publikált, az interneten elérhetővé vált információhoz hozzáférhetne.

Források:


Nie, Jian-Yun: Cross-language information retrieval. San Rafael, Morgan & Claypool, 2010. 125 p.

Talvensaari, Tuomas: Comparable corpora in cross-language information retrieval : academic dissertation. Tampere, University of Tampere, 2008. 70 p.

Uszkoreit, Hans: Cross-Language Information Retrieval : from naive concepts to realistic applications. In Proceedings of the 14th Twente Workshop on language technology 1-8. p. Twente, University of Twente, 1998. 212 p.

Nincsenek megjegyzések:

Megjegyzés küldése