kutatásiNapló: Többnyelvű információkeresés II.

2016. május 4., szerda

Többnyelvű információkeresés II.

A többnyelvű információkeresés során felmerülő nyelvi problémák

A többnyelvű információkeresés problémáit hosszú ideig csakis európai nyelvek esetében vizsgálták. Azonban a világban bekövetkezett változások, a globalizáció – politikai, gazdasági és kulturális – miatt, valamint az internet, mint elsőszámú kommunikációs csatorna előretörése következtében a kutatóknak és szakembereknek más nyelveket és nyelvcsoportokat is figyelmükbe kell venni a további kutatások során.

Ezek az új nyelvek újfajta megközelítések és megoldások kidolgozását követelik meg, annak ellenére, hogy a már létező módszereket is meglehetősen jó hatékonysággal lehet esetükben alkalmazni.

Európai nyelvek esetén felmerülő problémák

Az általános keresés során a dokumentumokban és a lekérdezésekben szereplő szavak először valamilyen előszűrésen esnek át, hogy kirostálják a jelentés nélküli morfológiai variációkat. Több ilyen szószedő algoritmus van ma is használatban, mint pl. a Porter-féle vagy a Krovetz-féle rendszer. A szószedés során mindenképpen meg kell felelni néhány szabálynak, hogy hatékony lehessen a későbbi keresés. Ilyen pl. a szavak szótári alakra való alakítása.

Hogy hatékonyabbá tegyék a folyamatot, kísérletek történtek a szedés automatizálására. Moreau és társai például azon az elven indultak el, hogy a közös tővel rendelkező szavakat próbálták meg összepárosítani, valamint a létrehozásukkor használt szabályt más szavakra is megpróbálták implementálni.

A módszerek egységesítésének köszönhetően, néha meglepően jó eredményeket lehet kapni a módszer segítségével, de ez nem általános. A jelenlegi keresőmotorok nem használják komolyabban a szószedést, s a kutatásokban is leginkább csak előszűrőként alkalmazzák. Egy másik keresési lehetőség, hogy az összetett szavakat szétválasztjuk az azokat alkotó elemekre. Ez különösen az agglutináló – azaz toldalékoló vagy ragozó – nyelvek esetében hatékony (pl. a német, a finn vagy a magyar). Ezzel viszont több probléma is felmerül: több írásformájuk is lehet, ekkor maga szó megtalálása is gondot jelenthet a dokumentumban. Vagy amikor az összetett szó különböző részei más szavakkal más összetett szavakat alkotnak. Az is megeshet, hogy az összetett szavakban több értelmes szó is megbújhat, nem csak az azt alkotók.

Ezért fontos, hogy a megfelelő szavakra bontsuk szét őket. Erre egy egyszerű megoldás a szótárak használata, hogy feltérképezzük az összes szórészt, ha az összetett szavat nem találjuk meg benne . Egy másik lehetőség, hogyha megvizsgáljuk annak az esélyét, hogy mekkora egy bizonyos szónak összetett szavakban való meglétének a valószínűsége .

Az is segíthet, hogyha egyszerűbb nyelvezetű szövegeket hasonlítunk. Alfonseca és társai ezzel próbálkoztak és arra jutottak, hogy a fentebbi módokat remekül ki tudja egészíteni ez a módszer.

Kelet-ázsiai nyelveknél felmerülő problémák

Ezekről a nyelvekről (elsősorban kínai mandarin, koreai és japán) elmondható, hogy sok közös vonásuk van, kezdve a kialakulásuktól át történelmi és nyelvi kapcsolatokig. E nyelvek mindegyike ideogrammákat használ az írásban kifejezendő szavak leírásakor. Ezek egyik igen fontos érdekessége és eltérése az indo-európai nyelvektől, hogy nem használnak szóközöket a mondatokban.

Bár egyes szavakat könnyű lehet felismerni, mégis nehéz őket különválasztani, mivel a térközök különböző állása miatt új és teljesen értelmes szavakat kaphatunk, amik megváltoztatják egy-egy mondat tartalmát, valamint az ideogrammák felcserélésével is el lehet ugyan ezt a hatás érni (sok-sok kombinációs lehetőségre adva lehetőséget).

Emellett ismeretlen szavak gyakori felbukkanása is megnehezíti a fordítást. Még ha a szövegkörnyezetből ki is deríthető a szó jelentése, nem biztos, hogy megtalálhatóak a szótárban. Valamint új szavak és kifejezések létrehozása könnyű, mivel minden egyes karakter rendelkezik valamilyen jelentéssel és a karakterek keverésével újabb értelmes szavakat lehet létrehozni.

A szavak megjelenési formájának rugalmassága is komoly problémát jelent. Ezért fontos, hogy pontosan azonosítsuk őket és megvizsgáljuk a köztük lévő kapcsolatot, így lehetséges, hogy olyan dokumentumokban keressünk, amelyek rokon ételmű szavakat tartalmaznak.

Az első feladat ezért az, hogy minden egyes mondatban meg kell határozni a megfelelő szavakat. Ezt az eljárást szó szegmentációnak nevezik . Tekintve, hogy például a kínaiban a szavak két ideogrammából állnak, ezért érdemes kettesével szegmentálni őket, szerencsére ehhez semmilyen nyelvi ismeret sem kell. Ha ez megtörtént mind a dokumentumok mind a lekérdezések esetében, akkor az európai nyelvekben használatos eljárásokat már lehet alkalmazni.

A kutatások azt mutatják, hogy érdemes ugyan azokat az eljárásokat és módszereket használni a kelet-ázsiai nyelvek esetén, mint az európaiakon. De figyelni kell az ismeretlen szavakra, melyek révén olyan dokumentumokat is találatul kapunk, melyek nem tartalmaznak számunkra releváns információkat.

További nyelvek

Az arab nyelvben a betűk megváltoztathatják a szavak kialakítását, attól függően, hogy hol helyezkednek el a szóban. Egy szó gyökeréhez hozzáírhatóak képzők és ragok, ezzel új, és akár más jelentésű szavakat lehet létrehozni. Emellett a magánhangzókat gyakran kihagyják írásban. Ezek a különleges tulajdonságok a betűk szedését és szabványosítását követelik meg .

Az indiai nyelvekkel is egy jobban foglalkoznak, melyre az első TREC típusú konferenciát (FIRE – Forum for Information Retrieval Evaluation) 2008-ban rendezték meg, melyre Kalkuttában került sor. Céljuk az indiai szubkontinens nyelvei közti jobb kereshetőség kutatása volt.

A többnyelvű információkeresés során felmerülő egyéb problémák

Az információkeresés egyik alapvető problémája – még egy adott nyelven belül is –, hogy egy szónak nemcsak több jelentése van, hanem azokat különböző módokon is lehet értelmezni . A dokumentumok és a lekérdezések kifejezések által vannak jelen a folyamatban, melyek az előbbiekben fordulnak elő, s amelyek eltérő jelentéssel bírhatnak, annak ellenére, hogy ugyan azt jelentik, hisz vegyük csak például a magyarban lévő piros és vörös szavakat. A szakirodalmi meghatározás alapján ez a két szó ugyan azt a színt jelöli, ám valószínűsíthető, hogy az emberek többségének a pirosról egy élénkebb és intenzívebb, míg a vörösről egy sötétebb és mélyebb szín jut az eszébe. Az ilyen problémák megnehezítik, hogy összepárosítsuk a releváns dokumentumokat a lekérdezés kifejezéseihez.

Ez a probléma még jobban előjön, amikor a dokumentumok maguk is több nyelven vannak egy gyűjteményben:

– Large floods in Central Europe in 2013.

– Schwere Hochwasser in Mitteleuropa im 2013.

– Nagy árvizek Közép-Európában 2013-ban.

Ez a példa jól mutatja, hogy megegyező információkat egyazon szövegrésznél összehasonlító módon kell kezelni, még ha különböző nyelveken is vannak leírva. Viszont megeshet, hogy a szavak vagy kifejezések jelentése nem teljesen vagy csak részben egyezik meg,. Az egyik fő feladat a többnyelvű információkeresésnél, hogy olyan eszközöket fejlesszünk ki, melyek összepárosítják a különböző nyelven lévő, megegyező kifejezéseket, de legalábbis a legközelebbi hasonló jelentésű szavakkal kapcsolják össze őket.

További problémát jelent – pontosabban jelentett –, hogy sokáig csak az Európában beszélt nyelvek esetében végeztek kutatásokat a szakemberek. Ez az internet elterjedésének köszönhetően mára már visszaszorult. Ehhez a folyamathoz az is hozzájárult, hogy a világ, gazdaságilag hátramaradottabb országai közül némelyik jelentősen megerősödött napjainkra (gondoljunk itt elsősorban Kínára), s ez megköveteli, hogy az általuk beszélt nyelvekkel is foglalkozzanak a szakemberek.

Azokat a rendszerek és megoldásokat, amelyeket az európai nyelveknél alkalmaztak, nem biztos, hogy ezen „új” nyelvek esetében is fel lehet használni. Valamint az írásjelek lehetséges különbözősége miatt is (pl. a távol-keleti országok írásjelei, az ideogrammák esetében) olyan problémák merülnek fel, amelyek a latin betűs ábécét használó nyelveknél eleve nem is léteztek.

Források:

Alfonseca, Enrique; Bilac, Slaven; Pharies, Stefan: Decompounding query keywords from compounding languages. In Proceedings of 46th annual ACL-HLT conference 253-256. p. Columbus, Association for Computational Linguistics, 2008. 1056 p.

Nie, Jian-Yun: Cross-language information retrieval. San Rafael, Morgan & Claypool, 2010. 125 p.

Sheridan, Páraic; Ballerini, Jean Paul: Experiments in multilingual information retrieval using the SPIDER system. In Proceedings of the 19th annual international ACM SIGIR conference on research and development in information retrieval 58-65. p. New York, Association for Computing Machinery, 1996. 344 p.

Sproat, Richard; Emerson, Thomas: The first international chinese word segmentation bakeoff. In Proceedings of the 2nd SIGHAN ’03 Workshop on chinese language processing 133-143. p. Stroudsburg, Association for Computational Linguistics, 2003. 191 p.

kutatásiNapló

keresés