Dok Guglov prevodilac nudi više od 100 jezika, njegov ruski konkurent ima „svega“ 94 jezika u ponudi. Ali, ono što Gugl za razliku od Jandeksa zasad ne nudi jeste prevod na retke jezike.
Kako bi se programiralo prevođenje na jedan od retkih ili čak izumrlih jezika, ruski Jandeks sarađuje sa lingvistima. Prema Uneskovoj evidenciji, postoji gotovo 2.500 jezika koji spadaju u ovu kategoriju. Svaki izumrli jezik predstavlja veliki gubitak za globalno kulturno nasleđe.
Kada mašine mogu samostalno da uče
Jandeks je pokrenuo svoj prevodilački onlajn servis još 2011. godine i tada je u ponudi imao svega tri jezika: engleski, ruski i ukrajinski. U međuvremenu je Jandeksov prevodilac postao pravi poliglota, i to ne samo zato što sada može da prevodi na mnogo više jezika, već najpre zato što u svojoj ponudi ima i jezike koji su veoma retki, kao što je na primer, papijamento, kreolsko-karipski jezik koji govori manje od 300 hiljada duša na južnim ostrvima Karipsog arhipelaga.
Jandeksovi stručnjaci kažu da je sistemu prilično teško da „nauči“ jedan redak jezik. Problem se sastoji u tome što na jezicima koje govori malo ljudi i koji se retko upotrebljavaju ima malo tekstova na interentu. Pa ipak, Jandeksov prevodilac je „prava pametnica“. Programeri kažu da njihov onlajn prevodilac koristi postojeća „znanja“ odnosno algoritme kako bi osvojio prevođenje sa novih jezika.
Kakavo je stanje sa retkim jezicima?
Programeri ove velike ruske aj-ti kompanije ističu da i mali jezici koje govori svega nekoliko desetina hiljada ljudi zaslužuju da budu zastupljeni u njihovoj ponudi automatskog prevođenja.
„Kao prvo, ako je region gde se govori taj neki retki jezik, na primer, poznata turistička destinacija, onda i gosti i meštani mogu imati brojne koristi od servisa automatskog prevođenja. A kao drugo, na ovaj način se i taj jezik koji koristi mali broj ljudi može češće i više koristiti, što je za njegov opstanak značajno, jer bi u suprotnom bio zamenjen, recimo, engleskim“, objašnjavaju Jandeksovi programeri.
Kako bi prevodilac mogao da „stekne znanje“ novog jezika na kojem još nema mnogo tekstova na internetu, programeri su napravili algoritme koji pomažu onlajn preovdiocu da prepozna „porodične veze“ između jezika. Pa tako, na primer, jidiš ima mnogo leksičkih veza sa nemačkim, a kreolski jezik papijamento sa potugalskim. U tatrskom i baškirskom jeziku su slične sintaksa i morfologija.
Tako računar, odnosno mašina, „uči“ novi jezik kroz dve faze. Prvo se modelira odnosno programira jezgro jezika sa najčešće korišćenim rečima i poznatim morfološkim i sintaksičkim karakteristikama. Da bi se napravilo ovakvo jedno „jezgro“ neophodan je jedan sasvim mali tekst na originalnom jeziku.
„To bi mogao biti na primer deo iz Biblije ili Kurana, a ove su knjige prevedene na praktično sve postojeće jezike. Jezgro se kasnije obogaćuje podacima iz drugih srodnih jezika, koje prevodilac već poseduje“, objašnjavaju programeri.
Lingvisti i programeri koji zajedno rade u okviru Jandeksovog prevodilačkog onlajn-servisa kažu da programiranje prevođenja jednog novog jezika podseća na kocke koje se slažu jedna na drugu. Takav sistem oni koriste i uspešno uvode nove jezike u upotrebu. Konkretno, u poslednje vreme su mašinu „naučili“ da prevodi sa baškirskog, jidiša, marati, nepali i uzbečkog jezika.