Siirry pääsisältöön

Trust me, I’m a machine


Tekstin tai puheen kääntäminen on vaikeaa ihmiselle. Onko se yhtään sen helpompaa koneelle? Tuleeko kone korvaamaan ihmiskääntäjät? Lyhyt vastaus: kyllä ja ei. Ihmiskieli on kaikessa kauneudessaan ja kirjavuudessaan monimutkaista monellakin tapaa, josta aiheutuu monenlaisia erilaisia haasteita niin ihmisille kuin koneillekin käännettäessä kieltä toiseksi. 

Kielen monitulkintaisuus on yksi kääntämisen suurimmista ongelmista. Jotta voit kääntää (tai ylipäätään tulkita) sanat “kuusi palaa”, täytyy ensin tietää missä yhteydessä ne esiintyvät. Onko kyseessä esimerkiksi kuusi palaa leipää, liekehtivä kuusipuu vai sci-fi-romaani jossa taivaankappaleet tulevat ja menevät?

Tai sanamuoto “alusta” - onko kyseessä “alusta”-substantiivi perusmuodossa, “alku”-sanan elatiivi (“aloitetaan alusta”),  “alus”-sanan partitiivi (“armeija osti kolme alusta”), vai mahdollisesti “alustaa”-verbin imperatiivi (“Alusta tuo kovalevy!”)? Vaiko kenties “alunen”-sanan partitiivi (“Tarvitsemme teekupeille kolme alusta”)? 

Monitulkintaisuuden lisäksi erityisesti idiomit ja sanonnat, joiden merkitys on kuvaannollinen eikä kirjaimellinen, aiheuttavat koneelle ongelmia. Samoin puhekieliset ilmaisut, slangi, murteet ja kirjoitusvirheet hämmentävät usein konekääntäjää.


Usein oikea käännös riippuu oleellisesti myös tosimaailman ominaisuuksista: onko jokin asia elollinen vai eloton, onko se kulkuväline vai huonekalu vai syötävä… Joskus koneen väärin kääntämät tulokset ovat huvittavia, joskus enemmänkin karmaisevia.
Kolmas ongelma on konteksti kieli on riippuvaista tilanteesta, kulttuurista, puhujista ja lauseyhteydestä. Konekääntimet analysoivat tekstiä yleensä lause kerrallaan, eivätkä siis tiedä mitään edes edellisissä lauseissa mainituista asioista, saati sitten muusta laajemmasta kontekstista.








Mihin konekääntäminen perustuu?

Konekääntimiä on erilaisia: osa perustuu käsin kirjoitettuihin sääntöihin, osa tilastollisiin menetelmiin ja osa neuroverkkoihin. Kaikissa on omat hyvät ja huonot puolensa.

Sääntöpohjaiset järjestelmät jäsentävät tekstin ensin osasiin ja kääntävät sen sitten kohdekielelle sanakirjan ja erilaisten sääntöjen perusteella. Niiden ongelma on lähinnä siinä, että on mahdotonta kuvata säännöillä kaikkia mahdollisia kielen ilmiöitä. Tiettyyn pisteeseen asti ne kuitenkin toimivat erittäin hyvin.

Tilastollisiin menetelmiin perustuvat konekääntäjät sen sijaan käyttävät hyväksi suuria tekstimassoja, joissa sama teksti on käännetty usealle kielelle. Tilastolliset kääntimet kääntävät laadukkaasti sellaisia tekstejä, jotka ovat niille tuttuja. Ongelmana on löytää tarpeeksi laajoja ja laadukkaita tekstimassoja. Käytetyissä teksteissä myös heijastuu tosimaailman ongelmat ja asenteet. Tästä johtuu esimerkiksi se, että Google Translate kääntää suomen kielen sukupuolineutraalin “hän”-pronominin englanniksi välillä “he” ja välillä “she” riippuen siitä, kumpi on sen analysoimissa tekstimassoissa ollut yleisempi samantyyppisissä yhteyksissä.

Neuroverkkopohjaisissa kääntäjissä yhdistyvät säännöt sekä tekstimassojen käyttö pohjana käännöksille, että myös koneoppiminen - koneelle voidaan opettaa, mitkä käännökset ovat hyviä ja mitkä huonoja, ja sen perusteella laatu jatkuvasti paranee. Tämäntyyppiset kääntäjät ovat viime vuosina yleistyneet ja niissä onkin suurin potentiaali parantaa konekäännöksen laatua jatkossa.

Sanakirja tarjoaa useita vaihtoehtoja

Konekääntäjä on yhtä aikaa tyhmä ja fiksu. Se antaa parhaan arvauksensa käännökseksi, mutta mitään varmuutta sen oikeellisuudesta ei ole. Arvaus perustuu niihin sääntöihin ja niihin tekstimassoihin, joita kääntäjälle on opetettu.

Konekäännöksen vaara verrattuna sanakirjaan onkin siinä, että huonokin sanakirja yleensä tarjoaa useita käännösvaihtoehtoja, joista hyvällä tuurilla ja pienellä päättelyllä voi valita oikean. Konekäännin sen sijaan tarjoaa ainoastaan yhden mielestään parhaan käännöksen, usein kertomatta mitä muita mahdollisia käännöksiä olisi voinut olla, tai miksi se päätyi tähän käännökseen. On vaikeaa tietää, mikä menee pieleen ja miksi käännöksessä ei joskus tunnu olevan mitään järkeä. Jos käännettävää kieltä ei osaa kovin sujuvasti, on myös hankalaa arvioida, onko käännös oikeasti hyvä vai ei.
Milloin kone sitten kääntää tekstiä yhtä hyvin kuin ihminen? Jo tänään, ja ehkä ei ikinä.

Konekäännös on erittäin hyvä työkalu varsinkin säännönmukaisille teksteille, ja vaikkapa auttamaan tekstin ymmärtämisessä. Jo nyt konekääntäjät ovat suureksi avuksi esimerkiksi käyttöoppaiden ja teknisten materiaalien kääntämisessä.

Sen sijaan kaunokirjallisuus ja muut luovuutta vaativat tekstityypit tulevat vielä pitkään, ehkä ikuisesti, vaatimaan ihmistä. Tekstiä voi mekaanisesti kääntää, mutta voiko tekstin sielua?


Kommentit

Tämän blogin suosituimmat tekstit

Viisi voittoisaa vinkkiä kielenopiskeluun

Jos yksi uudenvuodenlupauksistasi oli oppia uusi kieli, niin lue mitä sisältötiimiläisillämme on sanottavaa kielenoppimisen iloista ja sudenkuopista. Opiskelet sitten omaksi ilokseksi tai vaikkapa työn takia, tunneilla tai itsenäisesti, nappaa mukaasi pari opiskeluvinkkiä!

Elina opiskelee mandariinikiinaa ohjatuilla tunneilla. Piia itseopiskelee ranskaa.


Elina:Avain vieraan kielen ahmimiseen on löytää sisältöä, joka kiinnostaa itseä. Aikoinaan oma englantini parani huimasti, kun oli pakko lukea uusimmat Harry Potterit englanniksi,  jottei joutunut odottamaan suomennosta.

Vastaavasti löysin kiinan opiskeluni melko alkutaipaleella vahingossa Netflixistä kiinalaisen sarjan Meteor Garden, onneksi englanninkielisellä tekstityksellä. Sarja oudosti koukutti vaikka olikin kieltämättä aika huono. Puheesta erotin ehkä keskimäärin 你好,谢谢 ja 我喜欢你. Huomasin, että puheen ymmärtäminen vaatii erityisen paljon harjoittelua, koska kiinaa ei juuri muuten pääse omilla kotikonnuilllani kuulemaan. Siispä länsi…

Sanakirja teki digiloikan eli miten sanakirjasta tuli älykäs

Muistatko vielä ajan, kun sanakirja painoi viisi kiloa ja sen alussa oli 20 sivua käyttöohjeita, lyhenneluetteloita ja sanojen taivutuskaavoja? Tai kun printattu teksti oli niin pientä ja tiivistä, että tarvitsit suurennuslasin ja mietintämyssyn, jotta sait selville, mitä sanakirjassa oikeastaan lukikaan? Tai kun löysit vihdoin sivulta 324 etsimäsi sanan campanula, mutta sen kohdalla lukikin vain “katso bellflower”, ja pläräys alkoi uudestaan…

Perinteisten sanakirjojen käyttökokemus on kauniisti sanoen onneton. Sanakirjojen siirtyminen paperilta digitaaliseen maailmaan onneksi mahdollistaa monenlaisia parannuksia ja vapauttaa sanakirjan tekijät fyysisen maailman rajoituksista kuten maksimisivumääristä ja pienestä fonttikoosta.




Sanakirjan alun lyhenneluetteloa ja taivutuskaavoja ei onneksi enää tarvita. Tila ei ole ruudulla ongelma, joten lyhenteet ja muut kryptiset merkintätavat voidaan avata. Enää ei tarvitse arvailla, onko met metalliala, metsätalous vai metsästys, ja onko genet genet…

Sanakirja ilmaiseksi – kyllä vai ei

Kaikki on nykyään netissä, ja odotusarvo monella meistä on, että jos se on netissä niin se on ilmaista. Tai jos se on kustannettu julkisin varoin, se tulisi saada ilmaiseksi. Tämä näkyy hyvin tänä päivänä myös sanakirjoissa. Painetut isot suursanakirjat ovat lähes kokonaan kadonneet markkinoilta. Hyvällä onnella sellaisen löytää vielä jostain kirjakaupasta tai antikvariaatista, mutta monessa tapauksessa kyseessä on yli kymmenen vuotta vanha painos. Tämä pätee varsinkin yleisimpiin kieliin, englantiin, ruotsiin, saksaan ja ranskaan. Näiden kieliparien painettujen suursanakirjojen tuottaminen on hiipunut Suomessa.
Tarvitaanko sanakirjoja? Ei välttämättä, mutta kaikki varmaan ovat yhtä mieltä että edelleen tarvitsemme luotettavia työvälineitä palvelemaan meitä vieraskielisten (ja miksei äidinkielemmekin) sanojen käytössä ja ymmärtämisessä. Mielikuva netissä olevasta ilmaisesta sanakirjasta on tietenkin siinä mielessä harhaa, että joku netissä olevan sanakirjan aina maksaa, ja maksaa myös …