Aliot

Internetin tietotulvaa järjestämässä

Kuka muistaa aikaa, jolloin olohuoneen kirjahyllyn täytti moniosainen tietosanakirjasarja? Entä käyttääkö joku vielä puhelinluettelon keltaisia sivuja jonkin yrityksen tietojen etsimiseen?

Veikkaan, että internet ja sähköisessä muodossa oleva tieto on valtaosin korvannut nämä.

Internetillä on tiedonlähteenä monia etuja: se on ilmainen, helposti saavutettavissa, kooltaan valtava ja sisältää tietoa monilla eri kielillä. Lisäksi internetiin saa kirjoittaa lähes kuka tahansa.

Ainakin periaatteessa tämä antaa tilaa monipuoliselle tiedolle. Toisaalta internetin käytössä on myös haasteensa. Valtava koko ei aina helpota tiedonhakua, päinvastoin.

Hakutuloksissa sekoittuvat uutiset, keskustelupalstat ja käyttöohjeet. Aina ei ole helppo erottaa, mikä tieto on oikeaa ja mikä kirjoittajan mielipide. Kaikki hukkuu miljardien sanojen tulvaan.

Jatkuu mainoksen jälkeen
Mainos päättyy

Tutkimusryhmämme TurkuNLP Turun yliopistossa hyödyntää internetistä kerättyä sanojen tulvaa ja niiden välittämää tietoa.

NLP tulee sanoista natural language processing, kieliteknologia. Neuroverkkojen avulla internetistä kerätyt sanat ja tekstit voidaan valjastaa kieliteknologian menetelmien kehittämiseen. Näin parannetaan esimerkiksi konekäännöstä ja erilaisia tiedonhaun sovelluksia.

Sanojen tulva on haaste myös kieliteknologialle. Siksi tutkimme, miten internetin tietovarantojen tarjoamat mahdollisuudet avautuisivat paremmin sekä jokapäiväisille käyttäjille että tieteentekijöille.

Tässä tiedon jalostamisessa erilaisten tekstien erottelu on tärkeä osatavoite. Jos pystymme erittelemään toisistaan automaattisesti esimerkiksi uutiset, mielipiteisiin pohjautuvat blogitekstit ja vaikuttamaan pyrkivät mainospuheet, sanojen tulvaa voidaan alkaa järjestämään ja niiden välittämän tiedon käyttö helpottuisi.

Neuroverkot pystyvät moneen, ja kieltä automaattisesti tuottavat neuroverkkomallit voivat olla hämmästyttävän hyviä. Erilaisten tekstien tunnistamisessa riittää silti haasteita.

Ensinnäkin pitäisi tietää, minkälaisia tekstejä pitäisi tunnistaa. Tätä varten tarvitaan paljon käsityötä ja internetin tekstien läpi kahlaamista.

Jaottelemme tekstit totutusti luokkiin, jotka voidaan perinteisesti tunnistaa julkaisupaikasta. Sanomalehdessä on omat osionsa uutisille, urheilu-uutisille ja mainoksille. Tietosanakirja-artikkelit taas löytyvät tietosanakirjoista.

Internetissä nämä lait eivät kuitenkaan päde. Perinteisen median portinvartijat puuttuvat. Ei ole päätoimittajaa takaamassa, että uutiselta näyttävä artikkeli pohjautuu todellisiin tapahtumiin ja on tyyliltään oikea.

Jatkuu mainoksen jälkeen
Mainos päättyy

Sen sijaan erilaiset tavoitteet ja tyylit sekoittuvat: uuden ravintolan kotisivu sekä esittelee ravintolaa että houkuttelee asiakkaita, lifestyle-bloggaaja kertoo päivästään mutta samalla mainostaa jotain tuotetta.

Uutisiakin on monenlaisia, ammattimaisesti tuotetuista politiikkauutisista yhdistysten tai urheiluseurojen omiin ilmoituksiin. Niinpä totutut luokat muuttuvat pikemminkin jatkumoiksi.

Tutkimusryhmämme käy parhaillaan läpi tätä jatkumoa, tyylien ja tavoitteiden kirjoa, jotta erilaisten tekstien automaattinen tunnistaminen olisi mahdollista.

Tutkimuksemme osoittaa jo nyt, että jotkut tekstit on helppo tunnistaa – jopa niin, että englanninkielisten esimerkkien perusteella voidaan tunnistaa vaikkapa suomenkielisiä keskustelupalstoja. Myös tekstiluokkien sekoittuminen voidaan havaita.

Tulevaisuudessa ymmärrämme tätä vaihtelua yhä paremmin ja hahmotamme, miltä erilaiset tekstit internetissä näyttävät ja miten ne välittävät tietoa. Tällöin niiden automaattinen tunnistaminenkin helpottuu.

Jos onnistumme täydellisesti, pystymme tekemään tätä jopa kymmenillä kielillä, ottaen huomioon kulttuuriset erot esimerkiksi uutisten välillä.

Kysymysten tulva on kuitenkin loputon. Mikä lasketaan uutiseksi? Miten kulttuuriset erot näkyvät teksteissä? Onnistuuko mielipiteiden tai vaikuttamaan pyrkivien tekstien automaattinen tunnistaminen ja millä perusteilla?

Vastaamalla näihin saamme varmasti internetin tietotulvankin haltuun, lopulta.

Kirjoittaja on apulaisprofessori Turun yliopiston kieli- ja käännöstieteen laitoksella.

Haluatko käyttää

Osallistuaksesi keskusteluihin ole hyvä ja kirjaudu TS-tunnuksillasi

Olet kirjautuneena yritystunnuksella. Yritystunnuksella ei voi osallistua keskusteluihin.
Aloita keskustelu tästä jutusta
Viesti

Viesti lähetetty!

Keskusteluja julkaistaan arkisin kello 9–23 ja viikonloppuisin kello 8–22.
Virhe viestin lähetyksessä.
TS:n verkkokeskustelun säännöt

Uudet näkökulmat keskustelussa vievät asioita eteenpäin. Siksi Turun Sanomat kannustaa verkkosivuillaan aktiiviseen ja rakentavaan keskusteluun.

Verkkokeskusteluun osallistuminen edellyttää rekisteröitymistä (jonka pääset tekemään tästä). Rekisteröityminen ei edellytä lehden tilaamista.

Keskusteluun voit kirjoittaa omalla nimelläsi tai nimimerkillä. Suosittelemme oman nimen käyttöä, sillä on arvokasta seistä mielipiteidensä takana. Ole kriittisenäkin kohtelias ja kunnioita muita. Epäasiallinen käytös estää osallistumisen keskusteluun.

Turun Sanomien verkkokeskusteluun tulevat viestit tarkastetaan ennakolta. Siksi viestit julkaistaan viiveellä, ja julkaisusta päättää toimitus. Keskusteluja julkaistaan arkisin kello 9–23 ja viikonloppuisin kello 8–22. Toimitus voi lyhentää ja muokata kirjoituksia.

Kirjoittaja on juridisessa vastuussa viestinsä sisällöstä. Rasistisia, herjaavia tai ihmisten yksityisyyttä loukkaavia viestejä ei julkaista. Muista hyvät tavat, älä huuda äläkä kiroile.

Kirjoita napakasti. Emme julkaise yli 1 800 merkin viestejä. Pysy keskusteluketjun aihepiirissä. Älä yritä muuttaa aihetta. Tekstin yhteyteen voi liittää teemaan liittyviä asiallisia linkkejä, jotka toimitus tarkistaa ennalta. Mainoksia emme julkaise.

Verkon keskustelut ovat osa Turun Sanomien sisältöä, josta olemme vastuussa. Toimitus voi harkintansa mukaan sulkea keskusteluketjun.