Vuosina 2022–2023 FIN-CLARIAH toteutti infrastruktuurihankkeen, jossa pyrittiin merkittävästi laajentamaan digitaalisen humanistisen ja yhteiskuntatieteellisen tutkimuksen tukea kolmen tavoitteen kautta:
- Kehitetään puhutun kirjasuomen lisäksi myös arkikielen automatisoitua käsittelyä
- Vastataan humanistis-yhteiskuntatieteellisen tutkimuksen tarpeisiin epästrukturoidun tekstin käsittelemiseksi
- Mahdollistetaan metatietojen hyödyntämistä tutkimuksessa
FIN-CLARIAH hankkeessa oli mukana kahdeksan suomalaista yliopistoa, Kansalliskirjasto, Kansallisarkisto, CSC – Tieteen tietotekniikan keskus Oy ja Kotimaisten kielten keskus.
Github: JYU-digihum
Hankejohtaja Jyväskylän yliopistossa: Professori Jari Ojala
Jyväskylän yliopisto oli partnerina seuraavissa FIN-CLARIAH-työpaketeissa vuosina 2022–2023:
WP 2.5 Solutions for better use of language learner performances in research
Tavoitteena on tarjota ratkaisuja, joiden avulla voidaan hyödyntää tehokkaammin suomen kieltä opettelevien suorituksiin pohjautuvaa dataa tutkimuksissa. Nykyisillä tekoälypohjaisilla kielimalleilla ei täysin pystytä käsittelemään oppijakieltä. Kielitaidon oikeellinen arviointi on tärkeää, sillä se voi vaikuttaa esim. maahanmuuttajien mahdollisuuteen hakea kansalaisuutta. Inhimillisten virheiden ehkäisemiseksi automaattinen arviointityökalu on tarpeen. Oppijakielen arviointiin kehitetään hankkeessa prototyyppi tekoälypohjaisesta työkalusta, jolla voidaan arvioida S2-kielitaidon tasoa.
Tiimi: Ari Huhta, työpaketin johtaja, JYU, Jenny Tarvainen, JYU, Sirkku Kronholm, JYU
WP 3.2 AI solutions to better use National Archives mass digitisation services
Tavoitteena on kehittää tutkijoiden avuksi tekoälypohjaisia ratkaisuja edistämään Kansallisarkiston digitalisoitujen tietoaineistojen tehokkaampaa käyttöä. Aineiston käytettävyyttä ja analyysimahdollisuuksia parannetaan työpaketissa kehittämällä tekoälypohjainen malli nimientiteettien tunnistukseen (named entity recognition, NER). Uusi NER-malli ymmärtää aiempia kielimalleja paremmin koneluettua (OCR) tekstiaineistoa ja viranomaiskieltä. Aiemmista kielimalleista poiketen se sisältää myös Y-tunnuksen ja diaarinumeron.
Tiimi: Antero Holmila, työpaketin johtaja, JYU, Venla Poso, JYU, Ida Toivanen, JYU
WP 3.3 AI-based solutions to better use textual qualitative survey data
Tavoitteena on kehittää suomenkielisten kyselyjen avovastausten analysointia tekoälypohjaisin menetelmin. Kyselyjen avovastaukset jäävät usein täysimääräisesti hyödyntämättä. Tutkijoiden tukemiseksi hankkeessa kehitettiin survey-aineistojen
avovastausten analyysiin soveltuvia työkaluja: käsiteverkkotyökalu ja sentimenttianalyysi.
Tiimi: Krista Lagus, Helsingin yliopisto, Maria Valaste, HY, Sakari Taipale, JYU, Tapio Litmanen, JYU, Tomi Oinas, JYU, Ida Toivanen, JYU, Joni Oksanen, HY, Maria Valaste, HY, Adeline Clarke, HY, Jani-Matti Tirkkonen, Itä-Suomen yliopisto, Jaakko Peltonen, Tampereen yliopisto
WP 3.4 Developing analysis methods for real-time chats in game play stream
Tavoitteena on kehittää tekoälypohjaisia analyysimenetelmiä, joilla voidaan analysoida videostreamien, erityisesti pelistreamien, reaaliaikaisia chat-keskusteluja. Livestreamien eli videostriimien yleistyminen on vaikuttanut ihmisten vuorovaikutukseen median kanssa. Samalla livestream-palvelujen chat-ominaisuus on keskeinen osa katsomiskokemusta, mutta chattien analyysi on haasteellista sisällön määrän ja internetin kielen vuoksi. Chat-aineiston keruuta ja analyysia varten kehitetään hankkeessa työkaluja, jotka mahdollistavat vuorovaikutuksen rakenteiden ja viestisisältöjen analyysin. Tuloksena syntyy (1) työkalu videostriimien chat-aineiston keruuseen ja (2) chat-aineiston analyysityökalu.
Tiimi: Raine Koskimaa, työpaketin johtaja, JYU, Jari Lindroos, JYU, Tanja Välisalo, JYU, Jaakko Peltonen, Tampereen yliopisto