15.2.2020 Luotettavia ja laskennallisesti tehokkaita menetelmiä moniulotteisen runsausdatan analysointiin (Niku)

Moniulotteista runsausdataa kerätään nykyisin lukuisilla tieteenaloilla. Ekologiassa runsausdata koostuu tyypillisesti useilta paikoilta tehdyistä eläin- tai kasvilajien havainnoista. Tällaisten aineistojen keruu on yleistä, kun halutaan tutkia eläin-, kasvi- tai eliöyhteisöjä, niiden vuorovaikutusta keskenään tai vuorovaikutusta suhteessa ympäristöön. Jenni Niku tutki tilastotieteen väitöksessään Jyväskylän yliopistossa tilastollisten mallien, erityisesti yleistetyn lineaarisen latenttimuuttujamallin, soveltuvuutta moniulotteisen runsausdatan analysointiin.
Julkaistu
15.2.2020

Moniulotteista runsausdataa on perinteisesti analysoitu käyttäen algoritmeihin perustuvia menetelmiä, joiden tavoitteena on esittää moniulotteisen aineiston pääpiirteet muutaman muuttujan avulla. Menetelmät ovat laskennallisesti helppoja, ja tulokset voidaan esittää visuaalisesti johtopäätösten tekemiseksi. Algoritmisten menetelmien heikkoutena on se, että tulokset vaihtelevat riippuen käytetystä algoritmista, ja tulosten luotettavuutta on vaikea arvioida.

Jenni Niku tutki tilastollisten mallien, erityisesti yleistetyn lineaarisen latenttimuuttujamallin, soveltuvuutta moniulotteisen runsausdatan analysointiin. Tilastollisissa malleissa aineistolle tyypilliset ominaisuudet otetaan huomioon tilastollisten jakaumien avulla. Menetelmät mahdollistavat aineiston rakenteiden, kuten lajien välisten korrelaatioiden sekä ympäristömuuttujien ja lajipiirteiden vaikutusten, tarkan mallintamisen. Menetelmät tarjoavat myös työkaluja tilastolliseen päättelyyn ja mallinvalintaan.

Väitöskirjassa näytetään, että latenttimuuttujamalleihin perustuvat menetelmät tarjoavat algoritmisia menetelmiä luotettavamman ja monipuolisemman lähestymistavan ekologian aineistojen analysointiin. Menetelmien soveltuvuutta aineiston kuvailuun, lajien välisten korrelaatioiden mittaamiseen sekä ympäristömuuttujien, lajipiirteiden ja niiden välisten interaktioiden vaikutusten tutkimiseen havainnollistetaan useiden esimerkkien avulla.

Tilanteessa, jossa runsausaineistojen lajimäärät ovat suuria, yleistettyjen lineaaristen latenttimuuttujamallien sovittaminen aineistoon on laskennallisesti erittäin raskasta. Väitöskirjassa kehitettiin tehokkaita algoritmeja mallin parametrien estimoimiseksi. Laskennallista tehokkuutta ja tarkkuutta tutkittiin simulointikokeiden avulla, ja tutkimukset osoittivat, että kehitetyt algoritmit ovat nopeampia kuin niiden olemassa olevat vastineet ilman että laskennallista tarkkuutta menetetään. Väitöskirjatyön aikana kehitetyt algoritmit sekä työkaluja mallien diagnostiikkaan, testaukseen ja visualisointiin esimerkkeineen on koottu ilmaiseen, avoimen lähdekoodin R-ohjelmistopakettiin.

Tutkimus on julkaistu Jyväskylän yliopiston väitöstutkimusten sarjassa JYU Dissertations, numero 192, 2020, Jyväskylä.

Linkki väitöstutkimukseen: https://jyx.jyu.fi/handle/123456789/67735

Lisätietoja:
Jenni Niku, jenni.m.e.niku@jyu.fi
Tiedottaja Tanja Heikkinen, tanja.s.heikkinen@jyu.fi, puh. 050 581 8351

FM Jenni Nikun tilastotieteen väitöskirjan "On modeling multivariate abundance data with generalized linear latent variable models" tarkastustilaisuus on lauantaina 15.2.2020 Mattilanniemessä Jyväskylän yliopistossa kello 12 salissa Agora B222.1 (Gamma). Vastaväittäjänä on professori Jouni Kuha (London School of Economics, Iso-Britannia) ja kustoksena yliopistonlehtori, dosentti Sara Taskinen Jyväskylän yliopistosta. Väitöstilaisuuden kieli on suomi.