21.11.2018
Väitös

14.12.2018: Uusia skaalautuvia menetelmiä datan ryhmittelyyn (Hämäläinen)

Aika:

14.12.2018 12:00 — 16:00


Sijainti: Mattilanniemi , Agora Gamma
Tiedote: 14.12.2018 Uusia skaalautuvia menetelmiä datan ryhmittelyyn (Hämäläinen)
Suurten datamassojen käsittely lisää tarvetta tehokkaammille klusterointimenetelmille, jotka perustuvat useita suorittimia hyödyntävään rinnakkaislaskentaan ja hajautetun muistin käyttöön. Klusteroinnissa data ryhmitellään ryhmiin eli klustereihin, joissa ryhmän kohteet ovat samankaltaisia. Lisäksi tavoitteena on, että muodostuneet klusterit ovat selkeästi toisistaan erillään.

Joonas Hämäläinen kehitti väitöskirjassaan prototyyppipohjaisen klusteroinnin skaalautuvuutta, tehokkuutta ja luotettavuutta. Näiden tavoitteiden saavuttamiseksi Hämäläinen teki parannuksia ja modifikaatioita prototyyppipohjaisiin klusterointimenetelmiin. Yksi keskeisistä teemoista on prototyyppipohjaisen klusteroinnin alustus.

- Väitöskirjassani esitän satunnaisprojektioihin perustuvan rinnakkaistuvan klusteroinnin alustusmenetelmän, joka on tehokas korkeaulotteisille suurille datamassoille. Työni rinnakkaistettu robusti ryhmittelymenetelmä taas mahdollistaa suurten, harvojen ja virheellisten datamassojen klusteroinnin rinnakkaislaskentaa hyödyntäen, Hämäläinen kertoo.

Käytännön sovellusmahdollisuudet ja -tarpeet ovat laajat

Klusterointimenetelmät ovat monikäyttöisiä useille eri sovelluksille. Menetelmiä on käytetty muun muassa ymmärryksen lisäämiseen liikenneonnettomuuksista ja opintomenestyksestä sekä kaupunkien rikollisuuden ja sädehoidon annossuunnitelmien mallintamiseen.

Esimerkiksi sädehoidossa ryhmitellään aiemmat annossuunnitelmat, ja tulosten pohjalta muodostetaan laadunvarmistustyökalu. Työkalun avulla voidaan havaita epäilyttävät tai virheelliset sädehoidon annossuunnitelmat ennen hoidon toteuttamista. Kaupungeissa rikollisuutta taas voidaan ennustaa ja ennaltaehkäistä klusterointituloksen pohjalta muodostetulla mallilla. Mallin avulla saadaan ennusteita missä, milloin ja minkä tyyppistä rikollisuutta voi mahdollisesti tapahtua.

Prototyyppipohjaisilla ryhmittelymenetelmillä pystytään tehostamaan muita tiedonlouhinnan menetelmiä suurille datamassoille. Suuri datamassa voidaan esimerkiksi esittää pienemmällä määrällä prototyyppivektoreita, jolloin prototyyppivektoreita voidaan käyttää datana jollekin toiselle tiedonlouhinnan menetelmälle. Prototyyppipohjaisia ryhmittelymenetelmiä voidaan soveltaa myös muun muassa tekstidokumenttien ja kuvien ryhmittelyyn sekä näin parantaa esimerkiksi hakukoneen toimintaa.

FM Joonas Hämäläisen tietotekniikan väitöskirjan "Improvements and Applications of the Elements of Prototype-Based Clustering" tarkastustilaisuus on perjantaina 14.12.2018 klo 12.00 luentosalissa Gamma (Agora, Mattilanniemi 2). Vastaväittäjänä on professori Pasi Fränti (Itä-Suomen yliopisto) ja kustoksena professori Tommi Kärkkäinen (Jyväskylän yliopisto). Väitöstilaisuus on suomenkielinen.

Lisätietoja

  • Joonas Hämäläinen, joonas.k.hamalainen@jyu.fi, puh. 045 113 0257
  • Tiedottaja Kati Valpe, viestinta@jyu.fi, puh. 0400 247 458

Joonas Hämäläinen kirjoitti ylioppilaaksi Pihtiputaan lukiosta vuonna 2007. Hän aloitti fysiikan opinnot Jyväskylän yliopistossa 2007 ja valmistui filosofian maisteriksi vuonna 2013. Hämäläinen on työskennellyt tutkimus- ja opetustehtävissä Jyväskylän yliopistolla vuodesta 2014 lähtien. Hän aloitti jatko-opinnot vuonna 2015. Väitöksen jälkeen hän jatkaa työskentelyä Jyväskylän yliopistolla Suomen Akatemian rahoittamassa poikkitieteellisessä tutkimusprojektissa (HNP-AI).

Väitöskirja on julkaistu verkkojulkaisusarjassa JYU Dissertations numerona 43, Jyväskylä 2018, ISSN 2489-9003, ISBN 978-951-39-7621-7. Julkaisu on luettavissa JYX-julkaisuarkistossa osoitteessa http://urn.fi/URN:ISBN:978-951-39-7621-7 (PDF).