Ajankohtaista

Väitös: 23.5.2016 Tieto kehittyy evoluution tapaan (Cochez)

Alkamisaika: maanantai 23. toukokuuta 2016, 12.00

Päättymisaika: maanantai 23. toukokuuta 2016, 15.00

Paikka: Mattilanniemi, Agora, Delta -sali

Michael Cochez kuva: Carla-Reina Cochez
M.Sc. Michael Cochezin tietotekniikan väitöskirjan ”Taming Big Knowledge Evolution” tarkastustilaisuus. Vastaväittäjänä professori Evgeny Osipov (Luleå University of Technology, Ruotsi) ja kustoksena professori Vagan Terziyan (Jyväskylän yliopisto).

Informaatio ja siitä johdettu tieto eivät ole staattisia, vaan informaatio muuttuu jatkuvasti. Kykymme ja halumme sisäistää informaatiota vaikuttaa ymmärrykseemme siitä. Ihmistä ja tietokonetta verrattaessa huomataan, että tietokone ei pysty havainnoimaan samalla tavalla kuin ihminen. Vaikuttaa, että kone ei voi oikeasti ymmärtää asioiden merkitystä, mutta toisaalta tietokoneet ovat laskentakyvyltään ihmiseen verrattuna ylivoimaisia. Ihmisen yrittäessä ymmärtää maailmaa hän tekee usein virheitä, unohtaa osan tai päättää tietoisesti keskittyä vain tiettyihin asioihin. Toisin sanoen vaikuttaa, että ihminen voi suoriutua tietoon liittyvistä tehtävistä konetta paremmin, vaikka hän käyttäytyisikin osittain satunnaisesti.

Yksi tietojenkäsittelytieteen tutkimushaara tutkii mitä tapahtuu, jos algoritmeissa sallitaan satunnaisuutta tai epätarkkuutta (approximate algorithms). Näiden algoritmien etu on, että ne ovat usein nopeampia kuin tarkat algoritmit, mutta toisaalta ne tuottavat silloin tällöin vääriä vastauksia. Siksi niiden käyttö on syytä rajoittaa tilanteisiin, joissa pienet satunnaiset virheet eivät aiheuta suuria ongelmia. Toisaalta nämä algoritmit ovat yhtä käyttökelpoisia kuin tarkatkin algoritmit tilanteessa, jossa väärän vastauksen todennäköisyys on pienempi kuin tietokoneella tapahtuvien muistivirheiden todennäköisyys. On myös havaittu, että algoritmeille syötetyt parametrit ja muu data sisältävät yleensä jonkin verran epätarkkuuksia. Tällöin epätarkan algoritmin käytöstä aiheutuva lisävirhe voi olla käytännössä merkityksetön.

Yksi älykkään sovelluksen ongelmista on, että se tarvitsee mallin sitä ympäröivästä maailmasta.Tällainen malli on suuri ja monimutkainen. Lisäksi malli muuttuu usein, minkä vuoksi tätä voidaan kutsua big data -ongelmaksi. Väitöskirja pyrkii vastaamaan useisiin tällaisen mallin toteuttamisen haasteisiin. Tutkimuksessa määritellään, mitä tällaisen mallin optimaalisuus tarkoittaa, ja ehdotetaan mahdollista vaihtoehtoa muuttuvan tietovaraston hallintaan. Ehdotuksen taustalla olevan hypoteesin mukaan tiedon kehittymisellä on samoja ominaisuuksia kuin luonnossa havaittavalla evoluutiolla. Lisäksi tutkimuksessa etsittiin ja arvioitiin skaalautuvia lähestymistapoja, joilla voidaan hakea asiaan liittyviä käsitteitä tietovarastosta. Näillä lähestymistavoilla voidaan käsitellä suuria tietomääriä, mutta saadaan ajoittain vääriä tuloksia. Lopuksi on esitelty twister tries -algoritmiin liittyvä työ. Tätä uutta algoritmia käytetään suurien tietomäärien hierarkkiseen klusterointiin.


Lisätietoja:

Michael Cochez, michael.s.l.cochez@jyu.fi, puh. 040 805 3254
Viestintäharjoittelija Petra Toivanen, tiedotus@jyu.fi, puh. 040 805 3638

Teos on julkaistu sarjassa Jyväskylä Studies in Computing. University of Jyväskylä, 2016, 56 p. (+included articles) ISBN 978-951-39-6648-5 (nid.) ISBN 978-951-39-6649-2 (PDF) Luettavissa JYX-arkistossa: http://urn.fi/URN:ISBN:978-951-39-6649-2

Michael Cochez on valmistunut tietotekniikan maisteriksi Jyväskylän yliopistosta vuonna 2012. Hän suoritti tietotekniikan kandidaatin tutkinnon Belgiassa Antwerpenin yliopistossa vuonna 2009. Hän on toiminut data-analytiikan vierailevana tutkijana Galwayssa Irlannissa vuonna 2015.

 

Abstract

Information and its derived knowledge are not static. Instead, information is changing over time and our understanding of it evolves with our ability and willingness to consume the information. When compared to humans, current computer systems seem very limited in their ability to really understand the meaning of things. On the other hand, they are very powerful when it comes down to performing exact computations. One aspect which sets humans apart from machines when trying to understand the world is that we will often make mistakes, forget information, or choose what to focus on. To put this in another perspective, it seems like humans can behave somehow more randomly and still outperform machines in knowledge related tasks. In computer science there is a branch of research concerned with allowing randomness or inaccuracy in algorithms, which are then called approximate algorithms. The main benefit of using these algorithms is that they are often much faster than their exact counterparts, at the cost of producing wrong or inexact results, once in a while. So, these algorithms could be used in contexts where erring once in while does not harm. If the chance of making a mistake is very slim, say lower than the chance of a memory error, then the expected precision will rival their exact counterparts. Furthermore, the input data to the algorithms often already contains a fair amount of uncertainty, such that the small error which the approximate algorithm introduces becomes more or less insignificant. In this dissertation, the author investigates the use of familiar and new approximate algorithms to knowledge discovery and evolution. The main contributions of the dissertation are a) an abstract formulation of what it means for an ontology to be and stay optimal over time, b) a contribution to a vision paper regarding the future of evolving knowledge ecosystems, c) an investigation of the application of locality-sensitive hashing (LSH) in the context of ontology matching and semantic search, d) the twister tries algorithm which is a novel approximate hierarchical clustering approach with linear space and time constraints, and e) an extension on the twister tries algorithm which trades a longer, but adaptable running time for a likely improvement of the clustering result.

Lisätietoja

Tohtorikoulutettava Michael Cochez
michael.s.l.cochez@jyu.fi
+358408053254
kuuluu seuraaviin kategorioihin: