Analyysivalintojen musta laatikko – mitä 504 uusinta-analyysiä paljasti empiirisen tieteen luotettavuudesta

Tuoreen Nature-lehdessä julkaistun tutkimuksen mukaan sama aineisto ja sama tutkimuskysymys tuottavat eri analysoijien käsissä hyvin erilaisia tuloksia. Havainto koskee koko yhteiskunta- ja käyttäytymistieteiden kenttää – myös liiketaloustutkimusta – ja pakottaa pohtimaan uudelleen sitä, kuinka varmoja yksittäisen tieteellisten tutkimuksen johtopäätöksistä voimme olla.

Kirjoittaja: Lasse Torkkeli

Yksi aineisto, monta analyysipolkua

Kuva empiirisen tutkimuksen kulusta on suoraviivainen: kerätään aineisto, valitaan sopivat menetelmät sen analysointiin, raportoidaan tulos ja tehdään johtopäätös. Menetelmäkirjallisuudessa on jo pitkään tiedetty, että tutkijalla on vapausasteita analyysimenetelmää valitessaan, mutta käytännössä on harvoin selvitetty, kuinka paljon nämä valinnat todella vaikuttavat itse tutkimuksen lopputulokseen. Juuri Naturessa julkaistu Multi100-tutkimus (Aczel ym. 2026) pureutuu tähän kysymykseen systemaattisesti.

Projektissa 457 riippumatonta tutkijaa, joiden joukossa olin itse yhtenä uusinta-analyytikkona, toteutti yhteensä 504 uusinta-analyysiä sadasta vuosina 2009–2018 julkaistusta yhteisunta- ja käyttäytymistieteellisestä tutkimuksesta. Jokaisesta tutkimuksesta valittiin yksi keskeinen väite, joka testattiin uudelleen alkuperäisellä datalla. Jokainen uusinta-analyytikko sai käyttöönsä saman datan ja saman väitteen, mutta valitsi itse tilastollisen lähestymistavan parhaan asiantuntemuksensa mukaan.

Kolmasosa tuloksista pysyi – enemmistö horjui

Tulokset ovat tyrmistyttäviä. Vain 34 prosenttia uusinta-analyysien vaikutuskokoarvioista asettui alkuperäisen tutkimuksen toleranssialueen (±0,05 Cohenin d) sisään. Tutkimustasolla tarkasteltuna vain 34 prosentissa tapauksista kaikki uusinta-analyytikot päätyivät samaan johtopäätökseen alkuperäisen tutkimuksen kanssa. Kun kriteeriä lievennettiin koskemaan vain 80 prosentin konsensusta, osuus nousi 39 prosenttiin, ja 50 prosentin konsensuksen kriteerillä 80 prosenttiin (Aczel ym. 2026).

Johtopäätösten tasolla 74 prosenttia uusinta-analyyseista vahvisti alkuperäisen tuloksen suunnan, mutta 24 prosenttia ei löytänyt vaikutusta tai piti sitä epäselvänä – ja kahdessa prosentissa uusintatulos oli suunnaltaan päinvastainen alkuperäiseen nähden. Uusinta-analyysien vaikutuskokojen mediaani (0,35) oli selvästi pienempi kuin alkuperäisten tutkimusten (0,43). Tällainen systemaattinen ero viittaa siihen, että julkaisut tehneet alkuperäiset tutkijat raportoivat keskimäärin voimakkaampia vaikutuksia kuin riippumattomat uusinta-analyytikot.

Ei osaamisen puute, vaan rakenteellinen ilmiö

Yksi intuitiivinen selitys vaihtelulle olisi, että osa uusinta-analyytikoista oli kokemattomia. Tutkimus kuitenkin sulkee tämän selityksen pois, koska itsearvioidulla tilastollisella osaamisella tai kokemuksen määrällä ei havaittu yhteyttä tulosten poikkeamiin. Myöskään vertaisarvioijien mukaan analyyttisesti laadukkaampina pidetyt analyysit eivät tuottaneet systemaattisesti lähempänä alkuperäistä olevia tuloksia.

Sen sijaan erot selittyvät rakenteellisilla tekijöillä, kuten tutkimushypoteesin muotoilun väljyys, muuttujien operationalisointi, aineiston esikäsittely ja mallivalinnat. Kokeellisissa tutkimuksissa, joissa aineiston tuottamista on kontrolloitu, tulokset olivat robustimpia kuin havaintotutkimuksissa, joiden aineistot tarjoavat tyypillisesti enemmän vapausasteita analysoijalle. Myös otoskoolla oli yllättävän vähän merkitystä: suurikaan aineisto ei tehnyt johtopäätöksistä immuuneja vaihtelulle.

Mitä tämä tarkoittaa liiketaloustutkimuksessa?

Vaikka Multi100-otos painottui psykologian, taloustieteen ja politiikan tutkimukseen, löydökset yleistyvät laajasti empiirisen tutkimuksen kenttään. Liiketaloustieteissä – alalla, jolla itse työskentelen kansainvälisen liiketoiminnan ja pk-yritysten kansainvälistymisen tutkimuksessa – vapausasteita on runsaasti: tutkimusaineistoa analysoitaessa on aina erikseen päätettävä miten rajata otos, miten operationalisoida muuttujat, missä aikaikkunassa muuttujia mitataan, tai vaikkapa kuinka käsitellä puuttuvia havaintoja. Jokainen näistä valinnoista on usein yhtä perusteltavissa kuin sen vaihtoehto.

Tämä ei tarkoita, että aiempia tuloksia pitäisi hylätä, vaan kyse on perustavanlaatuisemmasta havainnosta: yhden analyysipolun raportointi tarjoaa vain yhden näkökulman ilmiöön. Esirekisteröinti ja replikaatiotutkimukset, joita avoimen tieteen liike on ansiokkaasti edistänyt, suitsivat opportunistisia analyysivalintoja, mutta eivät yksin ratkaise kysymystä siitä, kuinka monta erilaista vastausta sama data olisi voinut antaa.

Mitä voimme tehdä?

Multi100-tutkimus nostaa esiin konkreettisia ratkaisuja. Ensinnäkin aineiston ja analyysikoodin avoin jakaminen on edellytys kaikelle myöhemmälle analyyttisen robustiuden arvioinnille. Toiseksi tärkeimmissä löydöksissä kannattaa harkita joko monianalyytikkoasetelmaa, jossa useampi tutkija toteuttaa itsenäisen analyysin samasta datasta, tai multiversumianalyysia, jossa yksi tutkija raportoi läpinäkyvästi kaikki perustellut analyyttiset vaihtoehdot. Kolmanneksi uudet julkaisufoorumit, kuten synkroniset robustiusraportit (Bartoš ym. 2025), tarjoavat vakiintuvaa käytäntöä kriittisten tulosten kestävyyden arvioimiseksi ennen niiden laajaa vaikutusta.

Ammattikorkeakoulun TKI-hankkeissa tai väitöskirjatutkimuksissa ei välttämättä ole resursseja kymmenen analyytikon rinnakkaistöihin. Mutta on silti hyödyllistä, että raportoimme julkaisuissa muutaman vaihtoehtoisen mallin tulokset ja teemme näkyväksi, kuinka herkkä päätelmä on erilaisille analyysivalinnoille. Myös kirjoittamisen tasolla on syytä välttää toteamusta ”tulos osoittaa”, kun tarkempi muotoilu olisi ”tulos on yhteensopiva valitun analyysin kanssa”.

Kohti vaatimattomampaa empiiristä tiedettä

Multi100-tutkimuksen viesti ei ole pessimistinen. Se muistuttaa, että objektiivisuus tieteessä ei tarkoita väitteiden riippumattomuutta tutkijasta, vaan tutkijoiden tekemien valintojen läpinäkyvyyttä ja keskinäistä arvioitavuutta. Wagenmakersin ja kumppaneiden (2022) sanoin: uskomus siitä, että jokaiselle aineistolle on olemassa yksi ainoa oikea analyysimenettely, on tilastollinen myytti.

Kysymys, jonka jokaisen empiirisen tutkijan kannattaa esittää itselleen ennen johtopäätöksen muotoilua, on yksinkertainen: kuinka paljon tulos muuttuisi, jos olisin tehnyt toisenlaisia valintoja analysoidessani aineistoa? Jos emme tiedä vastausta, emme myöskään tiedä, kuinka varmoja johtopäätöksissämme voimme olla. Tämä vaatimattomuus ei heikennä tieteen arvoa, vaan päinvastoin se vahvistaa sitä.

Lähteet

Aczel, B., Szaszi, B., Clelland, H.T. et al. 2026. Investigating the analytical robustness of the social and behavioural sciences. Nature. Vol. 652(8108), 135–142. Viitattu 4.5.2026. Saatavissa https://doi.org/10.1038/s41586-025-09844-9

Bartoš, F., Sarafoglou, A., Aczel, B., Hoogeveen, S., Chambers, C.D. & Wagenmakers, E.-J. 2025. Introducing synchronous robustness reports. Nature Human Behaviour. Vol. 9(4), 635–637. Viitattu 4.5.2026. Saatavissa https://doi.org/10.1038/s41562-025-02129-1

Wagenmakers, E.-J., Sarafoglou, A. & Aczel, B. 2022. One statistical analysis must not rule them all. Nature. Vol. 605(7910), 423–425. Viitattu 4.5.2026. Saatavissa https://doi.org/10.1038/d41586-022-01332-8

Kirjoittaja

Lasse Torkkeli työskentelee johtavana asiantuntijana LAB-ammattikorkeakoulun liiketoimintayksikössä Lappeenrannan kampuksella. Hän tutkii pk-yritysten kansainvälistymistä, yrittäjyysekosysteemejä ja kestävyyttä kansainvälisen liiketoiminnan tutkimuskentässä. Torkkeli osallistui Multi100-projektiin yhtenä riippumattomasta uusinta-analyytikosta ja artikkelin kirjoittajista.

Artikkelikuva: https://pxhere.com/en/photo/764684 (CC0)