Hoe we de wetenschap weer op de rails krijgen

Crisis in de wetenschap: veel onderzoek blijkt bij herhaling helemaal niet te kloppen. Psychologen zaten ook te rommelen, maar zijn nu een voorbeeld voor de rest.

Leestijd 4 minuten — Do 1 maart 2018
Zwarte zwanen

Merlijn Staps Stagiair

Dat niet alles wat in de krant staat, waar is, realiseren de meeste mensen zich wel. Als je echt iets zeker wil weten, moet je kijken naar de wetenschap. Daar wordt secuur, objectief en betrouwbaar onderzoek gedaan naar hoe de wereld in elkaar zit. Conclusies zijn genuanceerd en worden alleen voorzichtig getrokken. Zo komen we stapje voor stapje dichter bij de waarheid. Althans, dat was het beeld. Maar steeds vaker blijkt: de praktijk is anders.

"Meer dan de helft van het onderzoek blijkt niet repliceerbaar"

Om carrière in de wetenschap te maken zijn publicaties in toptijdschriften nodig, maar die publiceren alleen “spannend” onderzoek. En op zoek naar een spannend resultaat gaat het vaak mis, legt dr. Daniël Lakens, experimenteel psycholoog aan de TU Eindhoven, uit bij zijn lezing Psychologie als modelwetenschap. Wetenschappers gaan water bij de wijn doen. Verzamelde data worden hier een beetje opgeklopt, daar een beetje aangedikt en soms achtergehouden. In sommige gevallen blijft er meer water dan wijn over. Niet alles wat in wetenschappelijke tijdschriften wordt gepubliceerd, is dus waar. Wetenschappers zijn zich hier best van bewust, maar de omvang van dit probleem kwam toch wel als een schok. Uit grootschalige replicatiestudies die de afgelopen jaren werden uitgevoerd, bleek dat meer dan de helft van de onderzoeken bij herhaling niet hetzelfde resultaat opleverden. Hoe kun je dan nog vertrouwen hebben in de wetenschap?

De oorzaken

Of een resultaat gepubliceerd kan worden hangt af van een statistische analyse. De uitkomst van zo'n analyse is een zogeheten p-waarde. Die geeft aan hoe waarschijnlijk de waargenomen data zijn als het gezochte verband niet zou bestaan. Hoe kleiner de p-waarde, hoe beter. Een p-waarde van 0,001 of lager krijg je door “toeval” bijvoorbeeld maar 1 op de 1000 keer. De afspraak is dat een resultaat statistisch significant is – en dus publiceerbaar – wanneer de p-waarde kleiner is dan 0,05. Op jacht naar een p-waarde onder de 0,05 gaan wetenschappers de fout in.

Stel bijvoorbeeld dat je onderzoek doet naar eetgedrag, zoals de Amerikaanse psycholoog Brian Wansink. Hangt de hoeveelheid eten die mensen opscheppen af van het bedrag dat ze ervoor hebben betaald? Stel nu ook dat je een p-waarde van 0,06 vindt. Jammer, want je resultaten zijn dan niet statistisch significant. Al het vooronderzoek, alle tijd, proefpersonen, dataverwerking, allemaal voor niets.

Toch nog maar eens goed naar de data kijken… Misschien zorgt het verwijderen van één outlier (iemand die heel veel of juist heel weinig at) ervoor dat de p-waarde wél onder de magische grens van 0,05 komt. En misschien is die outlier zo'n rare uitkomst dat je het verwijderen ervan nog kunt verantwoorden ook. Dat zou mooi zijn! Of probeer eens een andere analyse van de data. Misschien vind je het gezochte verband wel als je alleen naar mannen kijkt. Of alleen naar vrouwen. Of alleen naar mensen die pizza bestelden. Enzovoort. Als je genoeg probeert, vind je vanzelf een manier om een p-waarde kleiner dan 0,05 te vinden. Strik eromheen en opsturen naar een wetenschappelijk tijdschrift. Weer een publicatie te pakken.

Strik eromheen en opsturen naar een wetenschappelijk tijdschrift. Weer een publicatie te pakken.

P-waardes in gepubliceerd onderzoek zitten verdacht vaak nét onder de 0,05.

Het sleutelen aan data, net zo lang totdat er een significant resultaat uitrolt, mag natuurlijk niet. Maar het gebeurt wel. Zelfs beroemde wetenschappers uit het verleden blijken niet zuiver te werk zijn gegaan: toen statistici in het werk van Gregor Mendel (bekend van de wetten van Mendel die je bij biologie op de middelbare school leert) doken, bleken zijn resultaten te mooi om waar te zijn. Data die zo goed met de theorie kloppen verwacht je minder dan 1 op de 10.000 keer. Waarmee nog niet gezegd is dat hij de resultaten uit zijn duim zoog – misschien dat hij simpelweg stopte toen zijn resultaten er mooi uitzagen.

De oplossing

Het lijkt een deprimerend verhaal: als onderzoekers zo zitten te rommelen, kan dat het idee voeden dat wetenschap “ook maar een mening is.” Gelukkig is Lakens optimistischer. Hij ziet de huidige crisis juist als een kans om de wetenschap blijvend te verbeteren. Maar hoe repareren we de wetenschap? Lakens heeft aan ideeën geen gebrek:

Strengere regels. Verplicht onderzoekers om hun onderzoek te preregistreren: ze moeten van tevoren aankondigen welk effect ze gaan onderzoeken. In de medische wetenschap is zo'n regel al in 2004 ingevoerd, wat er toe leidde dat het aantal onderzoeken waarin een effect gevonden werd, daalde van meer dan de helft naar een kleine 10%. In sommige gevallen worden onderzoeken met een interessante onderzoeksvraag en solide opzet al geaccepteerd voor publicatie voordat de data verzameld is. Zo krijgt goed onderzoek de ruimte ongeacht hoe spectaculair de uitkomst is.
Straffen van wetenschappers die de norm overtreden. Wetenschappers houden elkaar kritisch in de gaten, en daardoor valt er soms één van zijn of haar voetstuk af. Wie niet binnen de lijntjes kleurt en een artikel moet terugtrekken omdat er niet correct met de data omgegaan is, verschijnt met naam en toenaam op het blog Retraction Watch.
Beter samenwerken. Hierdoor is er meer sociale controle, en minder prestige voor individuele wetenschappers. Dit is iets waar de psychologie, Lakens' vakgebied, kan leren van andere vakgebieden. “Bij medisch onderzoek gaat de dokter ook nooit zelf de data analyseren,” aldus Lakens.
Betere statistiek. Veel psychologen zijn geen expert als het op statistiek aankomt. “Ik ging zelf ook geen psychologie studeren omdat ik wiskunde zo leuk vond,”, zegt Lakens. Maar nu is hij zich bewust van het belang ervan. Lakens heeft een blog getiteld “The 20% statistician”: als onderzoekers 20% beter in statistiek zouden zijn, zou 80% van de fouten voorkomen kunnen worden. Hij heeft zelfs een gratis online statistiekcursus opgezet.

"Bij medisch onderzoek gaat de dokter ook niet zelf de data analyseren"

Er kan dus nog flink aan de weg getimmerd worden. En omdat wetenschap mensenwerk is, zijn psychologen volgens hem uitermate geschikt als wetenschapsverbeteraars: ze hebben zowel verstand van onderzoeksmethoden als van de drijfveren van onderzoekers. Maar, haast Lakens zich te zeggen, het is niet allemaal bagger. Er is psychologisch onderzoek dat wel standhoudt. “We moeten niet vergeten dat er ook genoeg is om trots op te zijn.”

Meer horen over hoe de wetenschap kan leren van de psychologie? Kijk de lezing lezing 'Psychologie als modelwetenschap' terug. Bekijk ook de andere lezingen in de serie 'Zwarte zwanen'.