Dit bericht is geplaatst op zaterdag 12 november 2011 om 09:15 in categorieën Column. Je kunt de reacties volgen via een RSS 2.0 feed. Je kunt een reactie plaatsen, of een trackback van je eigen site plaatsen.
Wiskundemeisjes
Ionica & Jeanine
Een vertekend beeld van dolfijnen en M&M’s
In Column, door Ionica
Deze column staat vandaag in de Volkskrant.
Een vriend grapte laatst dat dolfijnen misschien wel onterecht zo’n sympathiek imago hebben: “Je hoort alleen verhalen over dolfijnen die een drenkeling redden, maar je hoort natuurlijk nooit iets van de eenzame zwemmer die door een dolfijn juist verder mee in zee is gesleept.†Niets ten nadele van dolfijnen, maar hij had een punt. Dit is een voorbeeld van vertekening.

Voorbeeld van een minder sympathieke dolfijn
Eén van de bekendste voorbeelden van vertekening komt uit het legendarische boekje How to lie with statistics dat Daniel Huff in 1954 schreef. Huff las in de krant dat de gemiddelde afgestudeerde van Yale $25.111 per jaar verdiende (dat is vergelijkbaar met een salaris van meer dan $200.000 in deze tijd). Hij vond dat salaris wat hoog klinken en probeerde te bedenken hoe ze aan dat bedrag kwamen. Ze hadden vast niet alle afgestudeerden benaderd, maar een steekproef genomen. En wie waren dan het makkelijkste te bereiken? Degenen die succesvol en rijk waren. De kans is groot dat de mislukkelingen onvindbaar waren of geen zin hadden om te antwoorden. Zo raakte het resultaat vertekend, waarschijnlijk was het echte gemiddelde salaris een stuk lager dan die genoemde $25.111 (en Huff legt uit dat er wel meer verdacht is aan dit zeer precieze bedrag).
Het idee achter een steekproef is dat je uit een klein aantal waarnemingen iets kunt zeggen over het grote geheel. Maar dan moeten die waarnemingen wel netjes willekeurig zijn gekozen. Nog een voorbeeld. Stel dat je een rockster bent en dat in je kleedkamer altijd een porseleinen vaas eist met tweeduizend blauwe en rode M&M’s. Omdat je de moeilijkste niet bent, schrijf je niet voor wat de verhouding tussen de blauwe en rode snoepjes moet zijn. Als je een keer wilt weten hoeveel blauwe M&M’s je precies hebt, dan moet je je roadie vragen om de snoepjes één voor één te tellen. Maar als je het alleen ongeveer wilt weten, dan kun je een flinke hand snoepjes graaien, die uittellen en aannemen dat de verhouding in de hele vaas hetzelfde zal zijn. Maar als alle rode M&M’s op de bodem liggen, dan zul je onterecht concluderen dat je alleen blauwe M&M’s heb gekregen. Je moet dus wel een goede steekproef nemen.
Dit klinkt nogal simpel, maar toch gaat het vaak mis. Een internetverkiezing geeft geen representatief beeld van wat het Nederlands publiek vindt, reaguurders zijn oververtegenwoordigd, de mening van computerschuwe ouderen verdwijnt. Soms zie je bij vertekening alleen de mislukkingen: als je op internet zoekt naar de ervaringen met een medische behandeling, dan vind je vooral de horrorverhalen. De mensen waarbij alles probleemloos is gegaan, hebben veel minder behoefte om hun verhaal aan anderen te vertellen.
In sommige gevallen hoor je juist alleen de succesverhalen, net als bij de mensenreddende dolfijnen. Neem de enquête die vraagt hoe leuk mensen het vinden om enquêtes in te vullen. Die zal laten zien dat mensen het echt superleuk vinden om enquêtes in te vullen, want degenen die een hekel hebben aan enquêtes gaan deze belachelijke vraag zeker niet beantwoorden.
zaterdag 12 november 2011 om 12:23
Beste wiskundemeisjes,
Voor wat betreft de salarisberekening gaat dit stukje niet helemaal op. Omdat er meerdere antwoorden gegeven kunnen worden is het mogelijk om er een Gauss kromme mee te bepalen.
Als inderdaad alleen het rechterdeel van de (vertekende) kromme zichtbaar wordt dan hebben de minder bedeelde afstudeerders aantoonbaar niet aan de proef deel genomen.
Groet,
Jan
zaterdag 12 november 2011 om 12:41
Jan, wie zegt dat die Gauss kromme ook echt bepaald is? Ik ken dit voorbeeld niet maar meestal zegt men iets als: "onder respondenten was het gemiddelde ...." en daar ga je dan al; dit is het punt van dit stukje.
zaterdag 12 november 2011 om 13:04
Micha,
Als je alleen maar het gemiddelde weet dan heb je natuurlijk gelijk.
Ik ben er hier vanuit gegaan dat de onderzoeksgegevens wel beschikbaar zijn en je de mogelijkheid hebt om daar dus wel wat aanvullende onderzoek op los te laten.
zaterdag 12 november 2011 om 14:11
Plus dat je er dan vanuitgaat dat salarissen normaal verdeeld zijn, en dat lijkt me eigenlijk nogal een gevaarlijke aanname.
zondag 13 november 2011 om 17:21
Dat is precies de reden waarom ik de de peilingen van Maurice de Hond niet helemaal vertrouw.
maandag 14 november 2011 om 11:12
@Harm: Maurice de Hontd is juist groot geworden door in de jaren 80 (ongeveer bij de opkomst van de PC) stratificatie toe te passen op verkiezings-peilingen. Dat was in de epidemiologie al veel langer gangbaar.
maandag 14 november 2011 om 15:40
Leuke column!
In iets algemeen-wetenschappelijke termen bedoelen jullie de 'confirmation bias'.
Kort door de bocht-versie: Je vindt wat je zoekt.
Of in sommige computermodellen (hoe het niet moet): Input = output.
dinsdag 15 november 2011 om 09:48
"hij had een punt" is geen voorbeeld van vertekening, maar van een anglicisme.
vrijdag 18 november 2011 om 12:07
Beste wiskundemeisjes,
Wie zei ook al weer: "Een statisticus liep eens in een meer van gemiddeld een halve meter diep. Hij verdronk ..."
Een olijke groet.
De Drs.
vrijdag 25 november 2011 om 12:16
Mooi hoor die bespiegelingen over steekproeven en Gauss krommen.Maar als je het boek "De Zwarte Zwaan" van Nassim Taleb hebt gelezen weet je dat de wereld tegenwoordig heel anders in elkaar zit, we leven in Exstremistan
woensdag 18 januari 2012 om 17:34
hoi,
wij haten wiskunde!
kunnen jullie nog levenlozer zijn?
Ingmar Bakker.
woensdag 18 januari 2012 om 20:00
@Ingmar Bakker: Wiskundigen zijn, evenals de wiskunde zelf, allesbehalve levenloos. In feite houdt iedereen zich dagelijks met wiskunde bezig, ook al zal niet iedereen zich dat altijd realiseren. Denk maar eens aan de cijfers 0 t/m 9 die je als kind hebt leren kennen, en die je dagelijks gebruikt om te controleren of het totaalbedrag op je boodschappenlijstje wel klopt, of die je gebruikt om het aantal vierkante meter tapijt te berekenen wat je in je huiskamer wilt leggen, en wat je daarvoor totaal dient te betalen. Wiskunde is dus niet altijd zo abstract als je misschien wel zou denken.
woensdag 4 april 2012 om 21:08
@Ingmar Bakker
ROFLSHMSFOAIDMT. jou bericht is nog nuttelozer dan de enquête over de behoefte voor een enquête
woensdag 4 april 2012 om 21:09
net als dat van mij btw