Wiskundemeisjes

Ionica & Jeanine
 
Slik Internetbureau Rotterdam Internetbureau Rotterdam



  • Laatste Reacties

Categorieën

Archief

Deze column verscheen afgelopen weekend in de Volkskrant.

Beste Leidse geesteswetenschappers,

Goed nieuws vorige week! Maar liefst 71% van de afgestudeerden bij uw Leidse faculteit Geesteswetenschappen vindt binnen twee maanden een baan. Wie zei dat je geen baan kunt krijgen met studies als Afrikaanse taalkunde, wijsbegeerte of godgeleerdheid? Toegegeven, een groot deel van uw alumni werkt niet in hun eigen vakgebied of zit een tikje onder hun niveau. Maar ze hebben in elk geval een baan in deze tijden van crisis en werkeloosheid.

Hoewel? Vond echt 71% van de afgestudeerden zo snel een baan? Ik pakte uw onderzoeksrapport er eens bij. U benaderde in totaal 3.635 alumni met een email of schriftelijke uitnodiging. Daarvan gaven slechts 839 alumni antwoord. En daarvan had dan 71% binnen twee maanden een baan gevonden. Over de overige 2.796 alumni weten we niets. Zouden zij het te druk hebben gehad om te antwoorden? Of reageerden ze niet omdat ze zich schaamden voor hun werkeloosheid?

Uw onderzoek deed me denken aan een voorbeeld uit de klassieker How to lie with statistics, in 1954 geschreven door Darrell Huff. Ik schreef daar al eerder over, maar laat ik het idee gewoon nog één keer uitleggen. Huff beschrijft in dit boekje hoe hij in Time Magazine leest dat de gemiddelde alumnus van Yale $25.111 per jaar verdient. Omgerekend naar onze tijd zou dat ruim $200.000 zijn, ver bovenmodaal dus.


Illustratie uit How to lie with statistics. Wat zeggen mensen als je ze naar hun inkomen vraagt?


Huff vraagt zich af hoe de onderzoekers bij zo’n gemiddelde komen. Hij bedenkt dat ze onmogelijk alle alumni van Yale persoonlijk naar hun salaris kunnen vragen. Waarschijnlijk heeft slechts een deel van de alumni de vragenlijst gekregen en heeft daarvan dan weer een klein deel die vragenlijst ingevuld. Wat voor alumni zullen er vooral antwoorden? Bij het versturen van de vragenlijsten zijn de succesvolle oud-studenten makkelijker terug te vinden dan degenen die in de goot liggen. En bij degenen die de lijst uiteindelijk krijgen, zullen vooral de succesvollen het aardig vinden om hun salaris op te geven. Zo vindt er een dubbele selectie plaats op succes en geeft de vragenlijst een vertekend beeld. Huff vermoedt dat het echte gemiddelde salaris van de Yale-alumni ongeveer de helft is van het genoemde bedrag.

Thomas Acda zag zulke selectie ook bij reünies van de middelbare school. Hij legt uit waarom het altijd de succesvolle types zijn die zo’n bijeenkomst organiseren: “Niemand wordt ‘s morgens wakker en zegt: ik ben nu twee keer gescheiden, drie jaar werkeloos, heb vier kinderen, allevier debiel. Hoe zou het met mijn andere klasgenootjes zijn?” Weinig mensen lopen te koop met hun eigen mislukkingen.



Zouden bij uw onderzoek ook vooral de succesvolle alumni hebben geantwoord en vond in werkelijkheid veel minder dan 71% van de afgestudeerden snel een baan? Of, om niets uit te sluiten, hadden degenen die niet geantwoord hebben het misschien juist te druk met hun topbanen en ligt het echte percentage een stuk hoger? We weten na uw onderzoek eigenlijk niets. Behalve dan dat er ruim vijftig jaar na het verschijnen van How to lie with statistics nog steeds dezelfde fouten worden gemaakt.

Met groet,

Ionica


Deze column staat vandaag in de Volkskrant.

Een vriend grapte laatst dat dolfijnen misschien wel onterecht zo’n sympathiek imago hebben: “Je hoort alleen verhalen over dolfijnen die een drenkeling redden, maar je hoort natuurlijk nooit iets van de eenzame zwemmer die door een dolfijn juist verder mee in zee is gesleept.” Niets ten nadele van dolfijnen, maar hij had een punt. Dit is een voorbeeld van vertekening.


evil-dolphin
Voorbeeld van een minder sympathieke dolfijn

Eén van de bekendste voorbeelden van vertekening komt uit het legendarische boekje How to lie with statistics dat Daniel Huff in 1954 schreef. Huff las in de krant dat de gemiddelde afgestudeerde van Yale $25.111 per jaar verdiende (dat is vergelijkbaar met een salaris van meer dan $200.000 in deze tijd). Hij vond dat salaris wat hoog klinken en probeerde te bedenken hoe ze aan dat bedrag kwamen. Ze hadden vast niet alle afgestudeerden benaderd, maar een steekproef genomen. En wie waren dan het makkelijkste te bereiken? Degenen die succesvol en rijk waren. De kans is groot dat de mislukkelingen onvindbaar waren of geen zin hadden om te antwoorden. Zo raakte het resultaat vertekend, waarschijnlijk was het echte gemiddelde salaris een stuk lager dan die genoemde $25.111 (en Huff legt uit dat er wel meer verdacht is aan dit zeer precieze bedrag).

Het idee achter een steekproef is dat je uit een klein aantal waarnemingen iets kunt zeggen over het grote geheel. Maar dan moeten die waarnemingen wel netjes willekeurig zijn gekozen. Nog een voorbeeld. Stel dat je een rockster bent en dat in je kleedkamer altijd een porseleinen vaas eist met tweeduizend blauwe en rode M&M’s. Omdat je de moeilijkste niet bent, schrijf je niet voor wat de verhouding tussen de blauwe en rode snoepjes moet zijn. Als je een keer wilt weten hoeveel blauwe M&M’s je precies hebt, dan moet je je roadie vragen om de snoepjes één voor één te tellen. Maar als je het alleen ongeveer wilt weten, dan kun je een flinke hand snoepjes graaien, die uittellen en aannemen dat de verhouding in de hele vaas hetzelfde zal zijn. Maar als alle rode M&M’s op de bodem liggen, dan zul je onterecht concluderen dat je alleen blauwe M&M’s heb gekregen. Je moet dus wel een goede steekproef nemen.

Dit klinkt nogal simpel, maar toch gaat het vaak mis. Een internetverkiezing geeft geen representatief beeld van wat het Nederlands publiek vindt, reaguurders zijn oververtegenwoordigd, de mening van computerschuwe ouderen verdwijnt. Soms zie je bij vertekening alleen de mislukkingen: als je op internet zoekt naar de ervaringen met een medische behandeling, dan vind je vooral de horrorverhalen. De mensen waarbij alles probleemloos is gegaan, hebben veel minder behoefte om hun verhaal aan anderen te vertellen.

In sommige gevallen hoor je juist alleen de succesverhalen, net als bij de mensenreddende dolfijnen. Neem de enquête die vraagt hoe leuk mensen het vinden om enquêtes in te vullen. Die zal laten zien dat mensen het echt superleuk vinden om enquêtes in te vullen, want degenen die een hekel hebben aan enquêtes gaan deze belachelijke vraag zeker niet beantwoorden.


Slangen en trappen

In Filmpjes, door Ionica
28-09-2010

Josh Fraser legt in onderstaand filmpje scherp en grappig uit waarom veel van onze angsten statistisch gezien onterecht zijn. Meer mensen gaan dood doordat ze van een trap vallen dan doordat ze door een slang gebeten worden. Toch zijn slangen veel enger dan trappen. Zoals Fraser zegt: "But who are we to let statistics get in the way of our fears?"



Met dank aan Willem-Jan voor de tip.


24-04-2010

Op schrijversmarkt.nl kunnen schrijvers een manuscript plaatsen en kunnen lezers kiezen welke manuscripten worden uitgegeven. Voor vijf euro steun je een manuscript. Als een manuscript 250 unieke supporters heeft, dan wordt het uitgegeven en krijgen alle supporters de eerste druk toegestuurd. Een grappige opzet, al staan er op de site vooral veel niet zulke goede ideeën.

Wel een goed idee is Van Tofu Krijg Je Geheugenverlies over gestuntel en gekonkel met statistiek in media, reclame en politiek. Coen de Bruijn raakte toen hij bij softwarebedrijf SPSS werkte in de ban van statistiek. Als hobby schreef hij een boekje over hoe statistiek (verkeerd) wordt gebruikt in media, reclame en politiek. Een voorbeeld:

Een persbericht van de Vereniging Eigen Huis illustreert dit treffend. Onder de kop Rioolheffing nieuwe gemeentelijke melkkoe publiceerde deze vereniging in april 2008 een artikel op hun website over de nieuwe rioolheffingen, die dramatisch zouden zijn gestegen. In het artikel werd gesproken over een stijging van maar liefst 191% voor de gemeente Borssele. In de pers nam dit percentage gretig aftrek. Het komt niet dagelijks voor dat je zulke grote stijgingen mag verslaan. Maar het ging natuurlijk om de cijfers achter dit percentage.

Hoe stak dit in Borssele in elkaar? In 2008 betaalde een Nederlands gezin gemiddeld € 196,21 aan rioolheffing. In Borssele gingen de kosten van € 24 in 2007 naar € 69,88 in 2008. Na de “dramatische” stijging van 191%, was dit nog steeds slechts een fractie van wat een gemiddeld Nederlands gezin betaalt. In het persbericht waren deze achterliggende cijfers niet te vinden.

In dit filmpje vertelt Coen zelf meer over het hoe en wat.



Coen heeft inmiddels 186 van de 250 supporters, dus ik denk dat de kans groot is dat zijn boek er komt. Kijk voor meer informatie op Coens pagina bij schrijversmarkt. Voor 5 euro steun je hem!


14-04-2010

Jullie hebben het vast wel gezien op het journaal: de zaak Lucia de B., de verpleegster die tot levenslang veroordeeld werd wegens moord op patiënten, werd een poosje geleden heropend. Het bewijs deugde niet, en wat voor ons interessant is: de argumenten berustten op statistiek, en daar bleek wel het een en ander op af te dingen. Vandaag werd Lucia de B. vrijgesproken. Het staat niet eens vast dat de slachtoffers überhaupt door toedoen van menselijk handelen zijn omgekomen.

ARNHEM-GERECHTSHOF-LUCIA DE B.

De zaak kwam aan het rollen toen collega's van Lucia de B. opmerkten dat zij wel heel vaak aan het werk was op het moment dat een patiënt onverwacht overleed. Maar hoe toevallig is dat? Veel minder toevallig dan aanvankelijk werd uitgerekend, aldus onder anderen hoogleraar statistiek Richard Gill.

Gill heeft zich jaren met de zaak beziggehouden. In een heleboel artikelen kun je meer lezen over zijn opvattingen rond de zaak, bijvoorbeeld in dit interview of in dit wat minder recente artikel op kennislink. Zie ook hier. Voor de wiskundigen onder jullie: op Gills eigen website zijn een paar wiskundige artikelen over de zaak te vinden.

Update: vanavond is Lucia de Berk te gast bij Pauw en Witteman.


Edward stuurde ons dit correcte, maar waarschijnlijk niet zo succesvolle liefdesliedje van Tim Minchin.

If I didn't have you, someone else would do
Your love is one in a million
(One in a million)
You couldnt buy it at any price
(Can't buy love)

But of the 9 point 9 hundred thousand other loves,
Statistically some of them would be equally nice.



Ik weet al wat ik op mijn volgende Valentijnskaart ga zetten:

But I'm just saying
I don't think you're special
I mean... I think your special
But
You fall within a bell curve


BMI

In Column,Geschiedenis, door Jeanine
09-01-2010

Deze column staat vandaag in de Volkskrant.

Het nieuwe jaar is net begonnen. Hoe staat het met uw goede voornemens? De mijne hebben dit jaar vooral met werk te maken (mijn proefschrift eindelijk afmaken, bijvoorbeeld), maar een van de meest voorkomende goede voornemens is een paar kilo afvallen.

weegschaal

Volgens de laatste cijfers van het CBS had in 2008 maar liefst 46,9 procent van de Nederlanders van twintig jaar of ouder overgewicht. Hierbij is overgewicht gedefinieerd met behulp van de zogenaamde Body Mass Index (BMI): je BMI is je gewicht gedeeld door het kwadraat van je lengte, waarbij je je gewicht in kilogrammen en je lengte in meters moet invullen. Wie 60 kilo weegt en 1 meter 67 lang is, heeft een BMI gelijk aan 60/(1,67)2 = 21,5.

Je hebt overgewicht als je een BMI hebt van 25 of meer. Met een BMI tussen de 25 en 30 heb je matig overgewicht, en bij een BMI van 30 of meer heb je ernstig overgewicht. Je hebt ondergewicht als je BMI kleiner is dan 18,5.

Maar wat betekent dat getal nou eigenlijk? Het is een heel rare grootheid: je deelt je gewicht (je massa, eigenlijk) door het kwadraat van een lengte. De bijbehorende eenheid is dus kg/m2. Fysiologisch gezien betekent deze grootheid helemaal niets, de BMI meet geen echt bestaande eigenschap van je lichaam.

Een ander probleem is dat de index geen rekening houdt met lichaamsbouw en vetpercentages. Een atletisch persoon met veel spieren en weinig vet is relatief zwaar en heeft een hoge BMI, want spieren hebben een hogere dichtheid dan vet. Toch wil je eigenlijk niet zeggen dat zo iemand overgewicht heeft. Ook hoe het vet over je lichaam verdeeld is, wat wel uitmaakt voor de gezondheidsrisico’s, wordt niet meegenomen in de BMI.

Waar komt die BMI dan eigenlijk vandaan?

De BMI wordt ook wel queteletindex genoemd, naar de wiskundige en sterrenkundige Adolphe Jacques Quételet (1796 – 1874). Hij was een van de eersten die statistische methoden gebruikte voor sociale fenomenen zoals criminaliteit en sterftecijfers. Daarvóór werd statistiek eigenlijk alleen maar in de sterrenkunde gebruikt.

Quetelet

Adolphe Quételet

Quételet probeerde aan de hand van metingen gegevens over “de gemiddelde mens” te verkrijgen. Hij verzamelde gegevens van een heleboel mensen en stelde een relatie vast tussen lengte en gewicht. In de Engelse versie van zijn boek staat: “the weight is in proportion to the square of the stature”, in andere woorden: over de hele populatie genomen staat het gewicht zo’n beetje in een vaste verhouding tot het kwadraat van de lengte.

In 1972 werd de queteletindex door Ancel Keys, die de invloed van voeding op gezondheid onderzocht, omgedoopt tot de Body Mass Index. Hij linkte de formule wel aan overgewicht, maar stelde ook dat de BMI alleen geschikt is voor populatiestudies en niet als diagnostisch instrument voor individuen.

Toch wordt de index daar veel voor gebruikt, vooral omdat hij zo gemakkelijk te berekenen is. Maar of je nu een officieel gezonde BMI hebt of niet: als je broeken sinds de Kerst wat strakker zitten, kan goede voornemens maken geen kwaad.


23-10-2009

Malcolm Gladwell gaf deze week in een interview met Time een advies aan alle jonge jounalisten.

If you had a single piece of advice to offer young journalists, what would it be?
The issue is not writing. It's what you write about. One of my favorite columnists is Jonathan Weil, who writes for Bloomberg. He broke the Enron story, and he broke it because he's one of the very few mainstream journalists in America who really knows how to read a balance sheet. That means Jonathan Weil will always have a job, and will always be read, and will always have something interesting to say. He's unique. Most accountants don't write articles, and most journalists don't know anything about accounting. Aspiring journalists should stop going to journalism programs and go to some other kind of grad school. If I was studying today, I would go get a master's in statistics, and maybe do a bunch of accounting courses and then write from that perspective. I think that's the way to survive. The role of the generalist is diminishing. Journalism has to get smarter.

Dat jullie het maar weten.


Vorig jaar vertelde Bill O'Reilly op het Amerikaanse Fox News hoe vreselijk Amsterdam is: iedereen gebruikt drugs, het is een paradijs voor criminelen, het is er levensgevaarlijk, enzovoorts.

Twee Amsterdammers maakten als antwoord hierop een filmpje met wat feiten over Amsterdam, zie the Truth About Amsterdam. Eén van die feiten was: 40,3% van de Amerikanen heeft cannabis geprobeerd, tegenover 22,6% van de Nederlanders.

Het antwoord van O'Reilly: "The way they use statistics in The Netherlands is different. Plus, it's a much smaller country."

Dit wiskundemeisje wist niet of ze moest lachen of huilen. Gelukkig staat er op  the Truth About Amsterdam een nieuw filmpje waar het nog een keer wordt uitgelegd.




De zogenaamde body-mass index (BMI), ook bekend als queteletindex, wordt gebruikt als een indicator voor een gezond gewicht. De formule voor je BMI is: massa / (lengte)2. Als je een BMI tussen 18 en 25 hebt, wordt je gewicht "normaal" genoemd, bij minder dan 18 heb je ondergewicht en bij meer dan 25 overgewicht.

Deze formule is bedacht door de wiskundige Adolphe Quételet (1796 - 1874), die als een van de eersten statistische methodes toepaste in de sociale wetenschappen. Maar hij paste de formule niet toe op individuen, hij gebruikte hem alleen om een hele populatie te beschrijven.

Keith Devlin betoogde een tijdje geleden al in zijn column dat de BMI gebruikt wordt voor iets waarvoor hij niet bedoeld is, namelijk om per persoon aan te geven of zijn gewicht gezond is of niet. En KP wees me erop dat Devlin zijn argumenten nu ook op de radio verteld heeft. De athletische Devlin blijkt zelf volgens de BMI-standaard overgewicht te hebben. De formule houdt namelijk geen rekening met de verhouding tussen botten, spieren en vet in iemands lichaam. Bovendien betekent de index fysiologisch niets (er is geen fysiologische reden om iemands lengte te kwadrateren, het is gewoon een formule die redelijk klopt met de data van een hele populatie), klopt de logica niet, enzovoort.

Lees Devlins hele column zelf: Do You Believe in Fairies, Unicorns, or the BMI? en luister naar hem in de uitzending van de NPR van afgelopen zaterdag: Top 10 Reasons Why The BMI Is Bogus. Het is grappig dat de formule er in Amerika anders uitziet door een omrekenfactor van 703, omdat ze lengtes in inches en massa's in pounds meten!