Wiskundemeisjes

Ionica & Jeanine
 
Slik Internetbureau Rotterdam Internetbureau Rotterdam



Categorieën

Archief

Een formule! Een formule?


In Muggenziften, door wiskundemeisjes

imdb logo

Als lijstjesgek ben ik dol op de Internet Movie Database (IMDb voor vrienden). Ze houden ook een lijst bij van de top 250 van de beste films, die door stemmen van gebruikers wordt bepaald. Laatst viel me op dat onderaan die pagina een formule staat. Ik vond het heel goed dat ze lieten zien hoe de lijst werd samengesteld en wilde hier al een lovend stukje schrijven over de IMDb. Tot ik eens beter naar de formule keek. Dit is hem:

beoordeling = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C,

waarbij

R = het gemiddelde cijfer dat de film krijgt,
v = het aantal stemmen voor de film,
m = het minimale aantal stemmen dat nodig is om in de lijst te komen (op dit moment 1300),
C = het gemiddelde cijfer over alle films genomen (op dit moment een 6.7).

Op de IMDb zeggen ze dat dit een true Bayesian estimate is. Ik vroeg aan een voorbij rennende hoogleraar in de statistiek of dat klopte. Hij antwoordde: "Onzin! Dit heeft niets met Bayes te maken, dit is gewoon een gewogen gemiddelde met een paar constantes erin."

Mij verbaast het vooral dat de drempelwaarde m op deze manier gebruikt wordt. Je zou willen dat voor films waarbij het aantal stemmen (v) lager is dan m, er iets geks uit de formule komt (iets negatiefs of heel kleins). Maar dat is helemaal niet het geval, zoals dit eenvoudige plaatje (waarbij het aantal stemmen loopt van 1000 tot 1500) laat zien.

Imdb formule

Zouden ze niet liever v-m gebruiken in plaats van v+m (hoewel dat in de noemer zeker geen goed idee is)? Of zie ik iets over het hoofd?
(Ionica)

3 reacties op “Een formule! Een formule?”

  1. Mark IJbema:

    Maar als v heel klein is tov m zegt dat toch dat het cijfer niet heel betrouwbaar is? Wat is dan het meest waarschijnlijke cijfer voor de film? De enige zinnige gok die we kunnen doen is dan maar de verwachtingswaarde voor een gemiddelde film nemen (de C uit de formule).

    Wat ze eigenlijk zeggen met deze formule is dat elke film alvast 1300 mensen krijgt die 6.7 stemmen. Beetje weird, maar t zorgt wel voor initieel redelijk stabiele cijfers, en ik neem eigenlijk aan dat 1300 *heel* weinig is tov het aantal werkelijke stemmers bij enigszins bekende films, dus daar is de invloed waarschijnlijk redelijk te verwaarlozen.

    Het misleidende zit m denk ik vooral in dat m een dubbelrol vervult. Het is een minimum voor opname in de lijst, maar het is daarnaast ook een wegingsfactor. Het zorgt er natuurlijk wel voor dat de werkelijke opname in de lijst een hoger aantal stemmers vereist.

    Zo heb je om een 7.9 (momenteel laagste in de lijst) 15600 mensen nodig die een acht gemiddeld stemmen, 2600 met 8.5 gemiddeld of 1418 met een negen gemiddeld.

  2. Yves:

    Inderdaad wat vreemd dat ze de score proberen uit te middelen door 1300 stemmen van 6.7 punten erbij te tellen.

    Maar wat je ook doet, het lijkt me behoorlijk moeilijk om de kwaliteit van een film uit te drukken in 1 getal, berekend uit een gemiddelde score en het aantal stemmen. Elke formule die je daarvoor eventjes uit je duim zuigt, zal voor een groot stuk arbitrair zijn. Tenzij je misschien 5 wiskundigen samen met de data opsluit in een kast tot ze een volledig verantwoordbare formule hebben :-)

    Hoe dan ook hadden ze iets meer inventiviteit aan de dag kunnen leggen. Zelf zou ik de gemiddelde score vermenigvuldigen met de logistische functie van het aantal stemmen en vervolgens delen door het logaritme van de standaardafwijking (geef toe dat dat net iets indrukwekkender zou zijn dan hun formule :-p)

  3. jevader:

    ja je ziet over het hoofd dat je totaal geen leven hebt als je op dit soort dingen let: again: dit is het begin van doodgaan...

    Kennelijk is je engels ook niet al te tof:

    Waar IMDB het over heeft is het Bayesianisme, wat vele toepassingen heeft. Zie bijvoorbeeld:

    http://en.wikipedia.org/wiki/Bayesian_probability
    http://en.wikipedia.org/wiki/Bayesian_inference
    http://en.wikipedia.org/wiki/Frequency_probability#Bayesianism (hetgene wat IMDB bedoelt)

    Het hele punt wat het Bayesianisme in het artikel van de laatste link maakt is dat er juist GEEN vreemde getallen uit een formule komen, maar juist normale getallen. Kennelijk ben je nogal een Frequentist...

    Voortaan iets scherper zijn als je een mug probeert te raken!

Plaats een reactie


Je kunt LaTeX gebruiken in je reactie.
Gelieve antwoorden op puzzels tussen [SPOILER] en [/SPOILER] te plaatsen.