Home Nieuws Wat betekent de p-waarde zelfs?

Wat betekent de p-waarde zelfs?

5
0
Wat betekent de p-waarde zelfs?

een seconde: als datawetenschapper heb je dit scenario meegemaakt (de kans is groot dat je dit meer dan eens hebt gedaan). Iemand hield je midden in het gesprek tegen en vroeg: ‘Wat betekent een p-waarde precies?Ik ben er ook heel zeker van dat uw antwoord op die vraag anders was toen u voor het eerst aan uw data science-reis begon, dan een paar maanden later, versus een paar jaar later.

Maar waar ik nu nieuwsgierig naar ben, is dat u, de eerste keer dat u die vraag werd gesteld, een eerlijk, zelfverzekerd antwoord kon geven? Of zei je zoiets als: ‘Het is… de waarschijnlijkheid dat het resultaat willekeurig is?”(niet noodzakelijkerwijs in die exacte woorden!)

De waarheid is dat je niet de enige bent. Veel mensen die regelmatig p-waarden gebruiken, begrijpen eigenlijk niet wat ze bedoelen. En eerlijk gezegd hebben de lessen statistiek en wiskunde dit niet bepaald gemakkelijk gemaakt. Ze benadrukten allebei het belang van p-waarden, maar brachten geen van beide hun betekenis in verband met dat belang.

Dit is wat mensen denken dat een p-waarde betekent: ik wed dat je zoiets hebt gehoord als ‘Er is een kans van 5% dat mijn resultaat te wijten is aan willekeur”, “Er is een kans van 95% dat mijn hypothese juist is”, of misschien wel de meest voorkomende, “lagere p-waarde = meer waarheidsgetrouwe/betere resultaten”.

Het punt is echter dat deze allemaal verkeerd zijn. Niet een beetje verkeerd, eerder fundamenteel verkeerd. En de reden daarvoor is nogal subtiel: we stellen de verkeerde vraag. We moeten weten hoe we de juiste vraag moeten stellen, omdat het begrijpen van p-waarden op veel gebieden erg belangrijk is:

  • A/B-testen in de technologie: beslissen of een nieuwe functie daadwerkelijk de gebruikersbetrokkenheid verbetert of dat het resultaat alleen maar ruis is.
  • Medicijnen en klinische onderzoeken: bepalen of een behandeling een reëel effect heeft in vergelijking met een placebo.
  • Economie en sociale wetenschappen: het testen van relaties tussen variabelen, zoals inkomen en opleiding.
  • Psychologie: evalueren of waargenomen gedrag of interventies statistisch betekenisvol zijn.
  • Marketinganalyses: meten of campagnes daadwerkelijk conversies beïnvloeden.

In al deze gevallen is het doel hetzelfde:
om erachter te komen of wat we zien een signaal is… of gewoon geluk dat doet alsof het betekenis heeft.

Dus wat is een p-waarde?

Afbeelding door auteur (gemaakt met Canva)

Het werd tijd dat we deze vraag stellen. Dit is de schoonste manier om erover na te denken:

Een p-waarde meet hoe verrassend uw gegevens zouden zijn als er niets echts zou gebeuren.

Of nog eenvoudiger:

“Als alles gewoon willekeurig was… hoe raar is wat ik net zag?”

Stel je voor dat je gegevens zich in een spectrum bevinden. Als er niets gebeurt, zullen uw resultaten meestal rond ‘geen verschil’ schommelen. Maar soms leidt willekeur tot vreemde uitkomsten.

Als je resultaat helemaal in de staart belandt, vraag je:

“Hoe vaak zou ik zoiets extreems toevallig zien?”

Die waarschijnlijkheid is uw p-waarde. Laten we proberen dat met een voorbeeld te beschrijven:

Stel je voor dat je een kleine bakkerij runt. Je hebt een nieuw koekjesrecept gemaakt en je denkt dat het beter is dan het oude. Maar als slimme ondernemer heb je data nodig om die hypothese te ondersteunen. Dus je doet een eenvoudige test:

  1. Geef 100 klanten het oude koekje.
  2. Geef 100 klanten het nieuwe koekje.
  3. Vraag: “Vind je dit leuk?”

Wat je waarneemt:

  1. Oud koekje: 52% vond het leuk.
  2. Nieuw koekje: 60% vond het leuk.

Nou, we hebben het! De nieuwe heeft een betere klantwaardering! Of wij?

Maar hier wordt het een beetje lastig: “Is het nieuwe koekjesrecept eigenlijk beter… of heb ik gewoon geluk gehad met de groep klanten?”P-waarden zullen ons helpen dat te beantwoorden!

Stap 1: Ga ervan uit dat er niets gebeurt

Je begint met de nulhypothese: “Er is geen echt verschil tussen de cookies.” Met andere woorden, beide cookies zijn even goed, en elk verschil dat we zagen is slechts een willekeurige variatie.

Stap 2: Simuleer een ‘willekeurige wereld’.

Stel je nu eens voor dat je dit experiment duizenden keren herhaalt: als de koekjes eigenlijk hetzelfde zouden zijn, zou de ene groep ze soms lekkerder vinden, soms de andere. Dat is tenslotte hoe willekeur werkt.

In plaats van wiskundige formules te gebruiken, doen we iets heel intuïtiefs: doen alsof beide cookies even goed zijn, simuleren duizenden experimenten onder die veronderstelling en vragen dan:

“Hoe vaak zie ik een verschil zo groot als 8% puur door geluk?”

Laten we het uittekenen.

Volgens de code, p-waarde = 0,2.

Dat betekent dat als de koekjes eigenlijk hetzelfde zouden zijn, ik ongeveer 20% van de tijd een zo groot verschil zou zien. Als we het aantal klanten dat we vragen voor een smaaktest vergroten, zal die p-waarde aanzienlijk veranderen.

Merk op dat we niet hoefden te bewijzen dat de nieuwe cookie beter is; in plaats daarvan concludeerden we op basis van de gegevens dat “Dit resultaat zou behoorlijk raar zijn als er niets aan de hand was.” Dat is genoeg om aan de nulhypothesen te gaan twijfelen.

Stel je nu voor dat je de cookietest niet één keer hebt uitgevoerd, maar 200 verschillende keren, elk met nieuwe klanten. Voor elk experiment vraag je:

“Wat is het verschil in hoeveel mensen het nieuwe koekje leuk vonden versus het oude?”

Wat vaak gemist wordt

Dit is het deel waar iedereen over struikelt (inclusief ikzelf toen ik voor het eerst een statistiekles volgde). Een p-waarde beantwoordt deze vraag:

“Als de nulhypothese waar is, hoe waarschijnlijk zijn deze gegevens dan?”

Maar wat wij willen is:

“Gezien deze gegevens, hoe waarschijnlijk is het dat mijn hypothese waar is?”

Die zijn niet hetzelfde. Het is alsof je vraagt: “Als het regent, hoe groot is de kans dat ik dan natte straten zie?
versus “Als ik natte straten zie, hoe groot is de kans dan dat het regent?”

Omdat onze hersenen omgekeerd werken, willen we, als we gegevens zien, de waarheid afleiden. Maar p-waarden gaan de andere kant op: neem een ​​wereld aan → evalueer hoe raar je gegevens in die wereld zijn.

Dus in plaats van te denken: “p = 0,03 betekent dat er een kans van 3% is dat ik ongelijk heb”, denken wij “Als er niets echts zou gebeuren, zou ik zoiets extreems slechts 3% van de tijd zien.”

Dat is het! Geen woord over waarheid of juistheid.

Waarom is het begrijpen van p-waarden belangrijk?

Een verkeerd begrip van de betekenis van p-waarden leidt tot echte problemen wanneer u het gedrag van uw gegevens probeert te begrijpen.

  1. Vals vertrouwen

Mensen denken: “pag

  1. Overreageren op lawaai

Een kleine p-waarde kan nog steeds toevallig gebeuren, vooral als je veel tests uitvoert.

  1. Het negeren van de effectgrootte (of de context van de gegevens)

Een resultaat kan statistisch significant zijn, maar praktisch betekenisloos. Een verbetering van 0,1% met p

Beschouw een p-waarde als een ‘raarheidsscore’.

  • Hoge p-waarde → “Dit ziet er normaal uit.”
  • Lage p-waarde → “Dit ziet er raar uit.”

En rare gegevens zorgen ervoor dat je je aannames in twijfel trekt. Dat is alles wat het testen van hypothesen doet.

Waarom is 0,05 het magische getal?

Je hebt deze regel waarschijnlijk ooit gezien:

“Als blz

De drempel van 0,05 werd populair dankzij Ronald Fisher, een van de eerste figuren in de moderne statistiek. Hij stelde 5% voor als een redelijke grens voor wanneer de resultaten ‘zeldzaam genoeg’ lijken om de aanname van willekeur in twijfel te trekken.

Niet omdat het wiskundig optimaal of universeel correct is, maar gewoon omdat het… praktisch was. En na verloop van tijd werd het de standaard. P

Bij het kiezen van 0,05 ging het om het balanceren van twee soorten fouten:

  • Valse positieven → denken dat er iets gebeurt terwijl dat niet het geval is.
  • Valse negatieven → het missen van een echt effect.

Als je de drempel strenger maakt (bijvoorbeeld 0,01), verminder je het aantal valse alarmen, maar mis je meer echte effecten. Aan de andere kant, als je het losser maakt (bijvoorbeeld 0,10), vang je meer echte effecten op, maar riskeer je meer ruis. Dus 0,05 zit ergens in het midden.

De afhaalmaaltijd

Als u dit artikel met slechts één ding verlaat, laat het dan zo zijn dat een p-waarde u niet vertelt dat uw hypothese waar is; het geeft je ook niet de kans dat je ongelijk hebt! Het vertelt u hoe verrassend uw gegevens zijn als u ervan uitgaat dat ze geen effect hebben.

De reden dat de meeste mensen in eerste instantie in de war raken door p-waarden is niet dat p-waarden ingewikkeld zijn, maar omdat ze gewoon vaak achterstevoren worden uitgelegd. Dus in plaats van te vragen: “Ben ik geslaagd voor 0,05?”vragen: “Hoe verrassend is dit resultaat?

En om dat te beantwoorden, moet je p-waarden als een spectrum beschouwen:

  • 0,4 → volkomen normaal
  • 0,1 → mild interessant
  • 0,03 → enigszins verrassend
  • 0,001 → zeer verrassend

Het is geen binaire schakelaar; het is eerder een gradiënt van bewijsmateriaal.

Zodra je je denken verlegt van ‘Is dit waar?’ tot “Hoe raar zou dit zijn als er niets zou gebeuren?”, alles begint te klikken. En nog belangrijker: u begint betere beslissingen te nemen met uw gegevens.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in