P-value misvisende? (Statistikk) Stemmer magefølelsen min ?

13. september 2020

Noen uvitenskapelige folk kom med en påstand til meg (som heller ikke har vitenskapelig bakgrunn) om at de hadde bevist noe. Det var en pille som førte til enorme (totalt urealistiske) resultater, med p-value på <0.001 (for et lavt samplesize) som indikerer at dersom pillen ikke hadde effekt, ville det bare kommet et slikt resultat under 1 av 1000 ganger, dermed beviser det at pillen har noe effekt mener de.

Poblemet for min del kommer at at resultat av testen, viste et slik resultat som var helt utenkelig/umulig, slik at selv om pillen eventuelt hadde betydelig effekt, ville et resultat med stor samplesize aldri bli så godt som det ble i denne testen.

Så logisk sett for meg, føler jeg at når vi VET at resultatet av det lille sample sizen var et utslag av enormt med flaks i tillegg til eventuell virkelig effekt av pillen, bør ikke dette føre til at vi bør overse p-valuen og ikke trekke konklusjoner av den, eller revidere den for å kompensere for at vi vet at i dette spesifikke tilfelle var det usedvanlig mye flaks som påvirket resultatet og dermed ikke indikerer hva som ville vært tilfelle i en tilfeldig undersøkelse med tilfeldig dose tilfeldigheter

Altså, HVIS jeg på forhånd sa til deg at et resultat ville være ekstremt i ene eller andre retningen som følge av tilfeldigheter og ikke pillen, da er det ikke lenger så usannsynlig at et resultat blir ekstremt i ene eller andre retningen uavhengig av pillens effekt eller mangel på effekt

Og da er plutselig beviset betydelig svekket føler jeg. Er jeg en skeptiker som bør holde meg til konspirasjonsteorier, eller har jeg rett?

Har jeg rett eller har jeg rett?

Var forøvrig relatert til D-vitamin og denne studien som viste at pillen kurerer koronavirus basert på liten samplesize og enorm effekt så var det bevist mente de jeg snakket med. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7456194/

Anonymkode: e6555...04a

14. september 2020

Helt ærlig så skjønner jeg ikke hva hovedkritikken din går ut på, tror jeg. Kan du eventuelt prøve å si det på en annen måte?

Såpass lave p-verdier er lettere å få i store enn i små samples. Et vanlig problem med små samples er at det vanskeligere å etablere en effekt.

Studien ser for meg ved første øyekast noenlunde kurant ut i og med at den er randomisert med kontrollgruppe. Men: For å være helt sikker ville jeg etterspurt mye mer detaljert informasjon om helsetilstand for de to gruppene for behandlingen. Randomisering er bra for å unngå at faktorer man ikke har kontroll over med stor sannsynlighet opptrer like mye i både kontrolgruppen og behandlingsgruppen. Men det er god praksis å tilstrebe en likest mulig gruppe før randomisering.

I tillegg bør det være en placebogruppe i lillegg til kontrollgruppe. Jeg vet ikke om disse pasientene var klar over hva de fikk?

Dette er jo bare en pilotstudie, så man må uansett vente på flere studier før man konkluderer. Det kan være flere ting ved designet her som skurrer.

En annen ting er om de har rapportert effect size? Dette er noe annet enn p-verdi og beskriver bedre størrelsen på effekten de faktisk har indikert.

Endret 14. september 2020 av streveren
Skrivefeil, for tidlig posting ved uhell

14. september 2020

16 hours ago, AnonymBruker said:

Poblemet for min del kommer at at resultat av testen, viste et slik resultat som var helt utenkelig/umulig, slik at selv om pillen eventuelt hadde betydelig effekt, ville et resultat med stor samplesize aldri bli så godt som det ble i denne testen.

Det er motsatt; det er vanskelige å få signifikante resultater med liten sample size enn med stor.

Anonymkode: bfe04...b49

14. september 2020

Det som sannsynligvis hjelper enda bedre er å fikse den underliggende årsaken til d-vitamin-mangelen deres. Metabolsk syndrom ser jo ut til å være en enda større risikofaktor enn d-vitaminmangel. Hvordan fikser du det? Det kan fikses på så lite som 10 dager! Kutt kraftig på karbohydratene, kutt planteoljer, spis animalsk fett og spis masse kjøtt. 👍

Anonymkode: 3bdf5...b24

14. september 2020

5 timer siden, streveren skrev:

Helt ærlig så skjønner jeg ikke hva hovedkritikken din går ut på, tror jeg. Kan du eventuelt prøve å si det på en annen måte?

5 timer siden, AnonymBruker skrev:

Det er motsatt; det er vanskelige å få signifikante resultater med liten sample size enn med stor.

Anonymkode: bfe04...b49

Huff er så vanskelig å forklare, får lage et eksempel kanskje det kommer tydeligere frem, poenget mitt er at vi bør/kan anta at virkelig effekt, en effekt vi ville funnet med stor sample size, er innen et rimelig spenn. Dermed må funn utenfor dette rimelige spennent (i liten samplesize), indikere at i tillegg til en eventuell virkelig effekt, har vi også hatt mye flaks/varianse. Så det vi bør gjøre da er å sammenligne, hvor utenkelig er dette resultatet gitt at pillen er sukkerpille uten effekt. Med hvor utenkelig er dette resultatet gitt et potensielt spenn på rimelig virkelig effekt la oss si med (1.1-4x) reduksjon i "uønsket hendelse".

Det vi måler med 1 i 1000 er hvor utenkelig det er med et slikt resultat om effekten er 1x (altså ingen). Men effekten var 25x (gikk fra 50% til 2%). Hva er sannsynligheten for at resultatet blir 25x effekt, gitt virkelig effekt på maks 4x.?

Dermed bør vi analysere hvor mye av funnet vi tror er flaks, gjennom å estimere sannsynligheten for et slikt utfall gitt et intervall av virkelig troverdig effekt av medisinen.

La meg forsøke illustrere matematisk problemet, om jeg klarer. La oss si vi har to typer mynter i verden, Mynt (1) (ekte mynt) har 50% sannsynlighet for å lande på kron (Y) 50% for å lande på mynt (X). Mynt (2) (skjev mynt) har 60% sannsynlighet for kron, 40% mynt.

Noen kaster en mynt, av ukjent type og du vet ingenting du får bare en liste over hva mynten landet på, og av 10 kast ble 9 kron (90%) 1 mynt (10%).

Så lurer vi på ok, kan vi si noe om hva slags mynt vi kastet. Vi kan forsøke, hva er sannsynligheten for å få slike utfall ved tilfeldigheter gitt sannsynlighetsfordelingen til mynt 1.

P(9 kron for 10 kast gitt 50% sannsynlighet for kron) = 0.0097 = 0.97% = 1%. Så, det er bare 1 i 100 sannsynlighet for å få et slikt utfall med mynt 1. Så da har vi bevist at det er mynt 2? vel,

p(9 kron for 10 kast gitt 60% sannsynlighet for kron) = 0.046 = 4.6% Så, det er bare ca 5 i 100 sannsynlighet for å få et slikt utfall med mynt 2. Så da har vi bevist at det er mynt 1? vel,

https://stattrek.com/online-calculator/binomial.aspx

Hvis vi bare sier "Det er "utenkelig" at det er mynt 1, fordi da får du så sjeldent et slikt resultat tilfeldig, begår du en giga tabbe, fordi det OGSÅ er "utenkelig" å få et slikt resultat med mynt 2. DET er poenget mitt. Om vi ikke har annen informasjon enn dette, og ikke vet antall mynter i sirkulasjon etc, kan vi egentlig ikke slå fast hvilken mynt det var, vi kan bare si at resultatet er mer sannsynlig gitt mynt 2, ca 5x høyere. Så trolig er det mynt 2 men god sannsynlighet for at det er mynt 1 også. Ikke 1 i 100 kanskje 1 i 6 eller noe? Altså umulig å si. Ikke "bevist".

I medisin tilfellet blir dette mer komplisert å regne ut eksakt, men effekten forstår vi må være der også. De finner en effekt på 25x (fra 50% risiko for uønsket hendelse, til 2%), men aldri i livet om virkelig effekt av pillen (med stor sample size) er mer enn maks 4x

Så sier de at resultatet er utenkelig gitt ingen effekt av pillen 1x, 1 i 1000. Ja, men er ikke også resultatet utenkelig gitt 4x effekt. Ja. Så hva har vi egentlig funnet ut da? Vi fant ut, at i myntkastet, og medisinkastet, så ble resultatene forkludret av enormt med varianse i en retning, som gjør at p tallet høres lavt ut, men egentlig er misvisende

Dermed, er jeg skeptisk til denne bruken av resultatet som bevis på noe som helst Jeg tror den under "1 i 1000" er misvisende. Kanskje jeg er konspirasjonsteoretiker, eller bare dum, eller jeg har rett. Jeg pleier ikke å være dum egentlig.

Jeg vet at dere er enige med meg i mynt eksempelet, du kan ikke fastslå hvilken mynt som ble kastet tross "1 i 100" greia. og da ser jeg ikke hvordan dere kan være uenige med medisin eksempelet heller, for det er samme situasjon bare mer komplisert å regne på. Effekten vil være der også.

Har jeg rett eller har jeg rett?

Anonymkode: e6555...04a

14. september 2020

1 hour ago, AnonymBruker said:

Så det vi bør gjøre da er å sammenligne, hvor utenkelig er dette resultatet gitt at pillen er sukkerpille uten effekt. Med hvor utenkelig er dette resultatet gitt et potensielt spenn på rimelig virkelig effekt la oss si med (1.1-4x) reduksjon i "uønsket hendelse".

Kan vi ikke bli hjulpet av confidence interval til dette? Rapporterer studien det? Det er riktig at små samples typisk har videre confidence interval og derfor større feilmargin når det gjelder størrelsen på effekten.

Så det at de fant signifikante forskjeller mellom gruppene tyder på en reell forskjell i det samplet de hadde. Men pga eventuelt stort confidence interval (sorry, husker ikke hva det er på norsk) så er størrelsen på effekten i en større populasjon usikker. Sånn sett er det større risiko for feil enn i sample som bedre representerer den populasjonen man vil generalisere til. Det koker kanskje ned til en diskusjon om samplingen og det jeg påpekte om hvor like/forakjellige de to gruppene egentlig var før behandling? Og man bør replikere studien for å minske sannsynlighet for feil som eventuelt skyldes at man hadde et uvanlig og ikkerepresentativt sample til å begynne med. Men p-verdien burde i utgangspunktet gi noe trygghet her med mindre det er store flaws i designet av studien...

1 hour ago, AnonymBruker said:

forkludret av enormt med varianse i en retning

De prøver jo å unngå dette med random treatment assignment?

1 hour ago, AnonymBruker said:

Så det vi bør gjøre da er å sammenligne, hvor utenkelig er dette resultatet gitt at pillen er sukkerpille uten effekt.

Ja enig her. Det er en svakhet ved studien at de ikke sammenlignet med placebo (sukkerpille).

1 hour ago, AnonymBruker said:

vi kan bare si at resultatet er mer sannsynlig gitt mynt 2, ca 5x høyere. Så trolig er det mynt 2 men god sannsynlighet for at det er mynt 1 også

Ja enig i dette. De ser ut til å ha sammenlignet standard behandling i en gruppe med standard behandling pluss ekstra behandling i den andre gruppen. Hvis alle pasientene hadde vært identiske kloner før de ble randomisert så kunne man nok hatt et godt grunnlag for å spesifisere effekten. Men det var de jo ikke. Og resten av aktuell populasjon er jo også forskjellige, så da er usikkerheten mtp generalisering også sterkt til stede.

Gir det sånn litt mening, det jeg tenker med om her? I sum skjønner jeg litt hvor du vil hen og litt ikke, hehe.

Endret 14. september 2020 av streveren
Feil om type 2 feil

Logg inn

P-value misvisende? (Statistikk) Stemmer magefølelsen min ?

Anbefalte innlegg

AnonymBruker

Lenke til kommentar

Del på andre sider

streveren

Lenke til kommentar

Del på andre sider

AnonymBruker

Lenke til kommentar

Del på andre sider

AnonymBruker

Lenke til kommentar

Del på andre sider

AnonymBruker

Lenke til kommentar

Del på andre sider

streveren

Lenke til kommentar

Del på andre sider

Opprett en konto eller logg inn for å kommentere

Opprett konto

Logg inn

Meny

Mine aktivitetsstrømmer