Å forklare gruppeforskjeller
- 3. June 2023
- #statistics
I denne artikkelen skal vi se på ulike måter å forklare en forskjell mellom to grupper på. Dette er et sentral problem i statistikk, enten det er snakk om å sammenligne effekten av to typer medisin, veksten til planter gjødslet med to typer gjødsel, forurensningen til to motorer, eller noe helt annet. En av de mest kjente statistiske testene er Student’s t-test, som tester om det er signifikant forskjell mellom to grupper—alle som har grunnkurs i statistikk har lært (og glemt) dette.
Forskere er gode til å finne forskjeller mellom grupper, og de evner ofte å forklare hva forskjellene betyr. Men noen ganger lener de seg for hardt på statistisk metodikk og overfokuserer på statistisk signifikans heller enn praktisk signifikans. Denne forskningskulturen rundt statistikk er skissert i “The Cult of Statistical Significance” og “Science Fictions.”
Journalister er derimot gode til å forenkle problemstillinger og resultater, noe som er positivt. Desverre inkluderer de sjeldent figurer. De unnlater ofte å si noe om effektstørrelsen, signifikansnivået og ikke minst om forskjellen er relevant i det daglige. Dette vet alle som har lest en artikkel av typen “Skinke og bacon øker risikoen for kreft.”
I denne artikkelen skal vi leke journalister. Målet er å kommunisere en forskjell mellom to grupper på en ærlig og enkel måte. Vi skal undersøke flere innfallsvinkler, og konkluderer på slutten av artikkelen.
Datasett: grunnskolepoeng for gutter og jenter
Datasettet er hentet fra side 39 i NOU 2019:3, der en figur viser forskjellen mellom gutter og jenters grunnskolepoeng. Grunnskolepoeng er karaktersnittet i 10. klasse ganget med ti.
Dette er et interessant datasett fordi:
- Det er noe alle kan relatere til.
- Vi har observasjoner på detaljert nivå, ikke bare aggregerte data.
- Det har en viss politisk interesse.
Vi skal kun tolke dataene i seg selv i denne artikkelen. Les rapporten for mer informasjon om problemstillinger relatert til kjønnsforskjeller i skoleprestasjoner generelt.
Kommentar til figuren.
Jeg har aldri har sett en spline-regresjon brukt til å visualisere en fordeling før.
Det er et uvanlig valg av algoritme, og jeg kan ikke komme på noen god grunn til å bruke splines her.
Selv ville jeg enten visualisert dataene med et vanlig histogram, eller brukt et kernel density estimat til å vise en glatt fordeling:
Det er stort overlapp mellom gruppene, men samtidig er overlappet langt fra perfekt.
Måter å beskrive forskjellen på
Anta at vi er journalister og skal skrive en sak om forskjellen mellom jenter og gutters skoleprestasjoner. Første bud for ærlig kommunikasjon er å ta med en figur som viser fordelingen. Anta deretter at vi ønsker å skrive noen setninger for å hjelpe leseren med å få en intuisjon rundt figuren.
Her er noen setninger som vi kunne skrevet for å beskrive forskjellen på. Noen av disse er pedagogiske og forklarende, mens andre er dårlige.
Jenter presterer bedre på skolen enn gutter. Dette er ikke en god beskrivelse, fordi setningen ikke kvantifiserer ikke hvor stor forskjellen er. Én gruppe vil alltid prestere bedre (med mindre snittet er helt identisk).
Medianen for guttene er \(39.2\), mens medianen for jentene er \(44.4\). Dette er en god beskrivelse, og vi kan regne oss frem til at forskjellen er på \(5.2\) grunnskolepoeng. Vi vet alle at grunnskolepoeng går fra \(10\) til \(10\), så en forskjell på \(5.2\) er ikke triviell. Alternativt kunne vi brukt gjennomsnittene, som er \(44.1\) for jenter og \(39.6\) for gutter. Denne beskrivelsen sier ikke noe om overlappet mellom gruppene.
Det er signifikant forskjell mellom gruppene. La oss utføre en enkel, ikke-parametrisk hypotesetest. Anta at det ikke er noe forskjell mellom gruppene. Dette er vår nullhypotese \(H_0\). Da kan vi “glemme” hvem som er jenter og gutter, lage nye datasett med bootstrapping, og tildele merkelappen “jente” og “gutt” tilfeldig. Deretter regner vi ut forskjellen mellom gjennomsnittene til guttene og jentene i de simulerte datasettene, og ser på fordelingen av forskjellen. Gjør vi dette får vi en p-verdi som praktisk talt er lik null, og forkaster nullhypotesen om at det ikke er forskjell mellom gruppene. Testen gir samme svar som vår intuisjon; forskjellen skyldes ikke tilfeldig variasjon.
Men statistisk signifikans og praktisk betydning er ikke det samme, og mange vet ikke hva en hypotesetest er. Derfor synes jeg dette er en lite oppklarende og lite pedagogisk måte å forklare forskjellen på. Figuren nedenfor viser fordelingen av forskjellen i simulerte datasett. Den observerte forskjellen er \(44.1 - 39.6 = 4.5\), som er ekstremt stort i forhold til simulerte forskjeller under \(H_0\). En forskjell observert forskjell på \(0.2\) ville vært signifikant, men det er stor forskjell på \(0.2\) og \(4.5\).
Gjennomsnittsjenta har flere grunnskolepoeng enn \(72 \%\) av guttene. Denne beskrivelsen sier ikke noe om hva forskjellen er i absolutte tall, men gir en god intuisjon på hva forskjellen faktisk betyr. Beskrivelsen er illustrert i figuren nedenfor.
Vi kan alternativt snu formuleringen: gjennomsnittsgutten har flere grunnskolepoeng enn bare \(29 \%\) av jentene. Merk at disse formlene er ikke symmetriske, i den forstand at summen av prosentene ikke nødvendigvis blir \(100\).
Hvis en tilfeldig gutt og jente møtes, er det \(64.5 \%\) sannsynlig at jenta har flere grunnskolepoeng. Dette sier også noe om hva forskjellene betyr, uten å si noe om de absolutte tallene. Det er enkelt å se for seg at en gutt og en jente møtes på gata tilfeldig. I et tilfeldig møte er det \(64.5 \%\) sannsynlig at jenta har flest grunnskolepoeng, \(32.3 \%\) sannsynlig at gutten har flest og \(3.2 \%\) sannsynlig at de har like mange grunnskolepoeng. At én jente og én gutt møtes er et spesialtilfelle av at \(n\) jenter og \(n\) gutter møtes. Samler vi \(10\) jenter og \(10\) gutter i et rom, er sannsynligheten \(89.2 \%\) for at gjennomsnittet til jentene er høyere. Samler vi \(100\) av hvert kjønn er sannsynligheten praktisk talt likt \(100 \%\).
Blant de elevene som har \(50\) eller flere grunnskolepoeng, er \(70.5 \%\) jenter. Forskjellene er i halene, så det kan være relevant å beskrive forskjellen her. Her er det mulig å velge en cutoff basert på hvilket budskap man vil kommunisere. Vi kunne også ha sagt at “blant de elevene som har \(55\) eller flere grunnskolepoeng, er \(74.9 \%\) jenter.” På grunn av dette valget synes jeg at denne måten å forklare på ikke er ideell. Her er en figur som viser andelen jenter for alle mulige cutoffs.
Kjønn forklarer \(7.3 \%\) av variasjonen i dataene. Dette betyr at hvis man korrigerer for kjønn med en lineær modell, så blir variasjonen redusert med \(7.3 \%\). Ofte er variasjonen innad i gruppene større enn variasjonen mellom gruppene, og det er tilfellet også her. Med andre ord er det store forskjeller innad i hver gruppe, noe vi også ser i figuren.
Variasjon er noe de færreste har et forhold til, så dette er langt fra den beste forklaringen. Mange interessante aspekter av dataene fanges ikke opp her. Eksempelvis er det mulig å konstruere to ulike datasett som begge har egenskapen at hver eneste jente har høyere grunnskolepoeng enn alle guttene, der kjønn i ett av disse to datasettene forklarer \(10 \%\) av variasjonen, mens det forklarer \(100 \%\) i det andre datasettet.
Konklusjon
Dette er ikke en absolutt fasit, men hvis jeg fikk i oppgave å forklare dataene ville jeg vist en figur og skrevet følgende:
Gjennomsnittlig antall grunnskolepoeng er \(44.1\) for jenter og \(39.6\) for gutter. Forskjellen mellom gruppene er stor nok til at vi kan utelukke at den skyldes tilfeldigheter. Den gjennomsnittlige jenta presterer bedre enn \(72 \%\) av guttene. Hvis en tilfeldig gutt møter en tilfeldig jente, vil jenta i \(64 \%\) av tilfellene ha flere grunnskolepoeng enn gutten. Allikevel er forskjellene innad i gruppene større enn forskjellene mellom gruppene. Sagt på en annen måte: hvis du skal gjette antall grunnskolepoeng til en tilfeldig person, så vil du ikke være i stand til å gjette særlig mye bedre om du får vite kjønnet til personen.
Datasett
Datasettet er meg bekjent ikke publisert direkte, kun implisitt via figuren i NOU 2019:3. Å hente ut et brukbart datasett krevde en del arbeid. Jeg deler dataene her, så kan du selv undersøke datasettet om du ønsker.
grunnskolepoeng,antall_jenter,antall_gutter
10,10,14
11,14,21
12,10,10
13,14,21
14,10,10
15,14,21
16,10,35
17,28,35
18,24,35
19,35,59
20,24,59
21,45,94
22,45,125
23,59,174
24,90,243
25,104,289
26,150,383
27,163,463
28,233,567
29,289,706
30,268,623
31,358,845
32,438,974
33,501,1009
34,685,1183
35,543,1089
36,685,1068
37,786,1402
38,984,1461
39,1043,1600
40,870,1113
41,1158,1412
42,1301,1426
43,1273,1158
44,1471,1447
45,1287,1123
46,1228,1009
47,1565,1148
48,1485,1019
49,1590,974
50,1113,553
51,1311,647
52,1263,543
53,870,383
54,950,358
55,682,254
56,532,160
57,463,163
58,313,90
59,150,45
60,45,21