Lønn og kjønn blant utviklere

Nettstedet kode24.no har avholdt en spørreundersøkelse “Kodeløkka 2021 - norske utvikleres lønn”. Jeg synes dette virket som et spennende datasett, så jeg sendte epost og spurte om jeg kunne få en kopi av (anonymiserte) data.

Ettersom kode24 hadde tenkt å skrive en sak om kvinner og lønn i anledning av kvinnedagen 8. mars, fikk jeg spørsmål om jeg ville rapportere tilbake hvis jeg fant noe interessant i dataene relatert til dette. Noen av mine funn ble kommunisert i artikkelen “Tjener kvinner mindre enn menn blant norske utviklere?”.

Jeg synes artikkelen ble god, men på grunn av plass be mine innspill kortet ned. Nedenfor er en analysen jeg sendte til kode24, ord for ord.


Analyse av kjønn og grunnlønn

Dette er en analyse av kjønn og grunnlønn, sett i sammenheng med arbeidserfaring, arbeidssituasjon og geografi. Datasettet er basert på kode24s spørreundersøkelse. Det er viktig å påpeke at verken leserne av kode24, eller de som velger å svare på en slik spørreundersøkelse, kan antas å være representative for utviklere i Norge som helhet. Det er relativt få svar, og det er ikke kontrollert om opplysningene er sanne. Alle tall må derfor tolkes med forsiktighet.

Ser man på lønn kan det være fornuftig å bruke median i stedet for gjennomsnitt, fordi enkelte har høy lønn som trekker gjennomsnittet opp. Medianen representerer den typiske personen – den ene halvparten har lavere lønn og den andre halvparten har høyere lønn. Ser vi på medianene har en typisk mann grunnlønn på \(700\, 000\) kr, mens en typisk kvinne har grunnlønn på \(650\, 000\) kr.

Disse tallene alene forteller ikke hele historien. Kvinnene som svarte har i snitt \(3\) år mindre arbeidserfaring enn mennene. For å korrigere for effekten av arbeidserfaring kan vi utføre en regresjonsanalyse, der vi antar at lønn øker lineært med arbeidserfaring. I virkeligheten stiger lønna mest i starten av karrieren, men å anta en konstant økning er godt nok for våre formål.

Figuren viser regresjonslinjer for både kvinner og menn, samt et utvalg av observasjonene i bakgrunnen for å gi et inntrykk av variasjonen mellom enkeltpersoner. Dersom vi kunne predikert lønnen til en person feilfritt med informasjon om arbeidserfaring og kjønn, ville vi sagt at modellen forklarer \(100 \, \%\) av variansen. Hadde lønn vært helt uavhengig av arbeidserfaring og kjønn, ville vi sagt at modellen forklarer \(0\, \%\) av variansen. Denne modellen forklarer \(27\, \%\) av variansen, som betyr at mesteparten av forskjellene i lønn ikke kan attribueres til arbeidserfaring og kjønn.

Det er også usikkerhet i parametrene i regresjonsmodellen, dette er visualisert med svak farge rundt linjene. Det er mer usikkerhet i sammenhengen mellom arbeidserfaring og lønn for kvinner enn for menn, fordi vi har færre besvarelser fra kvinner.

På samme måte som snittalderen i besvarelsene fra kvinner og menn er ulik, fordeler også kvinner og menn seg ulikt over arbeidssituasjoner. I besvarelsene er det relativt sett flere kvinnelige konsulenter, og færre kvinner som er frilansere / selvstendig næringsdrivende. Vi utvider regresjonsmodellen med faktorer for både kjønn og arbeidssituasjon, og undersøker hva modellen estimerer faktorene til.

Figuren ovenfor viser effekten av ulike faktorer på grunnlønn. For hver faktor vises medianen, et \(50\, \%\) intervall og et \(90\, \%\) intervall av modellens estimat. Vi kan eksempelvis se at modellen anslår at forskjellen mellom en typisk konsulent og en typisk in-house utvikler er ca. \(50\, 000\) kr i grunnlønn, korrigert for kjønn og arbeidserfaring. Det er få personer som er frilansere / selvstendig næringsdrivende, og dette gjenspeiles i usikkerheten i denne faktoren. Usikkerheten i faktorene representerer usikkerheten mellom typiske personer i gruppene, ikke variasjonen innad i gruppene. Denne modellen forklarer \(31\, \%\) av variansen, så mesteparten av forskjellene i lønn kan ikke attribueres til arbeidserfaring, kjønn og arbeidssituasjon.

Vi kan utvide med faktorer for fylker. Blant svarene i undersøkelsen er det flest kvinnelige utviklere i Oslo og Vestland, som er to fylker med høye lønninger. Effekten av kjønn blir nå mer markant, fordi modellen kan attribuere de høye lønningene til f.eks. kvinner i Oslo til fylket, heller enn det faktum at de er kvinner. Merk at effekten av kjønn er liten i forhold til både effekten av fylker og arbeidssituasjon.

Når det gjelder arbeidsområder hadde “frontend” høyest kvinneandel, og “frontend” har også noe lavere lønning. Effekten av kjønn endres derimot ikke om vi korrigerer for arbeidsområder. Dette gir mening, fordi det eksempelvis er relativt få kvinner som oppgir at de jobber med “automatisering”, som også er relativt lavt lønnet.

Fra undersøkelsen er \(44 \, \%\) av kvinnene og \(32 \, \%\) av mennene enige i påstanden “Jeg tror kjønn i seg selv spiller inn i hvor mye man tjener.” Denne analysen kan verken bekrefte eller avkrefte påstanden, av flere grunner: det er ikke gitt at besvarelsene er representative, det er ikke åpenbart hvilke variabler man bør korrigere for, og det er ikke sikkert at alle relevante variabler er innsamlet. Korrelasjon må heller ikke forveksles med kausalitet. Blant besvarelsene tjener utviklere i Oslo mest, men det er ikke gitt at de tjener mest fordi de bor i Oslo.

Tar vi median av tallene direkte kommer menn best ut, korrigerer vi for arbeidserfaring kommer kvinner litt bedre ut, legger vi til arbeidssituasjon er effekten av kjønn tilnærmet identisk, og om vi inkluderer fylke og arbeidsområder er effekten av kjønn noe større for menn. Vi kunne korrigert for privat og offentlig stilling, frekvens av jobbytter og annet. Det vi med sikkerhet kan si er at effekten av arbeidserfaring, arbeidssituasjon, fylke og arbeidsområder er større en kjønn, samt at forskjellene innad i gruppene er langt større en forskjellene mellom gruppene.

Modellering Regresjonsmodellen som ble brukt er \(\text{salary}_i \sim \text{double_exponential}(\mu_i, \sigma)\), med \(\mu_i = \text{intercept} + \text{slope} \cdot \text{years}_i + \text{arbeidssituasjon}_{j(i)} + \dots\). Hver effekt fikk en prior \(\text{normal}(0, 50000)\) og hver gruppe av effekter summerer til null. Modellen ble implementert i det probabilistiske programmeringsspråket Stan.


Vedlegg. I analysen ovenfor, som jeg sendte til kode24, tok jeg ikke med (1) privat/offentlig ansettelse og (2) udannelsesnivå. Dette var fordi disse spørsmålene ble lagt til i spørreskjemaet etter hvert, og derfor var det mindre informasjon om disse variablene. Det er allikevel en del informasjon i besvarelsene, så jeg inkluderer en figur nedenfor.

I oppfølgningsartikkelen “Selvlærte utviklere tjener mer enn de med bachelor” korrigeres det ikke for andre variabler. En mulig grunn for at selvlærte tjener mer enn de med bachelor når man tar et enkelt gjennomsnitt, kan være at de som gruppe har to år mer arbeidserfaring. Korrigerer man for dette, og andre variabler, kan det se ut som de med bachelor tjener mer, ikke mindre – men det er stor usikkerhet og vi kan ikke konkludere definitivt. Vi kan derimot konkludere med at de med master tjener mer som gruppe (se figuren).