En statistisk analys ska vara korrekt, men den ska också gå att förklara på ett pedagogiskt och bra sätt. Går det att använda en enkel metod är det, allt annat lika, att föredra.
En av de enklaste metoderna för att undersöka samband är så kallade korstabeller. Fördelen med dem är att de är relativt lätta att förstå och att de går snabbt att göra. Nackdelen är att det är krångligt (men inte omöjligt) att ta hänsyn till fler än två variabler. För det är regressionsanalys bättre. Men korstabeller kan vara bra för att ge en snabb överblick av ett samband.
För att ha något att jobba med kommer vi i det här exemplet att använda oss av QoG basic-datamängden. Här har jag skrivit in sökvägen till datamängden direkt på internet, men man kan givetvis ladda ned den till sin dator och öppna den därifrån istället - det är vanligtvis att rekommendera.
use "https://www.qogdata.pol.gu.se/data/qog_bas_cs_jan18.dta", clear
I det här exemplet ska vi titta närmare på sambandet mellan ett lands grad av demokrati och dess system för politisk representation, närmare bestämt om man har proportionell representation (PR) eller inte. PR innebär att man i valen fördelar mandat i förhållande till partiernas valresultat, som i Sverige. I den amerikanska kongressen har man inte PR, utan där väljer man ledamöter i enmansvalkretsar, där den som får flest röster i en valkrets väljs. Det kan bland annat få konsekvensen att ett parti som bara har något fler röster får en stor majoritet i parlamentet. En del forskning pekar också på att PR skulle vara mer gynnsamt för demokratin.
En korstabell kan inte säga något om orsak och verkan, men vi kan åtminstone se om det är så att länder som har PR också är mer demokratiska.
Som demokratiindikator använder vi oss av fh_status, som visar hur fritt ett land är, enligt den amerikanska organisationen Freedom House. För att mäta PR använder vi variabeln dpi_pr, från Database of Political Institutions.
Kommandot man använder är tab. Man skriver först kommandot, sedan variabeln man vill ha i rader, och sedan variabeln man vill ha i kolumnerna:
tab dpi_pr fh_status
Här ser vi nu antalet fall, uppdelat på kombinationen av de två variablerna. Vi ser att det är 17 länder som har en nolla på dpi_pr (de har alltså inte PR) och är samtidigt "Free" enligt Freedom House. 21 av länderna utan PR är "Partly free", och 22 "Not free".
Hela 54 länder har istället en etta på dpi_pr och är samtidigt "Free", medan bara 17 har PR och är "Not free".
Ute i kanterna ser vi totalsiffrorna. Där framgår dock att det är många fler länder som har PR än som inte har det, 101 jämfört med 60. Det försvårar jämförelser. Om vi vill säga att PR hänger ihop med mer demokrati räcker det inte att säga att antalet länder som har PR och är Free är större än antalet som inte har PR och är Free. På motsvarande sätt vore det konstigt att säga att kineser är rikare än svenskar bara för att det finns fler miljardärer i Kina - de är ju också många fler. Andelarna är mycket intressantare.
För att få fram andelarna behöver vi räkna procent, vilket vi kan göra på tre olika sätt. Som man kan se i tabellen ovan så finns det tre olika typer av totalsiffror:
Totalen för alla enheter i hela tabellen: 161.
Totalen för alla länder som har och inte har PR: 101 respektive 60.
Totalen för alla länder med olika grad av frihet: 71, 51 och 39.
Varje cells andel av samtliga, 161, är totalprocenten.
Varje cells andel av samtliga inom varje rad, 60 respektive 101, är radprocenten.
Varje cells andel av samtliga inom varje kolumn, 71, 51 och 39, är kolumnprocenten.
Det är viktigt att hålla kolla på vad det betyder att räkna procenten åt olika håll. Om vi i tabellen tar radprocenten får vi fram hur stor andel av PR-länderna som är fria, och hur stor andel av icke PR-länderna som är fria. Tar vi istället kolumnprocentne får vi fram hur stor del av de fria länderna som har PR, och hur stor andel av de ofria länderna som har PR, osv. Det är inte samma sak!
Min tumregel är att jag alltid lägger den oberoende variabeln - dvs det jag tänker mig påverkar - i raderna och sedan räknar jag alltid radprocent, men det gör man givetvis som man vill.
Procenten får man fram genom att lägga till ett option och sedan skriva row, col, eller total:
tab dpi_pr fh_status, row
Vi ser nu att radprocenten summerar till hundra ute till höger. De tre kategorierna Free, Partly free och Not free blir tillsammans hundra procent, i varje rad.
Det gör att vi kan jämföra de olika raderna med varandra. Vi ser nu att 28,33% av länder utan PR räknas som Free, medan hela 53.47% av länderna med PR räknas som fria. Det omvända förhållandet hittar vi om vi tittar på kategorin Not free. En mindre andel av PR-länderna är Not free.
Som sagt - detta säger ingenting om kausaliteten. Kanske är det så att fria länder är mer benägna att införa proportionell representation. För att ta reda på det behöver man andra typer av analyser. Men korstabellen gör det mer angeläget att gå vidare, nu när vi sett att det verkar finnas ett samband i alla fall.
Som jämförelse tar vi också fram kolumnprocenten:
tab dpi_pr fh_status, col
Tabellen summerar nu till hundra i varje kolumn. Antalet länder är givetvis detsamma, och procentsiffrorna belyser det, men man kan inte jämföra på samma sätt som vi gjorde ovan. I kolumnen Free ser vi nu att det är 76% i PR-raden, och bara 24% i icke PR-raden. Men det betyder inte att det är tre gånger så vanligt för länder att vara fria om de har PR. Det visar bara att det är många fler länder överlag som har PR. Vill man säga något om sannolikheten att vara fri, beroende på om man har PR eller inte, är det radprocenten vi ska ta fram.
Den här tabellen kan istället användas för att se om det är vanligare att ha PR bland länder med olika grader av demokrati. Och då kan vi se att PR är vanligast inom kategorin Free, och ovanligast i kategorin Not free.
Frågeställningen är naturligtvis snarlik, men inte identisk. Och för att inte gå vilse är det därför bäst att han en tydlig teoretisk idé om vad som påverkar vad. Den statistiska analysen kan inte bevisa det, men hjälper till att strukturera tänkandet och presentationen.
Även om korstabeller inte säger något om kausaliteten är de ofta bra för att introducera ett samband, innan man går vidare med mer avancerade analyser. Det är dock nästan alltid nödvändigt att räkna procent för att göra sambandet begripligt, och då är det viktigt att man räknar "åt rätt håll."
Korstabeller lämpar sig bara för variabler med ett begränsat antal värden, till exempel kategoriska variabler. Kontinuerliga skalor - till exempel ett lands BNP eller en persons ålder - ger tabeller med hundratals celler, vilket blir helt oöverblickbart. Då är det bättre att visa det hela grafiskt, eller att räkna fram medelvärden i olika grupper.