Här är en ordlista med kortfattade förklaringar av vanliga begrepp inom statistisk analys.
ORDLISTA | |
---|---|
GENERELLA BEGREPP | |
Analysenhet | De enheter som vi jämför. Till exempel länder, individer, år, aktier, kommuner, osv. |
Variabel | Egenskap hos analysenheterna som varierar. Till exempel längd, ålder eller partillhörighet hos individer, eller befolkning, grad av demokrati eller klimat hos länder. |
Variabelvärde | Det faktiska värde en analysenhet har på en variabel. |
Kausalitet | Orsaksförhållande. I ett kausalt samband förväntas den ena variabeln ha påverkat den andra. |
Centralmått | Ett värde som sammanfattar tendensen i ett datamaterial. |
Fördelning | Hur värdena fördelar sig över alla möjliga värden. Kan se ut på alla möjliga sätt. |
Normalfördelning | En specifik fördelning, där de flesta värdena återfinns i mitten, och förre ute i kanterna. |
Spridning | Hur värdena är fördelade kring centralmåttet. |
Korrelation | Grad av samvariation mellan två variabler. |
Kovarians | Grad av samvariation mellan två variabler, fast uttryckt i den skala som variablerna är mätta i, dvs svårare att jämföra än korrelation. |
URVAL OCH INFERENS | |
Population | Den grupp vi vill dra slutsatser om, till exempel väljare i Sverige. |
Urval | Den del av populationen (som kan väljas ut på olika sätt) som vi faktiskt studerar. Engelska: sample. |
Slumpmässigt urval | När vi slumpmässigt drar enheter ur populationen till urvalet. Generellt sett det urvalssätt som ger bäst möjligheter till generalisering. |
Kvoturval | När vi sätter ihop urvalet för att fylla vissa kvoter, som matchar populationen. |
Självselekterat urval | När analysenheterna själva får anmäla sig till urvalet. Ger mycket dåliga möjligheter att generalisera till populationen, eftersom de som anmäler sig ofta inte är representativa. |
Inferens | Att generalisera slutsatser om urvalet till populationen som helhet. |
Centrala gränsvärdessatsen | Teori som säger att när vi tar många urval ur en population kommer medelvärdet i urvalen bilda en normalfördelning centrerat på det sanna medelvärdet i populationen. Ligger till grund för signifikansberäkningar. Engelska: Central limit theorem. |
Konfidensintervall | Intervall av värden som uttrycker graden av osäkerhet. Till exempel kring vad det sanna medelvärdet är i en population, eller vad det sanna sambandet mellan två variabler är. |
VARIABELTYPER (SKALNIVÅ) | |
Nominalskala | Kategorisering utan rangording. Variabeln "frukt" kan ha värdena "apelsin," "päron" eller "äpple" men de kan inte rangordnas. |
Ordinalskala | Kategorisering med rangordning, men utan ekvidistans (dvs det är olika avstånd mellan de olika skalstegen). Till exempel kan variabeln "Inställning till förslag" ha värdena "Mycket bra," "Ganska bra," "Varken bra eller dåligt," "Ganska dåligt" eller "Mycket dåligt." Mycket bra är bättre än ganska bra, och ganska bra är bättre än varken bra eller dåligt, men vi vet inte att hoppen däremellan är lika stora. |
Intervallskala | Kategorisering med rangordning och ekvidistans. Till exempel längd i centimeter. Varje steg uppåt på skalan är lika långt. |
CENTRALMÅTT | |
Typvärde | Det enskilt vanligaste värdet. Lämpligt för nominalskalor. |
Median | Det värde man får om man arrangerar alla värden i storleksordning, och tar det som är på mitten (eller mittemellan de två som är i mitten). Lämpligt för ordinalskalor, men går även att använda på intervallskalor. |
Medelvärde | Det värde man får om man summerar alla enskilda värden och dividerar med antalet enheter. Kan bara användas på intervallskalor. Formel: $\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i$ |
SPRIDNINGSMÅTT | |
Varians | Ett mått på avvikelsen från medelvärdet, som används i många andra beräkningar. Formel: $V = \frac{\sum_{i=1}^n (x_i - \bar{x})^2)}{n-1}$ Formeln betyder att man tar varje enskild observations avvikelse från medelvärdet, kvadrerar den, och sedan summerar man alla de kvadrerade avvikelserna, delar med n-1, och tar sedan roten ur detta. |
Standardavvikelse | Ett mått på den typiska avvikelsen från medelvärdet. Beräknas som roten av variansen. Formel: $s = \sqrt{V}$ |
VARIABELSPRÅKET | |
Beroende variabel | Den variabel vi vill förklara. Kallas ibland utfallsvariabel, eller på engelska dependent variable eller outcome variable. |
Oberoende variabel | Den variabel vi tror förklarar den beroende variabeln. Kallas ibland prediktor, eller på engelska independent varaible, determinant eller predictor. |
Kontrollvariabel | Ytterligare variabel som förs in i analysen, oftast för att utesluta spuriositet. |
Bakomliggande variabel | Variabel som kommer före den oberoende variabeln i den tänkta orsakskedjan. Kan ofta vara bra att kontrollera för. |
Mellanliggande variabel | Variabel som kommer mellan den oberoende variabeln och den beroende variabeln i den tänkta orsakskedjan. Ska inte kontrolleras för om man vill utesluta spuriositet. |
Interaktionsvariabel | Variabel som styr vilken effekt den oberoende variabeln har. Kallas ibland för modererande variabel. |
Dummyvariabel | Variabel som visar om en analysenhet har en egenskap (1), eller inte (0). |
TYPER AV SAMBAND | |
Nollsamband | Brist på korrelation mellan två variabler. |
Positivt samband | Samband där mer av den ena variabeln hänger ihop med mer av den andra, och där mindre av den ena variabeln hänger ihop med mindre av den andra. |
Negativt samband | Samband där mer av den ena variabeln hänger ihop med mindre av den andra, och där mindre av den ena variabeln hänger ihop med mer av den andra. |
Kausalt samband | Samband där den oberoende variabeln orsakar den beroende. |
Spuriöst samband | Samband mellan två variabler som orsakats av att en tredje variabel orsakat både oberoende och beroende. |
Undertryckt samband | Egentligen existerande samband mellan två variabler, som döljs av att en tredje variabel hänger ihop med mindre värden på den ena variabeln och högre på den andra, eller tvärtom. |
Ickelinjärt samband | Samband som förändras beroende på variabelns värde. Till exempel sambandet mellan ålder och valdeltagande. Sannolikheten att rösta ökar när man blir äldre, men bara till en viss gräns: riktigt gamla röstar i mindre utsträckning än de i medelåldern. |
ANALYSTEKNIKER | |
Univariat analys | Analys av en variabel. Till exempel beräkning av medelvärde. |
Bivariat analys | Analys av samband mellan två variabler. |
Korrelationsanalys | Analys som visar sambandets riktning och styrka mellan två variabler. Det finns många olika korrelationsmått, men det vanligaste är Pearson's R. |
Regressionsanalys | Analys där linje passas till en mängd punkter. Ger uppgifter om linjens lutning, sambandets styrka, osäkerhet i skattningen av linjen, m.m. |
Multipel regressionsanalys | Regressionsanalys med fler än en oberoende variabel. |
Logistisk regressionsanalys | Typ av regressionsanalys anpassat för fall där den beroende variabeln bara har värdet 0 eller 1. |
Faktoranalys | Analys där man försöker hitta gemensamma nämnare mellan olika variabler. Dvs reducera datan för att se om det finns någon latent variabel, som vi inte observerat, som kan förklara variationen i flera variabler. |
DESIGNTYPER | |
Experimentell design | När vi har kontroll över den oberoende variabeln, och slumpar analysenheter in i experimentgrupp (som utsätts för en behandling) och kontrollgrupp (som inte utsätts för behandling eller utsätts för en annan behandling). Ger goda möjligheter att uttala sig om kausalitet. |
Pseudoexperimentell design | När vi utnyttjar naturlig variation för att hitta specialfall där det blivit ungefär som slumpmässig tilldelning till någon "behandling." |
Regression discontinuity design | När det finns någon skarp gräns som styr tilldelning till någon specifik variabel, och vi antar att analysenheter precis ovan och under gränsen är ungefär lika, och att slumpen avgör vilka som hamnar ovan och under. |
Matchning | När analysenheter matchas ihop med sina "statistiska tvillingar," dvs enheter som har samma värden på alla relevanta variabler förutom den oberoende. |
Tvärsnittsdesign | När vi jämför många analysenheter vid ett tillfälle. Engelska: Crosssectional analysis. |
Longitudinell design | När vi jämför analysenheter med sig själva över tid. |
Paneldesign | När vi jämför många enheter med varandra, och över tid. Kallas också Time Series-Cross Section. |
BEGREPP INOM REGRESSIONSANALYS | |
Regressionslinje | Den linje som passar bäst till punktmängden. |
b-koefficient | Lutning på regressionslinjen. Hur mycket den beroende variabeln förväntas öka när den oberoende variabeln ökar med ett steg. |
Konstant/intercept | Det förväntade värdet på den beroende variabeln när alla oberoende variabler i analysen har värdet 0. |
$R^2$ | Ett mått på hur mycket av variationen i den beroende variabeln som kan förklaras av de oberoende variablerna. Går mellan 0 och 1. 0.5 kan tolkas som "50% av variationen i den beroende variabeln förklaras av de oberoende variablerna." |
Standardfel | Ett mått på osäkerheten i skattningen av b-koefficienten. Engelska: Standard error. |
t-värde | B-koefficienten delat med standardfelet. Används för att beräkna signifikansvärdet. |
p-värde | Signifikansvärdet. Visar hur osannolikt det är att man skulle få en b-koefficient som är minst så stor, givet att nollhypotesen stämmer. Är egentligen bara intressant när man analyserar ett urval, eller har en slumpmässig tilldelning i ett experiment. Men trots detta används det ofta som beslutsregel för att avgöra när samband är starka nog att tolkas. Den vanliga beslutsregeln är att p-värden under 0.05 räknas som signifikanta. Räknas fram genom att jämföra t-värdet med en t-fördelning, som beror på hur många analysenheter man har med i analysen. |
n-tal | Hur många analysenheter som ingick i analysen. |
Ostandardiserad regressionskoefficient | Den vanliga b-koefficienten, som då är uttryckt i den beroende variabelns enhet. Om tex beroende variabel är BNP per capita visar koefficienten hur mycket BNP per capita förväntas öka om den oberoende variabeln ökar med ett skalsteg. |
Standardiserad regressionskoefficient | b-koefficienten, fast standardiserad så att variansen i både oberoende och beroende variabel är 1. Möjliggör jämförelse mellan koefficienter mätta med olika skalor, vilket annars är svårt. |
DIAGRAM | |
Histogram | Visar fördelningen av en variabel. Heter samma på engelska. |
Spridningsdiagram | Visar sambandet mellan två variabler genom att rita ut analysenheterna som punkter utifrån två axlar. Engelska: Scatterplot. |