I det här inlägget ska jag gå igenom grundläggande kommandon för att jobba med tidsseriedata. Med det avses data där en och samma sak mäts om och om igen, över tid.
Man kan analysera sådan data genom att bara lägga in den som vanligt och använda helt vanliga kommandon. Men det går att göra mer. Med speciella tidsseriekommandon kan vi undersöka förändring, och hur olika tidpunkter förhåller sig till varandra.
Datan vi ska analysera är börskurser, närmare bestämt dagliga slutkurser för Dow Jones Index i USA, från april 2019 till april 2020. Datan kan laddas ned här. I koden nedan laddar vi in datan och tittar på de 10 första raderna:
use "../data/stocks.dta", clear
list in 1/10
tsset
¶När man jobbar med tidsserier behöver vi en variabel som visar tiden, det vill säga i vilken ordning observationerna kommer.
I datan finns det tre variabler: date, dowjones_close och dowjones_volume. Datumvariabeln är vår tidsvariabel. Den är formaterad enligt Statas princip för datumvariabler. Stata fattar alltså att 20:e april är en dag efter 19:e april och en vecka efter 13:e april, till exempel. Hur man ställer in variablerna på det sättet kommer jag gå igenom i ett annat inlägg.
Man måste dock inte ha en sådan variabel. Man kan också ha en variabel som bara anger ett nummer i en sekvens, alltså 1, 2, 3, och så vidare. Är datan mätt varje dag blir det såklart mest intuitivt att använda datumvariabeln som tidsvariabel.
Vi ska nu berätta för Stata vilken variabel som är vår tidsvariabel. Det gör vi med kommandot tsset
. Man skriver bara tsset
följt av variabeln som anger tiden, i vårt fall variabeln date.
tsset date
Stata beskriver att variabeln går från 29 april 2019 till 28 april 2020, fast att det är vissa hål. På helgerna har till exempel börserna stängt, och de finns därförinte med i datan.
Raden "delta" visar hur stort "ett steg" är: en dag. Vanligtvis behöver man inte ange det, men om vi till exempel bara skulle ha en observation per vecka hade vi kunnat skriva tsset date, delta(7)
för att visa att varje "steg" är en vecka. Men det behövs alltså inte här.
Nu kan vi rita upp datan i ett linjediagram, för att se hur den utvecklats över tid. Eftersom vi angett vad tidsvariabeln är kan vi använda kommandot tsline
. Vi skriver då bara tsline
och vilken variabel det är vi vill rita ut, till exempel stängningskursen för Dow Jones:
tsline dowjones_close
Coronapandemin i Mars 2020 gör ett tydligt avtryck! Resultatet blir exakt samma som om vi gjort det med det vanliga twowaykommandot, alltså twoway (line dowjones_close date)
men det här är lite snabbare.
Nu kommer vi till fördelarna med att ställa in tidsserien, nämligen inbyggda kommandon för att skapa olika variabler som har att göra med just tiden.
Först har vi de laggade variablerna. De visar vad en variabel hade för värde vid en tidigare tidpunkt. Hur förhåller sig till exempel Dow Jones-indexet till sig själv, en dag eller en vecka tidigare? Vi kan lätt ta reda på det genom att använda prefixet l.
framför en variabel. Skriver vi l.dowjones_close
avses värdet på Dow Jones en dag tidigare. Skriver vi l7.dowjones_close
får vi värdet sju dagar tidigare, och så vidare.
Vi kan till exempel ta fram en korrelationsmatris som visar hur dagens värde korrelerar med värdet för en vecka sedan, och för två veckor sedan:
corr dowjones_close l.dowjones_close l7.dowjones_close l14.dowjones_close
Korrelationen mellan dagens börskurs och gårdagens är alltså väldigt stark: 0.98. Sambandet med kursen en vecka sedan är något svagare, och med två veckor tidigare ännu svagare (vilket inte är konstigt, mer har ju hunnit förändras).
Vi kan också använda dessa kommandon när vi gör grafer. Vi förskjuter då linjen till höger. I grafen nedan visar den blåa linjen dagens värde, och den röda linjen vad börskursen var två veckor tidigare.
tsline dowjones_close l14.dowjones_close
Ledande variabler är precis samma som de laggade, fast för framtiden. De visar alltså vad värdet kommer vara längre fram. Prefixet vi använder för dem är f.
. f1.dowjones_close
visar vilket värde Dow Jones har dagen efter det aktuella datumet, och f14.dowjones_close
visar värdet två veckor senare.
corr dowjones_close f1.dowjones_close f14.dowjones_close
Delta står i de här sammanhangen för förändring. Med prefixed d.
får vi fram hur variabeln har förändrats sedan föregående tidsenhet - i det här fallet sedan dagen innan. Här får man dock tänka på att det är en dags förändring (eftersom vi ställde in att en dag är ett steg). Så måndagarna jämförs med söndagarna, då börsen är stängd, och inte fredagarna. Eftersom det inte finns något värde på söndag försvinner också måndagarna när vi kollar på förändring på det här sättet.
Nedan kollar vi på hur Dow Jones Index förändrats från dag till dag, över tid:
tsline d.dowjones_close
Det går upp och ned, med extrema svängningar under Coronapandemin.
Vi kan också lagga förändringsvariabler. Om vi till exempel skriver l.d.dowjones_close
får vi gårdagens förändring, alltså förändring mellan i förrgår och igår. I grafen nedan jämför vi förändringen från igår till idag (alltså i relation till det aktuella datumet) med förändringen från i förrgår till igår. Här har jag gjort en scatterplot med en utritad regressionslinje:
twoway (scatter d.dowjones_close l.d.dowjones_close) (lfit d.dowjones_close l.d.dowjones_close)
Sambandet är inte jättestarkt, men regressionslinjen lutar nedåt. Det betyder att dagar med stora ökningar (dvs långt till höger i grafen) tenderar att följas av dagar med minskningar. Alltså en återgång till medelvärdet. På samma sätt brukar stora minskningar i genomsnitt följas av ökningar.
Punkten längst upp till vänster är till exempel 13 mars 2020. Mellan 11 och 12 mars sjönk Dow Jones med över 2000 punkter. Men mellan 12 och 13 mars ökade det istället med 2000 punkter, och hämtade igen nedgången!
När man använder de här olika prefixen skapas tillfälliga variabler. De går att använda i analyserna, men syns inte i datamängden. Om man vill spara variablerna går det också bra. Då använder vi generate
-kommandot, och gör på samma sätt. Till exempel skapar vi i koden nedan variabler som visar värdet på Dow Jones dagen innan det aktuella datumet, samt förändringen från dagen innan.
gen l_dowjones_close = l.dowjones_close
gen d_dowjones_close = d.dowjones_close
De nya variablerna kan man kalla vad man vill. Personligen gillar jag att använda samma bokstäver som i Statas egna kommandon, fast med understreck istället för punkter. Om vi nu tittar på datan igen ser vi att de nya variablerna dykt upp:
list in 1/10
Vi ser också att det matchar: Den 30:e april är värdet på l_dowjones_close 26554.39, samma som värdet på dowjones_close dagen innan.
Det här var en mycket grundläggande introduktion till hur man ställer in datan för tidsserieanalys. Att analysera datan med regressionsanalyser och liknande kräver lite speciella hänsyn, som vi får gå igenom i ett annat inlägg.
Vi hade här också bara en tidsserie. Ofta har man data över tid, på flera enheter. Det kallas då paneldata. Det kräver i sin tur lite andra inställningar (men prefixen l.
, f.
och d.
funkar även där.