Sunday, 26 November 2017

Glidande medelvärde stata tidsserier


Flytta medelvärden Flytta medelvärden Med vanliga dataset är medelvärdet ofta det första och en av de mest användbara, sammanfattande statistiken för att beräkna. När data är i form av en tidsserie är seriemärket en användbar åtgärd, men återspeglar inte dataens dynamiska natur. Medelvärden beräknade över korta perioder, antingen före den aktuella perioden eller centrerad under den aktuella perioden, är ofta mer användbara. Eftersom sådana medelvärden varierar eller flyttas, då den aktuella perioden går från tid t 2, t 3. etc. är de kända som glidande medelvärden (Mas). Ett enkelt glidande medelvärde är (vanligtvis) det obegripade medlet av k tidigare värden. Ett exponentiellt vägt rörligt medelvärde är väsentligen detsamma som ett enkelt rörligt medelvärde, men med bidrag till medelvärdet viktat av deras närhet till den aktuella tiden. Eftersom det inte finns en, men en hel serie av rörliga medelvärden för en given serie, kan maset själva vara ritat på diagram, analyserade som en serie och används vid modellering och prognoser. En rad modeller kan konstrueras med hjälp av glidande medelvärden, och dessa är kända som MA-modeller. Om sådana modeller kombineras med autoregressiva (AR) modeller är de resulterande kompositmodellerna kända som ARMA - eller ARIMA-modeller (jag är för integrerad). Enkla glidande medelvärden Eftersom en tidsserie kan betraktas som en uppsättning värden, kan t 1,2,3,4, n genomsnittet av dessa värden beräknas. Om vi ​​antar att n är ganska stor, och vi väljer ett heltal k som är mycket mindre än n. vi kan beräkna en uppsättning blockmedelvärden eller enkla rörliga medelvärden (i ordning k): Varje mätning representerar genomsnittet av datavärdena över ett intervall av k-observationer. Observera att den första möjliga MA i ordningen k gt0 är den för t k. Mer generellt kan vi släppa det extra prenumerationen i ovanstående uttryck och skriva: Detta säger att det uppskattade medelvärdet vid tiden t är det enkla genomsnittet av det observerade värdet vid tiden t och de föregående k -1-stegen. Om vikter appliceras som minskar bidraget från observationer som är längre bort i tid, sägs det glidande medlet vara exponentiellt jämna. Flytta medelvärden används ofta som en form av prognoser, varvid det uppskattade värdet för en serie vid tiden t 1, S t1. tas som MA för perioden fram till och med tiden t. t. ex. Dagens uppskattning baseras på ett genomsnitt av tidigare inspelade värden fram till och med gårdagarna (för dagliga data). Enkla glidande medelvärden kan ses som en form av utjämning. I det nedan angivna exemplet har luftföroreningens dataset som visas i introduktionen till detta ämne ökat med en 7 dagars glidande medelvärde (MA) - linje, som visas här i rött. Såsom kan ses, släpper MA-linjen ut topparna och trågen i data och kan vara till stor hjälp när det gäller att identifiera trender. Standarden framåtberäkningsformeln innebär att de första k -1 datapunkterna inte har något MA-värde, men därefter sträcker sig beräkningarna ut till den slutliga datapunkten i serien. PM10 dagliga medelvärden, Greenwich källa: London Air Quality Network, londonair. org. uk En anledning till att beräkna enkla glidande medelvärden på det sätt som beskrivs är att det gör det möjligt att beräkna värden för alla tidsluckor från tid tk fram till idag, och När en ny mätning erhålls för tid t 1 kan MA för tid t 1 läggas till den redan beräknade uppsättningen. Detta ger ett enkelt förfarande för dynamiska dataset. Det finns emellertid vissa problem med detta tillvägagångssätt. Det är rimligt att hävda att medelvärdet under de senaste 3 perioderna ska vara placerat vid tiden t -1, inte tiden t. och för en MA över ett jämnt antal perioder kanske det borde ligga mitt i punkten mellan två tidsintervaller. En lösning på denna fråga är att använda centrerade MA-beräkningar, där MA vid tiden t är medelvärdet av en symmetrisk uppsättning värden runt t. Trots dess uppenbara meriter används inte detta tillvägagångssätt allmänt eftersom det krävs att data är tillgängliga för framtida händelser, vilket kanske inte är fallet. I fall där analysen helt och hållet består av en befintlig serie, kan användningen av centrerad Mas vara att föredra. Enkla glidande medelvärden kan betraktas som en form av utjämning, avlägsna några högfrekventa komponenter i en tidsserie och markera (men inte ta bort) trender på ett sätt som liknar den allmänna uppfattningen av digital filtrering. Faktum är att glidmedel är en form av linjärt filter. Det är möjligt att tillämpa en glidande medelberäkning till en serie som redan har slätts, dvs utjämning eller filtrering av en redan slätad serie. Till exempel med ett glidande medelvärde av ordning 2 kan vi betrakta det som beräknat med vikter, så MA vid x 2 0,5 x 1 0,5 x 2. På samma sätt kan MA vid x 3 0,5 x 2 0,5 x 3. Om vi Applicera en andra nivå av utjämning eller filtrering, vi har 0,5 x 2 0,5 x 3 0,5 (0,5 x 2 0,5 x 3) 0,25 x 1 0,5 x 2 0,25 x 3 dvs 2-stegs filtrering process (eller convolution) har producerat ett variabelt viktat symmetriskt rörligt medelvärde, med vikter. Flera omvälvningar kan producera ganska komplexa viktade glidmedel, av vilka vissa har visat sig vara särskilt användningsområden inom specialiserade områden, t. ex. i livförsäkringsberäkningar. Flyttande medelvärden kan användas för att avlägsna periodiska effekter om de beräknas med periodens längd som känd. Exempelvis kan säsongsvariationer ofta avlägsnas (om detta är målet) med hjälp av ett symmetriskt 12 månaders glidande medelvärde med alla månader viktade lika mycket, med undantag för det första och det sista som vägs med 12. Detta beror på att det kommer att var 13 månader i den symmetriska modellen (aktuell tid, t. - 6 månader). Totalen är dividerad med 12. Liknande procedurer kan antas för vilken väldefinierad periodicitet som helst. Exponentiellt vägda glidmedel (EWMA) Med den enkla glidande medelformeln: alla observationer är lika viktiga. Om vi ​​kallade dessa lika vikter, alfa t. var och en av k-vikterna skulle motsvara 1 k. så summan av vikterna skulle vara 1 och formeln skulle vara: Vi har redan sett att flera tillämpningar av denna process resulterar i vikterna varierande. Med exponentiellt vägda glidmedel är bidraget till medelvärdet från observationer som är mer borttagna i tiden minskat, vilket därmed understryker senare (lokala) händelser. I grunden introduceras en utjämningsparameter, 0lt al1, och formeln revideras till: En symmetrisk version av denna formel skulle vara av formen: Om vikterna i den symmetriska modellen väljas som villkoren för villkoren för binomial expansion, (1212) 2q. de kommer att summeras till 1, och när q blir stor kommer den att approximera normalfördelningen. Detta är en form av kärnviktning, med binomial som fungerar som kärnfunktionen. Den tvåstegsvalsning som beskrivs i föregående stycke är just detta arrangemang, med q 1, vilket ger vikterna. Vid exponentiell utjämning är det nödvändigt att använda en uppsättning vikter som summerar till 1 och som reducerar geometriskt i storlek. De använda vikterna är typiskt av formen: För att visa att dessa vikter uppgår till 1, överväga utvidgningen av 1 som en serie. Vi kan skriva och expandera uttrycket i parentes med binomialformeln (1- x) p. där x (1-) och p -1, vilket ger: Detta ger då en form av viktat glidande medelvärde av formuläret: Denna summering kan skrivas som en återkommande relation: vilket förenklar beräkningen kraftigt och undviker problemet att viktningsregimen bör strängt vara oändlig för vikterna sammanlagt till 1 (för små värden av alfa. detta är vanligtvis inte fallet). Notationen som används av olika författare varierar. Vissa använder bokstaven S för att indikera att formeln i huvudsak är en jämn variabel och skriv: medan kontrollteori litteraturen ofta använder Z snarare än S för exponentiellt viktade eller jämnda värden (se exempelvis Lucas och Saccucci, 1990, LUC1 , och NIST-webbplatsen för mer detaljer och fungerade exempel). De ovan angivna formlerna härstammar från Roberts arbete (1959, ROB1), men Hunter (1986, HUN1) använder ett uttryck av formen: vilket kan vara mer lämpligt för användning vid vissa kontrollförfaranden. Med alfa 1 är medelvärdet bara det uppmätta värdet (eller värdet av föregående dataobjekt). Med 0,5 är uppskattningen det enkla glidande medlet för nuvarande och tidigare mätningar. Vid prognosmodeller är värdet S t. används ofta som uppskattnings - eller prognosvärde för nästa tidsperiod, dvs som uppskattning för x vid tidpunkt t 1. Således har vi: Detta visar att prognosvärdet vid tid t 1 är en kombination av det tidigare exponentiellt viktade glidande medlet plus en komponent som representerar det vägda prediktionsfelet, epsilon. vid tiden t. Antag att en tidsserie ges och en prognos krävs, ett värde för alfa krävs. Detta kan beräknas från befintliga data genom att utvärdera summan av kvadrerade prediktionsfel erhållna med varierande värden av alfa för varje t 2,3. inställning av den första uppskattningen som det första observerade datavärdet, x 1. I kontrollapplikationer är värdet av alfa viktigt eftersom det används vid bestämning av de övre och nedre kontrollgränserna och påverkar den genomsnittliga körlängden (ARL) som förväntas innan dessa kontrollgränser bryts (under antagandet att tidsserierna representerar en uppsättning slumpmässiga, identiskt distribuerade oberoende variabler med gemensam varians). Under dessa omständigheter är variansen av kontrollstatistiken: (Lucas och Saccucci, 1990): Kontrollgränser fastställs vanligtvis som fasta multiplar av denna asymptotiska varians, t. ex. - 3 gånger standardavvikelsen. Om exempelvis alfa 0,25 och de data som övervakas antas ha en Normalfördelning, N (0,1), när den är i kontroll, kommer kontrollgränserna att vara - 1,134 och processen kommer att nå en eller annan gräns i 500 steg i genomsnitt. Lucas och Saccucci (1990 LUC1) härleda ARL för ett brett spektrum av alfa värden och under olika antaganden med användning av Markov Chain-förfaranden. De tabulerar resultaten, inklusive att tillhandahålla ARL, när medelvärdet av kontrollprocessen har skiftats med en del multipel av standardavvikelsen. Till exempel, med ett 0,5 skift med alfa 0,25 är ARL mindre än 50 tidssteg. Tillvägagångssätten som beskrivs ovan är kända som enda exponentiell utjämning. eftersom förfarandena appliceras en gång till tidsserierna och sedan utförs analyser eller kontrollprocesser på den resulterande utjämnade datasatsen. Om datasetet innehåller en trend och eller säsongsbetonade komponenter kan två - eller trestegs exponentiell utjämning användas för att avlägsna (explicit modellering) dessa effekter (se vidare avsnittet Prognoser nedan och NIST-exemplet). CHA1 Chatfield C (1975) Analysen av Times Series: Theory and Practice. Chapman och Hall, London HUN1 Hunter J S (1986) Det exponentiellt vägda glidande medlet. J av Quality Technology, 18, 203-210 LUC1 Lucas J M, Saccucci M S (1990) Exponentiellt viktade rörliga medelkontrollsystem: Egenskaper och förbättringar. Technometrics, 32 (1), 1-12 ROB1 Roberts S W (1959) Kontrolldiagramtester baserat på geometriska rörliga medelvärden. Technometrics, 1, 239-250Introduktion till ARIMA: nonseasonal modeller ARIMA (p, d, q) prognoser ekvation: ARIMA-modeller är i teorin den vanligaste klassen av modeller för prognoser för en tidsserie som kan göras för att vara 8220stationary8221 genom differentiering (om nödvändigt), kanske i samband med olinjära omvandlingar, såsom loggning eller deflatering (om nödvändigt). En slumpmässig variabel som är en tidsserie är stationär om dess statistiska egenskaper är konstanta över tiden. En stationär serie har ingen trend, dess variationer kring dess medelvärde har en konstant amplitud, och det vinklar på ett konsekvent sätt. d. v.s. dess kortsiktiga slumpmässiga tidsmönster ser alltid ut i statistisk mening. Det sistnämnda tillståndet betyder att dess autokorrelationer (korrelationer med sina egna tidigare avvikelser från medelvärdet) förblir konstanta över tiden, eller likvärdigt, att dess effektspektrum förblir konstant över tiden. En slumpmässig variabel i denna blankett kan ses som en kombination av signal och brus, och signalen (om en är uppenbar) kan vara ett mönster av snabb eller långsam mean reversion eller sinusformig oscillation eller snabb växling i tecken , och det kan också ha en säsongskomponent. En ARIMA-modell kan ses som en 8220filter8221 som försöker separera signalen från bruset, och signalen extrapoleras därefter i framtiden för att få prognoser. ARIMA-prognosekvationen för en stationär tidsserie är en linjär (d. v.s. regressionstyp) ekvation där prediktorerna består av lags av de beroende variabla andorlagren av prognosfel. Det vill säga: Förutsatt värdet på Y är en konstant och en viktad summa av ett eller flera nya värden av Y och eller en vägd summa av ett eller flera nya värden av felen. Om prediktorerna endast består av fördröjda värden på Y. Det är en ren autoregressiv (8220self-regressed8221) modell, som bara är ett speciellt fall av en regressionsmodell och som kan förses med standard regressionsprogram. Exempelvis är en första-order-autoregressiv (8220AR (1) 8221) modell för Y en enkel regressionsmodell där den oberoende variabeln bara Y är försenad med en period (LAG (Y, 1) i Statgraphics eller YLAG1 i RegressIt). Om en del av prediktorerna är felaktiga, är en ARIMA-modell inte en linjär regressionsmodell, eftersom det inte går att ange 8220last period8217s error8221 som en oberoende variabel: felen måste beräknas periodvis när modellen är monterad på data. Tekniskt sett är problemet med att använda fördröjda fel som prediktorer att modellen8217s förutsägelser inte är linjära funktioner för koefficienterna. även om de är linjära funktioner i tidigare data. Så koefficienter i ARIMA-modeller som innehåller försenade fel måste uppskattas genom olinjära optimeringsmetoder (8220hill-climbing8221) istället för att bara lösa ett system av ekvationer. Akronymet ARIMA står för Auto-Regressive Integrated Moving Average. Lags av den stationära serien i prognosen ekvationen kallas quotautoregressivequot termer, lags av prognosfel kallas quotmoving averagequot termer och en tidsserie som behöver differentieras för att göras stationär sägs vara en quotintegratedquot-version av en stationär serie. Slumpmässiga och slumpmässiga modeller, autoregressiva modeller och exponentiella utjämningsmodeller är alla speciella fall av ARIMA-modeller. En nonseasonal ARIMA-modell klassificeras som en quotARIMA (p, d, q) kvotmodell där: p är antalet autoregressiva termer, d är antalet icke-säsongsskillnader som behövs för stationaritet och q är antalet fördröjda prognosfel i prediksionsekvationen. Prognosekvationen är konstruerad enligt följande. Först, låt y beteckna d: s skillnad på Y. Det betyder: Observera att den andra skillnaden i Y (d2-fallet) inte är skillnaden från 2 perioder sedan. Det är snarare den första skillnaden-av-första skillnaden. vilken är den diskreta analogen av ett andra derivat, dvs den lokala accelerationen av serien i stället för dess lokala trend. När det gäller y. Den allmänna prognostiseringsekvationen är: Här definieras de rörliga genomsnittsparametrarna (9528217s) så att deras tecken är negativa i ekvationen, enligt konventionen införd av Box och Jenkins. Vissa författare och programvara (inklusive R-programmeringsspråket) definierar dem så att de har plustecken istället. När faktiska siffror är anslutna till ekvationen finns det ingen tvetydighet, men det är viktigt att veta vilken konvention din programvara använder när du läser utmatningen. Ofta anges parametrarna av AR (1), AR (2), 8230 och MA (1), MA (2), 8230 etc. För att identifiera lämplig ARIMA-modell för Y. börjar du med att bestämma sorteringsordningen (d) behöver stationera serierna och ta bort säsongens bruttoegenskaper, kanske i kombination med en variationsstabiliserande transformation, såsom loggning eller avflöde. Om du slutar vid denna tidpunkt och förutsäger att den olika serien är konstant, har du bara monterat en slumpmässig promenad eller slumpmässig trendmodell. Den stationära serien kan emellertid fortfarande ha autokorrelerade fel, vilket tyder på att vissa antal AR-termer (p 8805 1) och eller några nummer MA-termer (q 8805 1) också behövs i prognosekvationen. Processen att bestämma värdena p, d och q som är bäst för en given tidsserie kommer att diskuteras i senare avsnitt av anteckningarna (vars länkar finns längst upp på denna sida), men en förhandsvisning av några av de typerna av nonseasonal ARIMA-modeller som vanligtvis förekommer ges nedan. ARIMA (1,0,0) första ordningens autoregressiva modell: Om serien är stationär och autokorrelerad kanske den kan förutsägas som en multipel av sitt eget tidigare värde plus en konstant. Prognosekvationen i detta fall är 8230, som Y är regresserad i sig själv fördröjd med en period. Detta är en 8220ARIMA (1,0,0) constant8221 modell. Om medelvärdet av Y är noll, skulle den konstanta termen inte inkluderas. Om lutningskoefficienten 981 1 är positiv och mindre än 1 i storleksordningen (den måste vara mindre än 1 i storleksordningen om Y är stillastående), beskriver modellen medelåterkallande beteende där nästa period8217s värde bör förutses vara 981 1 gånger som långt ifrån medelvärdet som detta period8217s värde. Om 981 1 är negativ förutspår det medelåterkallande beteende med teckenväxling, dvs det förutspår också att Y kommer att ligga under den genomsnittliga nästa perioden om den är över medelvärdet denna period. I en andra-ordningsautoregressiv modell (ARIMA (2,0,0)) skulle det finnas en Y t-2 term till höger också, och så vidare. Beroende på tecken och storheter på koefficienterna kan en ARIMA (2,0,0) modell beskriva ett system vars medföljande reversering sker på ett sinusformigt oscillerande sätt, som en massans rörelse på en fjäder som utsätts för slumpmässiga stötar . ARIMA (0,1,0) slumpmässig promenad: Om serien Y inte är stillastående är den enklaste möjliga modellen för en slumpmässig promenadmodell, vilken kan betraktas som ett begränsande fall av en AR (1) - modell där den autogegrativa koefficienten är lika med 1, dvs en serie med oändligt långsam medelbackning. Förutsägningsekvationen för denna modell kan skrivas som: där den konstanta termen är den genomsnittliga period-till-period-förändringen (dvs. den långsiktiga driften) i Y. Denna modell kan monteras som en icke-avlyssningsregressionsmodell där första skillnaden i Y är den beroende variabeln. Eftersom den innehåller (endast) en nonseasonal skillnad och en konstant term, klassificeras den som en quotARIMA (0,1,0) modell med constant. quot. Den slumpmässiga walk-without-drift-modellen skulle vara en ARIMA (0,1, 0) modell utan konstant ARIMA (1,1,0) annorlunda första ordningens autoregressiva modell: Om fel i en slumpmässig promenadmodell är autokorrelerade kanske problemet kan lösas genom att lägga en lag av den beroende variabeln till prediktionsekvationen - - ie genom att regressera den första skillnaden av Y på sig själv fördröjd med en period. Detta skulle ge följande förutsägelsesekvation: som kan omordnas till Detta är en förstaordens autregressiv modell med en ordning av icke-säsongsskillnader och en konstant term, dvs. en ARIMA (1,1,0) modell. ARIMA (0,1,1) utan konstant enkel exponentiell utjämning: En annan strategi för korrigering av autokorrelerade fel i en slumpmässig promenadmodell föreslås av den enkla exponentiella utjämningsmodellen. Minns att för några icke-stationära tidsserier (t ex de som uppvisar bullriga fluktuationer kring ett långsamt varierande medelvärde), utförs slumpmässiga promenadmodellen inte lika bra som ett glidande medelvärde av tidigare värden. Med andra ord, istället för att ta den senaste observationen som prognosen för nästa observation, är det bättre att använda ett genomsnitt av de sista observationerna för att filtrera bort bullret och mer exakt uppskatta det lokala medelvärdet. Den enkla exponentiella utjämningsmodellen använder ett exponentiellt vägt glidande medelvärde av tidigare värden för att uppnå denna effekt. Förutsägningsekvationen för den enkla exponentiella utjämningsmodellen kan skrivas i ett antal matematiskt ekvivalenta former. varav den ena är den så kallade 8220error correction8221-formen, där den föregående prognosen justeras i riktning mot det fel som det gjorde: Eftersom e t-1 Y t-1 - 374 t-1 per definition kan detta omskrivas som : vilket är en ARIMA (0,1,1) - utan konstant prognosekvation med 952 1 1 - 945. Det innebär att du kan passa en enkel exponentiell utjämning genom att ange den som en ARIMA (0,1,1) modell utan konstant, och den uppskattade MA (1) - koefficienten motsvarar 1-minus-alfa i SES-formeln. Minns att i SES-modellen är den genomsnittliga åldern för data i prognoserna för 1-tiden framåt 1 945. Det betyder att de tenderar att ligga bakom trender eller vändpunkter med cirka 1 945 perioder. Det följer att den genomsnittliga åldern för data i de 1-prognos framåt av en ARIMA (0,1,1) utan konstant modell är 1 (1 - 952 1). Så, till exempel, om 952 1 0,8 är medelåldern 5. När 952 1 närmar sig 1 blir ARIMA (0,1,1) utan konstant modell ett mycket långsiktigt rörligt medelvärde och som 952 1 närmar sig 0 blir det en slumpmässig promenad utan driftmodell. What8217s det bästa sättet att korrigera för autokorrelation: Lägg till AR-termer eller lägga till MA-termer I de tidigare två modellerna som diskuterats ovan fixades problemet med autokorrelerade fel i en slumpmässig promenadmodell på två olika sätt: genom att lägga till ett fördröjt värde av de olika serierna till ekvationen eller lägga till ett fördröjt värde av prognosfelet. Vilket tillvägagångssätt är bäst En tumregel för denna situation, som kommer att diskuteras mer i detalj senare, är att positiv autokorrelation vanligtvis behandlas bäst genom att addera en AR-term till modellen och negativ autokorrelation behandlas vanligtvis bäst genom att lägga till en MA term. I affärs - och ekonomiska tidsserier uppstår negativ autokorrelation ofta som en artefakt av differentiering. (I allmänhet minskar differentieringen positiv autokorrelation och kan även orsaka en växling från positiv till negativ autokorrelation.) Således används ARIMA (0,1,1) - modellen, i vilken skillnad åtföljs av en MA-term, oftare än en ARIMA (1,1,0) modell. ARIMA (0,1,1) med konstant enkel exponentiell utjämning med tillväxt: Genom att implementera SES-modellen som en ARIMA-modell får du viss flexibilitet. För det första får den uppskattade MA (1) - koefficienten vara negativ. Detta motsvarar en utjämningsfaktor som är större än 1 i en SES-modell, vilket vanligtvis inte är tillåtet med SES-modellproceduren. För det andra har du möjlighet att inkludera en konstant term i ARIMA-modellen om du vill, för att uppskatta en genomsnittlig trendfri noll. ARIMA-modellen (0,1,1) med konstant har förutsägelsesekvationen: Prognoserna från den här modellen är kvalitativt likartade som i SES-modellen, förutom att banan för de långsiktiga prognoserna typiskt är en sluttande linje (vars lutning är lika med mu) snarare än en horisontell linje. ARIMA (0,2,1) eller (0,2,2) utan konstant linjär exponentiell utjämning: Linjära exponentiella utjämningsmodeller är ARIMA-modeller som använder två icke-säsongsskillnader i samband med MA-termer. Den andra skillnaden i en serie Y är inte bara skillnaden mellan Y och sig själv i två perioder, men det är snarare den första skillnaden i den första skillnaden, dvs. Y-förändringen i Y vid period t. Således är den andra skillnaden av Y vid period t lika med (Y t - Y t-1) - (Y t-1 - Y t-2) Y t - 2Y t-1 Y t-2. En andra skillnad av en diskret funktion är analog med ett andra derivat av en kontinuerlig funktion: det mäter kvotccelerationquot eller quotcurvaturequot i funktionen vid en given tidpunkt. ARIMA-modellen (0,2,2) utan konstant förutspår att den andra skillnaden i serien motsvarar en linjär funktion av de två sista prognosfel: som kan omordnas som: där 952 1 och 952 2 är MA (1) och MA (2) koefficienter. Detta är en generell linjär exponentiell utjämningsmodell. väsentligen samma som Holt8217s modell, och Brown8217s modell är ett speciellt fall. Den använder exponentiellt vägda glidande medelvärden för att uppskatta både en lokal nivå och en lokal trend i serien. De långsiktiga prognoserna från denna modell konvergerar till en rak linje vars lutning beror på den genomsnittliga trenden som observerats mot slutet av serien. ARIMA (1,1,2) utan konstant dämpad trend linjär exponentiell utjämning. Denna modell illustreras i de bifogade bilderna på ARIMA-modellerna. Den extrapolerar den lokala trenden i slutet av serien men plattar ut på längre prognoshorisonter för att presentera en konservatismskampanj, en övning som har empiriskt stöd. Se artikeln om varför Damped Trend worksquot av Gardner och McKenzie och artikeln "Rulequot Rulequot" av Armstrong et al. för detaljer. Det är vanligtvis lämpligt att hålla sig till modeller där minst en av p och q inte är större än 1, dvs försök inte passa en modell som ARIMA (2,1,2), eftersom det troligtvis kommer att leda till övermontering och quotcommon-factorquot-problem som diskuteras närmare i noterna om den matematiska strukturen för ARIMA-modeller. Implementering av kalkylark: ARIMA-modeller som de som beskrivs ovan är enkla att implementera på ett kalkylblad. Förutsägningsekvationen är helt enkelt en linjär ekvation som refererar till tidigare värden av ursprungliga tidsserier och tidigare värden av felen. Således kan du ställa in ett ARIMA-prognoskalkylblad genom att lagra data i kolumn A, prognosformeln i kolumn B och felen (data minus prognoser) i kolumn C. Förutsättningsformeln i en typisk cell i kolumn B skulle helt enkelt vara ett linjärt uttryck som hänvisar till värden i föregående rader av kolumnerna A och C multiplicerat med lämpliga AR - eller MA-koefficienter som lagras i celler på annat håll i kalkylbladet. Stata: Dataanalys och statistisk programvara Nicholas J. Cox, Durham University, Storbritannien Christopher Baum, Boston College egen, ma () och dess begränsningar Statarsquos mest uppenbara kommando för att beräkna glidande medelvärden är ma () funktionen av egen. Med tanke på ett uttryck skapar det ett periodiskt rörligt medelvärde av det uttrycket. Som standard tas det som 3. måste vara udda. Men som den manuella inmatningen indikerar kan egen, ma () kanske inte kombineras med varlist:. och av den anledningen är det inte tillämpligt på paneldata. I vilket fall som helst står den utanför uppsättningen kommandon som är specifikt skrivna för tidsserier, se tidsserier för detaljer. Alternativa metoder För att beräkna glidmedel för paneldata finns det minst två val. Båda är beroende av att datasetet tidigare har ställts in. Det här är väldigt mycket värt att göra: inte bara kan du spara dig själv upprepade gånger med att ange panelvariabel och tidsvariabel, men Stata beter sig smart med några luckor i data. 1. Skriv din egen definition med hjälp av generering Använda tidsserier som L. och F.. Ge definitionen av det rörliga genomsnittsvärdet som argumentet för ett genererat uttalande. Om du gör det här är du naturligtvis inte begränsad till lika viktiga (obevätade) centrerade glidmedelvärden beräknade av egen ma (). Till exempel skulle lika viktiga treårs glidande medelvärden ges av och vissa vikter kan enkelt specificeras: Du kan givetvis ange ett uttryck som logg (myvar) istället för ett variabelt namn som myvar. En stor fördel med detta tillvägagångssätt är att Stata automatiskt gör det rätta för paneldata: ledande och släpande värden utarbetas inom paneler, precis som logiken dikterar att de borde vara. Den mest anmärkningsvärda nackdelen är att kommandoraden kan bli ganska lång om det glidande medlet innefattar flera termer. Ett annat exempel är ett ensidigt rörligt medelvärde baserat endast på tidigare värden. Detta kan vara användbart för att generera en adaptiv förväntning av vilken variabel som kommer att baseras uteslutande på information till dags dato: Vad kan någon förutspå för den aktuella perioden baserat på de fyra senaste värdena, med hjälp av ett fast viktningsschema (en 4-tidsperiod kan vara särskilt vanligt förekommande med kvartalsvisa tidsserier.) 2. Använd eget filter () från SSC Använd det användarskrivna egenfunktionsfiltret () från egenmore-paketet på SSC. I Stata 7 (uppdaterad efter 14 november 2001) kan du installera det här paketet efter vilket hjälp egenmore pekar på detaljer på filteret (). De två ovanstående exemplen skulle göras (I denna jämförelse är genereringsmetoden kanske mer transparent, men vi kommer att se ett exempel på motsatsen i ett ögonblick.) Lags är en numlist. lederna är negativa lags: i det här fallet -11 expanderar till -1 0 1 eller led 1, lag 0, lag 1. Koef-ficienterna, en annan numlist, multiplicera motsvarande släpande eller ledande objekt: i detta fall är dessa föremål F1.myvar . myvar och L1.myvar. Effekten av normaliseringsalternativet är att skala varje koefficient med summan av koefficienterna så att koefficienten (1 1 1) normaliserar motsvarar koefficienterna 13 13 13 och koef (1 2 1) normaliserar motsvarar koefficienterna 14 12 14 Du måste ange inte bara lags men även koefficienterna. Eftersom egen, ma () ger det lika viktiga fallet är huvudmotivet för egen, filter () att stödja det ojämnt viktiga fallet, för vilket du måste ange koefficienter. Man kan också säga att förplikta användarna att ange koefficienter är ett litet extra tryck på dem för att tänka på vilka koefficienter de vill ha. Den huvudsakliga motiveringen för lika vikter är, vi antar, enkelhet, men lika vikter har äckliga frekvensdomänegenskaper, för att bara nämna ett övervägande. Det tredje exemplet ovan kan vara vilket är ungefär lika komplicerat som genereringsmetoden. Det finns fall där eget, filter () ger en enklare formulering än att generera. Om du vill ha ett nio-termins binomialfilter, som klimatologerna tycker är användbara, ser det kanske mindre hemskt ut än, och lättare att få rätt än, precis som med genereringsmetoden, fungerar egen, filter () korrekt med paneldata. Faktum är att det som sagt ovan beror på att datasetet tidigare har ställts in. En grafisk spets Efter att du har beräknat dina glidande medelvärden kommer du förmodligen att vilja se en graf. Det användarskrivna kommandot tsgraph är smart om tsset dataset. Installera det i en aktuell Stata 7 av ssc inst tsgraph. Vad sägs om delning med om ingen av ovanstående exempel använder sig av om begränsningar. Faktum är att egen, ma () inte tillåter om det ska anges. Ibland vill folk använda om man beräknar glidande medelvärden, men användningen är lite mer komplicerad än vad som vanligtvis är. Vad förväntar du dig av ett glidande medelvärde beräknat med if. Låt oss identifiera två möjligheter: Svag tolkning: Jag vill inte se några resultat för de uteslutna observationerna. Stark tolkning: Jag vill inte ens att du ska använda värdena för de uteslutna observationerna. Här är ett konkret exempel. Antag som en följd av vissa om villkor ingår observationer 1-42 men inte observationer 43 på. Men det rörliga genomsnittsvärdet för 42 beror bland annat på värdet för observation 43 om medelvärdet sträcker sig bakåt och framåt och är av längd åtminstone 3, och det kommer också att bero på några av observationerna 44 under vissa omständigheter. Vår gissning är att de flesta skulle gå för den svaga tolkningen, men om det är korrekt, kan inte filter () heller stödja om. Du kan alltid ignorera vad du donrsquot vill eller ens ställa in oönskade värden att missa efteråt med hjälp av ersätt. En anteckning om saknade resultat i slutet av serierna Eftersom rörliga medelvärden är funktioner av lags och leads, produceras egen, ma (), där lags och leads inte existerar, i början och slutet av serien. Ett alternativ nomiss tvingar beräkningen av kortare, ocenterade glidmedel för svansarna. Däremot genererar varken egen eller filter, (), eller tillåter, något speciellt för att undvika att missa resultat. Om något av värdena som behövs för beräkning saknas, saknas det resultatet. Det är upp till användarna att bestämma om och vilken korrigering som krävs för sådana observationer, förmodligen efter att ha tittat på datasetet och med tanke på vilken underliggande vetenskap som kan bäras.

No comments:

Post a Comment