Wednesday 8 November 2017

Moving Gjennomsnittet Vindu Matlab


En enkel (ad hoc) måte er å bare ta et veid gjennomsnitt (tunbart av alfa) på hvert punkt med sine naboer: eller en viss variasjon derav. Ja, for å være mer sofistikert kan du Fourier omforme dataene dine først, og deretter kutte av de høye frekvensene. Noe som: Dette kutter ut de høyeste 20 frekvensene. Vær forsiktig med å kutte dem ut symmetrisk, ellers er den omvendte transformasjonen ikke lenger ekte. Du må nøye velge cutoff frekvensen for riktig nivå av utjevning. Dette er en veldig enkel type filtrering (boksfiltrering i frekvensdomene), slik at du kan forsøke forsiktig å dempe høyfrekvensfrekvenser dersom forvrengningen ikke er akseptabel. Besvart 4. oktober 09 klokka 9:16 FFT er ikke en dårlig ide, men det er nok overkill her. Løpende eller bevegelige gjennomsnitt gir generelt dårlige resultater og bør unngås for alt annet enn sent lekser (og hvit støy). Id bruker Savitzky-Golay filtrering (i Matlab sgolayfilt (.)). Dette gir deg de beste resultatene for det du leter etter - litt lokal utjevning mens du holder kurvens form. Denne opplæringen diskuterer hvordan du bruker MATLAB til bildebehandling. Noen kjennskap til MATLAB antas (du bør vite hvordan du bruker matriser og skrive en M-fil). Det er nyttig å ha MATLAB Image Processing Toolbox, men heldigvis behøver ingen verktøykasser for de fleste operasjoner. Kommandoer som krever Image Toolbox er angitt med Image Toolbox. Bilderepresentasjon Det finnes fem typer bilder i MATLAB. Gråtoner. Et gråtonebilde M piksler høy og N piksler bredt er representert som en matrise av dobbel datatype av størrelse M N. Elementverdier (for eksempel MyImage (m, n)) angir pixelgråskalaintensiteter i 0,1 med 0 svart og 1 hvitt. Truecolor RGB. Et truecolor rød-grønt-blå (RGB) bilde er representert som en tredimensjonal M N 3 dobbeltmatrise. Hver piksel har røde, grønne, blå komponenter langs den tredje dimensjonen med verdier i 0,1, for eksempel er fargekomponentene i piksel (m, n) MyImage (m, n, 1) rød, MyImage (m, n, 2) grønn, MyImage (m, n, 3) blue. Indexed. Indekserte (palettede) bilder er representert med en indeksmatrise av størrelse M N og en kolormapmatrise av størrelse K 3. Colormapet inneholder alle fargene som brukes i bildet, og indeksmatrisen representerer pikslene ved å referere til farger i colormap. For eksempel, hvis den 22. fargen er magenta MyColormap (22, :) 1,0,1. så er MyImage (m, n) 22 en magenta-farget pixel. Binary. Et binært bilde representeres av en M N logisk matrise hvor pikselverdier er 1 (sant) eller 0 (falsk).uint8. Denne typen bruker mindre minne, og noen operasjoner beregner raskere enn med dobbelte typer. For enkelhets skyld diskuterer ikke denne opplæringen uint8 videre. Gråskala er vanligvis det foretrukne formatet for bildebehandling. I tilfeller som krever farge, kan et RGB-fargebilde dekomponeres og håndteres som tre separate gråtonebilder. Indekserte bilder må konverteres til gråtoner eller RGB for de fleste operasjoner. Nedenfor er noen vanlige manipulasjoner og konverteringer. Noen få kommandoer krever Image Toolbox og er angitt med Image Toolbox. Lese og skrive bildefiler MATLAB kan lese og skrive bilder med kommandoerene imread og imwrite. Selv om et rettferdig antall filformater støttes, er noen ikke. Bruk imformater for å se hva installasjonen din støtter: Når du leser bilder, er et uheldig problem at imaterialet returnerer bildedataene i uint8 datatype, som må konverteres til dobbel og rescaled før bruk. Så i stedet for å kalle imread direkte, bruker jeg følgende M-fil-funksjon for å lese og konvertere bilder: Høyreklikk og lagre getimage. m for å bruke denne M-funksjonen. Hvis bildet baboon. png er i den nåværende katalogen (eller et sted i MATLAB søkeveien), kan du lese det med MyImage getimage (baboon. png). Du kan også bruke delvise baner, for eksempel hvis bildet er i lt nåværende katalog gtimages med getimage (imagesbaboon. png). Hvis du vil skrive et gråskala eller RGB-bilde, må du passe på at MyImage er en dobbel matrise med elementer i 0,1if feil skalert, den lagrede filen vil trolig være tom. Når jeg skriver bildefiler, anbefaler jeg at du bruker PNG-filformatet. Dette formatet er et pålitelig valg fordi det er lossless, støtter truecolor RGB, og komprimerer ganske bra. Bruk andre formater med forsiktighet. Grunnleggende operasjoner Nedenfor er noen grunnleggende operasjoner på et gråtonebilde u. Kommandoer som krever Image Toolbox er angitt med Image Toolbox. (Merk: For en rekkefølge betyr syntaksen u (:) at du ruller inn i en kolonnevektor. For eksempel hvis du er 1,50,2, så er du (:) 1052.) For eksempel brukes bildesignalstyrken i Beregning av signal / støyforhold (SNR) og toppsignal / støyforhold (PSNR). Gitt rent bilde uclean og støyreduktet bilde du, Vær forsiktig med normen. Oppførselen er norm (v) på vektor v beregner sqrt (sum (v.2)). men norm (A) på matrise A beregner den induserte L 2 matrisen normen, så normen (A) er absolutt ikke sqrt (sum (A (:). 2)). Det er likevel en lett feil å bruke norm (A) der den skulle ha vært norm (A (:)). Lineære filtre Linjær filtrering er hjørnesteinsteknikken for signalbehandling. For kort introduksjon er et lineært filter en operasjon hvor ved hver piksel x m, n av et bilde, blir en lineær funksjon evaluert på piksel og naboene for å beregne en ny pikselverdi y m, n. Et lineært filter i to dimensjoner har den generelle formen hvor x er inngangen, y er utgangen, og h er filterimpulsresponsen. Ulike valg av h fører til filtre som glatter, skjerper og oppdager kanter, for å nevne noen få applikasjoner. Høyre side av ligningen ovenfor er betegnet konsistent som h x og kalles konvolusjonen av h og x. Spatial-domain-filtrering To-dimensjonell lineær filtrering er implementert i MATLAB med conv2. Dessverre kan conv2 bare håndtere filtrering nær bildegrenser ved nullpoling, noe som betyr at filtreringsresultater vanligvis ikke er upassende for piksler nær grensen. For å omgå dette kan vi legge inn bilde og bruke det gyldige alternativet når du ringer conv2. Følgende M-funksjon gjør dette. Høyreklikk og lagre conv2padded. m for å bruke denne M-funksjonen. Her er noen eksempler: Et 2D filter h sies å være separerbart hvis det kan uttrykkes som ytterproduktet av to 1D-filtre h1 og h2. det er, h h1 (:) h2 (:). Det er raskere å passere h1 og h2 enn h. som det er gjort over for det glidende gjennomsnittsvinduet og det gaussiske filteret. Faktisk er Sobel filtre hx og han også separablewhat er h1 og h2 Fourier-domene filtrering. Spatial-domene filtrering med conv2 er lett en kostnadseffektiv drift. For et K K filter på et M N bilde koster conv2 O (MNK 2) tillegg og multiplikasjoner, eller O (N 4) antar M N K. For store filtre er filtrering i Fourier-domenet raskere siden beregningskostnaden reduseres til O (N 2 log N). Ved bruk av convolution-multiplikasjonsegenskapen til Fourier-transformasjonen beregnes konvolusjonen tilsvarende. Resultatet er ekvivalent med conv2padded (x, h) unntatt nær grensen, hvor den ovennevnte beregningen benytter periodisk grenseutvidelse. Fourier-basert filtrering kan også gjøres med symmetrisk grenseforlengelse ved å reflektere inngangen i hver retning: (Merk: En enda mer effektiv metode er FFT overlap-add filtrering. Signal Processing Toolbox implementerer FFT overlap-add i en dimensjon i fftfilt .) Ikke-lineære filtre Et ikke-lineært filter er en operasjon der hver filtrert piksel ym, n er en ikke-lineær funksjon av xm, n og naboene. Her diskuteres kort noen få typer av ikke-lineære filtre. Ordne statistikkfiltre Hvis du har Image Toolbox, kan ordningsstatistikkfiltre utføres med ordfilt2 og medfilt2. Et ordningsstatistikkfilter sorterer pikselverdiene over et nabolag og velger den største verdi. Min-, max - og medianfiltrene er spesielle tilfeller. Morfologiske filtre Hvis du har Image Toolbox, implementerer bwmorph ulike morfologiske operasjoner på binære bilder, som erosjon, utvidelse, åpning, lukking og skjelett. Det er også kommandoer tilgjengelig for morfologi på gråtonebilder: imerode. imdilat og imtophat. blant andre. Bygg ditt eget filter Av og til vil vi bruke et nytt filter som MATLAB ikke har. Koden nedenfor er en mal for å implementere filtre. (Merk: En hyppig feilaktig påstand er at sløyfer i MATLAB er treg og bør unngås. Dette var engang sant, tilbake i MATLAB 5 og tidligere, men sløyfer i moderne versjoner er rimelig raske.) For eksempel er det alfa-trimmet gjennomsnittet filter ignorerer d 2 laveste og d 2 høyeste verdier i vinduet, og gjennomsnittlig gjenværende (2 r 1) 2 d-verdier. Filteret er en balanse mellom et medianfilter og et middelfilter. Det alfa-trimmet gjennomsnittet filteret kan implementeres i malen. Som et annet eksempel er det bilaterale filteret isGEOS 585A, Applied Time Series Analysis Telefon: (520) 621-3457 Faks: (520) 621-8229 Kontortid Fredag ​​1:00 -6: 00 PM (vennligst send epost til planlagt møte) Kursbeskrivelse Analyseverktøy i tids - og frekvensdomenene blir introdusert i sammenheng med prøve tidsserier. Jeg bruker et datasett av prøve tidsserier for å illustrere metoder, og endre datasett hvert semester kurset tilbys. I år kommer prøvedatabasen fra et NSF-prosjekt på snøscootervariabilitet i American River Basin of California. Dette datasettet inneholder trekringschronologier, klimaindekser, strømningsrekord og tidsserier av snøvannekvivalenter målt på snøbanestasjoner. Du vil sette sammen dine egne tidsserier for bruk i kurset. Disse kan være fra ditt eget forskningsprosjekt. Tilbake til toppen av siden Dette er et innledende kurs, med vekt på praktiske aspekter av tidsserieanalyse. Metoder er hierarkisk introdusert - starter med terminologi og utforskende grafikk, flyttes til beskrivende statistikk, og slutter med grunnleggende modelleringsprosedyrer. Emner inkluderer detrending, filtrering, autoregressiv modellering, spektralanalyse og regresjon. Du bruker de første to ukene til å installere Matlab på din bærbare datamaskin, få en grunnleggende introduksjon til Matlab, og sette sammen datasett av tidsserier for kurset. Tolv emner, eller leksjoner er da dekket, hver tildelt en uke eller to klasseperioder. Tolv klasseoppgaver går sammen med emnene. Oppgaver består av å anvende metoder ved å kjøre forhåndskrevne Matlab-skript (programmer) på tidsseriene og tolke resultatene. Kurset er 3 studiepoeng for studenter på campus ved University of Arizona i Tucson, og 1 studiepoeng for nettstudenter. Eventuelle tidsserier med konstant tidsforhøyelse (f. eks. Dag, måned, år) er en kandidat til bruk i kurset. Eksempler er daglige nedbørsmålinger, sesongmessig total strømning, sommermiddelluftemperatur, årlige indekser av trevekst, indekser for sjøoverflatetemperatur og daglig høydeøkning av en busk. Som et resultat av å ta kurset, bør du: forstå grunnleggende tidsserier konsepter og terminologi være i stand til å velge tidsserie metoder som er hensiktsmessige til mål å kunne kritisk evaluere vitenskapelig litteratur som bruker tidsserie metoder dekket har bedre forståelse av tidsserie egenskaper av din eget datasett kunne kortfattet oppsummere resultatene av tidsserieanalysen skriftlig Forutsetninger Et introduksjonsstatistikkkurs Tilgang til en bærbar datamaskin med evne til å ha Matlab installert på den Tillatelse fra instruktøren (undergraduate og online studenter) Andre krav Hvis du er på et universitet i Arizona (UA) student på campus i Tucson, har du tilgang til Matlab og nødvendige verktøykasser via et UA-nettstedslisens som ingen kostnadsprogramvare. Ingen tidligere erfaring med Matlab er nødvendig, og dataprogrammering er ikke en del av kurset. Hvis du er online, ikke på campus på UA, vil du kunne ta kurset i vår 2017 semester som en iCourse. Du må sørge for at du har tilgang til Matlab og de nødvendige verktøykassaene (se nedenfor) på ditt sted. Tilgang til internett. Det er ingen papirutveksling i kurset. Notater og oppgaver blir utvekslet elektronisk og gjennomførte oppgaver sendes elektronisk via University of Arizona Desire2Learn (D2L) - systemet. Matlab versjon. Jeg oppdaterer skript og funksjoner nå og da ved hjelp av gjeldende nettstedslisensutgave av Matlab, og oppdateringene kan bruke Matlab-funksjoner som ikke er tilgjengelige i tidligere Matlab-utgivelser. For 2017 bruker jeg Matlab versjon 9.1.0.441655 (R2016b). Hvis du bruker en tidligere utgave, må du kontrollere at det er Matlab Release 2007b eller høyere. I tillegg til de viktigste Matlab-pakken, brukes fire verktøykasser: Statistikk, Signalbehandling, Systemidentifikasjon, og enten Spline (Matlab Release 2010a eller tidligere), eller Kurvefitting (Matlab Release 2010b eller senere) Tilgjengelighet Kurset tilbys i vårsemester hvert annet år (2015, 2017, etc.). Det er åpent for studenter og kan også bli tatt av bachelor seniorer med tillatelse fra instruktøren. Registrering av bosatte UA-studenter er avkortet til 18 for vårferie 2017. Et lite antall nettstudenter har også vanligvis blitt innkvartert ved å tilby kurset på ulike måter. Måten nå er iCourse-lokalet beskrevet ovenfor. Tilbake til toppen av siden Kursoversikt (leksjoner) Tidsplanen lar vanligvis om to uker for å samle data og bli kjent med Matlab. Deretter er en uke (to klasseperioder) viet til hver av de 12 leksjonene eller emnene. Klassen møtes tirsdag og torsdag. Et nytt emne blir introdusert tirsdag, og fortsetter påfølgende torsdag. Torsdagsklassen slutter med en oppgave og en demonstrasjon av å kjøre skriptet på mine prøvedata. Oppdraget er forfalt (må lastes opp av deg til D2L) før klassen følgende tirsdag. Den første 12 timers tirsdagsklasse brukes til veiledning av selvbedømmelse og gradering av oppdraget og opplasting av vurderte (graderte) oppgaver til D2L. De resterende 45 minuttene brukes til å introdusere neste emne. Du må ta med din bærbare til klassen på tirsdager. De 12 leksjonene eller emnene som er dekket av kurset er oppført i klassebeskrivelsen. Nettstudenter forventes å følge samme tidsplan for innlevering av oppdrag som hjemmehørende studenter, men har ikke tilgang til forelesningene. Innleverte oppgaver av elektroniske studenter er ikke selvbestemte, men er gradert av meg. Nettstudenter skal ha tilgang til D2L for innlevering av oppgaver. Vår 2017 semester. Klasse møtes to ganger i uken i 75 minutters økter, 9: 00-10: 15 TTh, i rom 424 (Konferanserom) av Bryant Bannister Tree-Ring Building (bygning 45B). Den første dagen i klassen er jan 12 (torsdag). Den siste dagen i klassen er 2. mai (tirsdag). Det er ingen klasse i løpet av uken av Spring Break (11-19 mars). Du analyserer data av eget valg i klassetildelingene. Som nevnt i kursoversikten. Det er mye fleksibilitet i valg av tidsserier. Jeg vil lage en katalog over passende tidsserier tilgjengelig, men det er best å fokusere kurset på ditt eget datasett. Den første oppgaven innebærer å kjøre et skript som lagrer dataene og metadataene du har samlet i matfilen, det opprinnelige formatet til Matlab. Etterfølgende oppdrag tegner data fra matfilen for tidsserieanalyse. Oppgaver De 12 emnene behandles sekventielt i løpet av semesteret, som dekker ca 15 uker. Om de første to ukene (4-5 klassemøter) brukes det noen introduksjonsmateriale, bestemmer seg for og samler tidsseriene, og klargjør Matlab på den bærbare datamaskinen. Hver uke etter det er viet til en av de 12 emnene. Hver oppgave består i å lese et kapittel med notater, kjører et tilhørende Matlab-skript som bruker utvalgte metoder for tidsserieanalyse til dataene dine, og skriver opp tolkningen av resultatene. Oppgaver krever forståelse av forelesningsemner samt evne til å bruke datamaskinen og programvaren. Du sender inn oppgaver ved å laste dem opp til D2L før tirsdagskursen når neste emne blir introdusert. Den første halvtime av den tirsdagsklassen brukes til veiledning av selvoppgave av oppgaven, inkludert opplasting av selvoppgraderte pdfs til D2L. Jeg sjekker en eller flere av de selvoppgraderte oppgavene hver uke (ved tilfeldig utvalg), og kan endre karakteren. For å finne ut hvordan du får tilgang til oppgaver, klikk på oppdragsfiler. Lesingene består av notater. Det er tolv sett med. pdf notater filer. en for hvert emne. Disse. pdf-filene kan nås via nettet. Mer informasjon om de ulike emnene som er dekket i kurset, finner du ved hjelp av referanser som er oppført på slutten av hvert kapittel i notater. Karakterene er helt basert på ytelse på oppgavene, som hver er verdt 10 poeng. Det er ingen eksamener. Det totale antall mulige poeng for de 12 emnene er 12 x 10 120. En karakter på A kreves 90-100 prosent av mulige poeng. En klasse på B krever 80-90 prosent. En klasse på C krever 70-80 prosent, og så videre. Karakterene tilordnes ved selvvurdering styrt av en rubrik presentert i klassen. Antall poeng opptjent skal merkes øverst på hver karakterisert oppgave. Oppgavens oppgave skal inneholde annotasjon av eventuelle markdowns med henvisning til et rubrikpunkt som er illustrert i klassen (f. eks. -0,5, rp3 angir fradrag på -0,5 på grunn av en feil relatert til rubrik punkt 3). Oppgaver, gitt i klassen på torsdag, vil Forfaller (opplastet til D2L av deg) før starten av klassen følgende tirsdag. Den første halvtimen på tirsdagens møteperiode vil bli dedikert til presentasjon av en klassifisering, selvvurdering av gjennomførte oppgaver og opplasting av selvoppgraderte oppgaver til D2L. Denne timeplanen gir deg 4 dager å fullføre og laste opp oppdraget til D2L før kl. 9.00 tirsdag. D2L holder oversikt over tidspunktet for oppdraget ble lastet opp, og ingen straff er vurdert så lenge den lastes opp før 9:00 på tirsdag for forfallsdato. Hvis du har noen planlagte behov for å være borte fra klassen (f. eks. Oppmøte på en konferanse), er du ansvarlig for opplasting av oppdraget ditt før klokken 09:00 tirsdag den forfaller, og for opplasting av selvgradert versjon kl. 10:15 den samme dagen. Med andre ord, timeplanen er den samme som for elevene som er i klassen. Hvis en nødsituasjon kommer opp (for eksempel får du influensa) og kan ikke gjøre oppdraget eller vurderingen på skjema, vennligst send meg en e-post, og vi vil nå noen overnatting. Ellers vil en straff på 5 poeng (halvparten av de totale tilgjengelige poengene for øvelsen) bli vurdert. Introduksjon til tidsserier organisering av data for analyse En tidsserie er bredt definert som hvilken som helst serie av målinger tatt på forskjellige tidspunkter. Noen grunnleggende beskrivende kategorier av tidsserier er 1) lang vs kort, 2) selv tids-trinn vs ujevnt tidsrom, 3) diskret vs kontinuerlig, 4) periodisk vs aperiodisk, 5) stasjonær vs ikke-stationær, og 6) univariate vs multivariate . Disse egenskapene samt den tidsmessige overlappingen av flere serier må vurderes ved valg av datasett for analyse i dette kurset. Du vil analysere dine egne tidsserier i kurset. De første trinnene er å velge disse seriene og lagre dem i strukturer i en matfil. Enhetlig lagring i utgangspunktet er praktisk for denne klassen, slik at oppmerksomheten da kan fokusere på å forstå tidsserie metoder, snarere feilsøking av datakode for å klargjøre dataene for analyse. En struktur er en Matlab-variabel som ligner på en database ved at innholdet nås av tekstfeltbetegnere. En struktur kan lagre data av forskjellige former. Et felt kan for eksempel være en numerisk tidsseriematriks, en annen kan være tekst som beskriver datakilden osv. I den første oppgaven kjører du et Matlab-skript som leser tidsseriene og metadataene fra ascii tekstfiler du forbereder på forhånd og lagrer dataene i Matlab strukturer i en enkelt matfil. I etterfølgende oppgaver vil du bruke tidsseriemetoder til dataene ved å kjøre Matlab-skript og funksjoner som laster matfilen og opererer på disse strukturene. Velg prøvedata som skal brukes til oppgaver i løpet av kurset. Les: (1) Notes1.pdf, (2) Komme i gang, tilgjengelig fra MATLAB-hjelpemenyen Svar: Kjør script geosa1.m og svar på spørsmålene som er oppført i filen i a1.pdf Slik skiller du kategoriene av tidsserier Slik starter du og avslutter MATLAB Slik skriver du inn MATLAB-kommandoer ved kommandoprompt Slik lager du figurer i figurvindu Slik eksporterer du tall til tekstbehandleren Forskjell mellom MATLAB-skript og funksjoner Slik kjører du skript og funksjoner form av en MATLAB struktur variabel Slik bruker du skriptet geosa1.m for å få et sett med tidsserier og metadata i MATLAB strukturer Sannsynlighetsfordelingen av en tidsserie beskriver sannsynligheten for at en observasjon faller inn i et spesifisert verdierområde. En empirisk sannsynlighetsfordeling for en tidsserie kan nås ved å sortere og rangere verdiene av serien. Kvantiler og prosentiler er nyttig statistikk som kan tas direkte fra den empiriske sannsynlighetsfordelingen. Mange parametriske statistiske tester antar at tidsserien er et utvalg fra en befolkning med en bestemt befolkningssannsynlighetsfordeling. Ofte antas befolkningen å være normal. Dette kapittelet inneholder noen grunnleggende definisjoner, statistikk og plott knyttet til sannsynlighetsfordelingen. I tillegg er det innført en test (Lilliefors test) for å teste om en prøve kommer fra en normal fordeling med uspesifisert gjennomsnitt og varians. Svar: Kjør script geosa2.m og svar på spørsmålene som er oppført i filen i a2.pdf Definisjoner av termer: tidsserier, stasjonar, sannsynlighetstetthet, distribusjonsfunksjon, kvantilstand, spredning, plassering, gjennomsnitt, standardavvik og skjevhet. Hvordan tolke mest verdifulle grafikk i tidsserieanalyse - tidsseriens plot Hvordan tolke boksplot, histogram og normal sannsynlighetsdiagram Parametre og form av normalfordeling Lilliefors test for normalitet: grafisk beskrivelse, antagelser, null og alternative hypoteser Hensyn til tolkning av signifikansnivåer av statistiske tester når tidsserier ikke er tilfeldige i tid Hvordan søke geosa2.m for å sjekke distribusjonsegenskapene til en tidsserie og teste serien for normalitet Autokorrelasjon refererer til korrelasjonen av en tidsserie med egne fortid og fremtidige verdier. Autokorrelasjon kalles også noen ganger forsinket korrelasjon eller seriell korrelasjon. som refererer til sammenhengen mellom medlemmer av en rekke tall som er arrangert i tide. Positiv autokorrelasjon kan betraktes som en bestemt form for utholdenhet. en tendens til at et system forblir i samme tilstand fra en observasjon til den neste. For eksempel er sannsynligheten for at morgenen blir regnfull, større hvis det i dag er regnfull enn om det i dag er tørt. Geofysiske tidsserier er ofte autokorrelert på grunn av inerti eller overføringsprosesser i det fysiske systemet. For eksempel kan de langsomt utviklende og bevegelige lavtrykkssystemene i atmosfæren gi utholdenhet til daglig nedbør. Eller den langsomme dreneringen av grunnvannsreserver kan føre til korrelasjon til suksessive årlige strømmer av en elv. Eller lagrede fotosyntater kan gi sammenheng med suksessive årlige verdier av tre-ring-indekser. Autokorrelasjon kompliserer anvendelsen av statistiske tester ved å redusere antall uavhengige observasjoner. Autokorrelasjon kan også komplisere identifiseringen av signifikant kovarians eller korrelasjon mellom tidsserier (for eksempel utfelling med en treringsserie). Autokorrelasjon kan utnyttes for spådommer: En autokorrelert tidsserie er forutsigbar, probabilistisk fordi fremtidige verdier avhenger av nåværende og tidligere verdier. Tre verktøy for å vurdere autokorrelasjonen av en tidsserie er (1) tidsserien, (2) den forsinkede scatterplot, og (3) autokorrelasjonsfunksjonen. Svar: Kjør script geosa3.m og svar på spørsmål som er oppført i filen i a3.pdf Definisjoner: autokorrelasjon, utholdenhet, seriell korrelasjon, autokorrelasjonsfunksjon (acf), autokovariansfunksjon (acvf), effektiv prøvestørrelse Hvordan gjenkjenne autokorrelasjon i tidsseriene plot Hvordan bruke lagged scatterplots for å vurdere autocorrelation Hvordan tolke den plottet acf Hvordan justere prøvestørrelsen for autokorrelasjon Matematisk definisjon av autokorrelasjonsfunksjonen Vilkår som påvirker bredden på det beregnede konfidensbåndet av acf Differansen mellom en ensidig og to - sidig test av signifikant lag-1 autokorrelasjon Hvordan søke geos3.m for å studere autokorrelasjon av en tidsserie Spekteret av en tidsserier er fordelingen av varians av serien som en funksjon av frekvens. Målet med spektralanalyse er å estimere og studere spekteret. Spekteret inneholder ingen ny informasjon utover det i autokovariansfunksjonen (acvf), og faktisk kan spekteret beregnes matematisk ved transformasjon av acvf. Men spektret og ACVF presenterer informasjonen om variansen av tidsseriene fra komplementære synspunkter. Akkumulatoren oppsummerer informasjon i tidsdomene og spekteret i frekvensdomenet. Svar: Kjør script geosa4.m og svar på spørsmål som er oppført i filen i a4.pdf Definisjoner: frekvens, periode, bølgelengde, spektrum, Nyquist-frekvens, Fourier-frekvenser, båndbredde Grunner til analyse av et spektrum Hvordan tolke et plottet spektrum i form av distribusjon av varians Forskjellen mellom et spektrum og et normalisert spektrum Definisjon av forsinkelsesvinduet som brukt til å estimere spekteret ved hjelp av Blackman-Tukey-metoden Hvordan valget av lagvindu påvirker båndbredden og variansen av estimert spektrum Hvordan definerer et hvitt støyspektrum og autoregressivt spektrum Hvordan skisse noen typiske spektrale former: hvit støy, autoregressiv, kvasjonsperiodisk, lavfrekvent, høyfrekvente Hvordan bruke geosa4.m til å analysere spekteret av en tidsserie med Blackman-Tukey-metoden Autoregressive-Moving Gjennomsnittlig (ARMA) modellering Autoregressive-moving-average (ARMA) - modeller er matematiske modeller av persistensen, eller autokorrelasjon, i en tidsserie. ARMA-modeller er mye brukt i hydrologi, dendrochronology, økonometri og andre felt. Det er flere mulige grunner for å tilpasse ARMA-modeller til data. Modellering kan bidra til å forstå det fysiske systemet ved å avsløre noe om den fysiske prosessen som bygger utholdenhet i serien. For eksempel kan en enkel fysisk vannbalansemodell bestående av betingelser for nedbørsproduksjon, fordampning, infiltrering og grunnvannslager vises for å gi en strømstrømserie som følger en bestemt form for ARMA-modell. ARMA-modeller kan også brukes til å forutse atferd av en tidsserie fra tidligere verdier alene. En slik prediksjon kan brukes som en basislinje for å vurdere mulig betydning av andre variabler til systemet. ARMA-modeller er mye brukt til å forutsi økonomiske og industrielle tidsserier. ARMA-modeller kan også brukes til å fjerne utholdenhet. I dendrokronologi, for eksempel, brukes ARMA modellering rutinemessig for å generere gjenværende kronologier tidsserier av ringbreddeindeks uten avhengighet av tidligere verdier. Denne operasjonen, som kalles prewhitening, er ment å fjerne biologisk relatert persistens fra serien, slik at gjenværende kan være mer egnet for å studere påvirkning av klima og andre eksterne miljøfaktorer på trevekst. Svar: Kjør script geosa5.m og svar på spørsmål som er oppført i filen i a5.pdf Funksjonsformen til de enkleste AR - og ARMA-modellene Hvorfor slike modeller refereres til som autoregressive eller bevegelige gjennomsnitt De tre trinnene i ARMA-modellering Diagnostiske mønstre av autokorrelasjon og delvise autokorrelasjonsfunksjoner for en AR (1) tidsserie Definisjon av den endelige prediksjonsfeilen (FPE) og hvordan FPE brukes til å velge en best ARMA-modell Definisjon av Portmanteau-statistikken, og hvordan den og gjenstanden for residualer kan være brukes til å vurdere om en ARMA-modell effektivt modellerer utholdenheten i en serie. Hvordan prinsippet om parsimon brukes i ARMA-modellering. Definisjon av forvitring. Hvordan prewhitening påvirker (1) utseendet av en tidsserie, og (2) spekteret av en tidsserie Slik bruker du geosa5.m til ARMA-modellen en tidsserie Spektralanalyse - glatt periodogrammetode Det finnes mange tilgjengelige metoder for å estimere spektra av en tidsserie. I leksjon 4 så vi på Blackman-Tukey-metoden, som er basert på Fourier-transformasjon av den glatte, avkortede autokovariansfunksjonen. Den glattede periodogrammetoden omgår transformasjonen av acf ved direkte Fourier-transformasjon av tidsserier og beregning av råperiodogrammet, en funksjon som først ble introdusert på 1800-tallet for studier av tidsserier. Råperiodogrammet glattes ved å bruke kombinasjoner eller spenner av ett eller flere filtre for å produsere estimert spektrum. Glattheten, oppløsningen og variansen av spektralestimatene styres ved valg av filtre. En mer accentuert utjevning av det rå periodogrammet gir et underliggende jevnt varierende spektrum, eller null kontinuum, mot hvilken spektrale topper kan testes for betydning. Denne tilnærmingen er et alternativ til spesifikasjonen av en funksjonell form for null-kontinuumet (for eksempel AR-spektrum). Svar: Kjør skript geosa6.m og svar på spørsmål som er oppført i filen i a6.pdf Definisjoner: Rå periodogram, Daniell filter, Spenning av filter, null kontinuitetsjevnhet, Stabilitet og oppløsning av spektrum tapering, polstring, Lekkasje De fire hovedtrinnene i estimering Spekteret ved det glatte periodogrammet Hvordan virkningen av filtervalg spenner over glatthet, stabilitet og oppløsning av spekteret Hvordan null-kontinuum brukes til testing for betydning av spektraltoppene Hvordan bruke geosa6.m for å estimere spekteret av tid serie ved den glatte periodogrammetoden og test for periodicitet ved en spesifisert frekvens. Trend i en tidsserie er en langsom, gradvis endring i noen egenskap av serien over hele intervallet som undersøkes. Trend er noen ganger løst definert som en langsiktig endring i gjennomsnittet (figur 7.1), men kan også referere til endring i andre statistiske egenskaper. For eksempel har tre-ring-serien av målt ringbredde ofte en tendens i varians så vel som gjennomsnittlig (figur 7.2). I tradisjonell tidsserieanalyse ble en tidsserie nedbrutt i trend, sesongmessige eller periodiske komponenter, og uregelmessige svingninger, og de ulike delene ble studert separat. Moderne analyseteknikker behandler ofte serien uten slik rutinemessig dekomponering, men det er ofte nødvendig med separat vurdering av trenden. Detrending er den statistiske eller matematiske operasjonen for å fjerne trenden fra serien. Avhending brukes ofte for å fjerne en funksjon som antas å forvride eller skjule forholdet av interesse. I klimatologi kan for eksempel en temperaturutvikling på grunn av urban oppvarming skjule et forhold mellom skyighet og lufttemperatur. Avhending brukes også noen ganger som et forbehandlingstrinn for å forberede tidsserier for analyse ved hjelp av metoder som antar stasjonar. Mange alternative metoder er tilgjengelige for detrending. Enkel lineær trend i gjennomsnitt kan fjernes ved å subtrahere en rett linje med minst kvadrater. Mer kompliserte trender kan kreve forskjellige prosedyrer. For eksempel brukes den kubiske utjevningssplineen vanligvis i dendrokronologi for å passe og fjerne ringenes bredde som kanskje ikke er lineær, eller ikke engang monotonisk økende eller avtagende over tid. Ved å studere og fjerne trenden er det viktig å forstå effekten av detrending på tidsseriens spektrale egenskaper. Denne effekten kan oppsummeres av frekvensresponsen av avvikende funksjon. Svar: Kjør skript geosa7.m og svar på spørsmål som er oppført i filen i a7.pdf Definisjoner: frekvensrespons, spline, kubisk utjevning spline Fordeler og ulemper med forholdet mot forskjellskonjunktur Fortolkning av termer i ligningen for spline-parameteren Hvordan velge en spline interaktivt fra ønsket frekvensrespons Hvordan spekteret påvirkes av detrending Hvordan måle viktigheten av trendkomponenten i en tidsserie Hvordan bruke geosa7.m for å interaktivt velge en spline-avvikende funksjon og avverge en tidsserie. Det estimerte spektrum av en tid serien gir fordelingen av variansen som en funksjon av frekvensen. Avhengig av formålet med analysen, kan enkelte frekvenser være av større interesse enn andre, og det kan være nyttig å redusere amplitude av variasjoner ved andre frekvenser ved å statistisk filtrere dem ut før du ser og analyserer serien. For eksempel kan høyfrekvente (år til år) variasjoner i en målrettet utslippsregistrering av et vannområde være relativt ubetydelig med vannforsyning i et basseng med store reservoarer som kan lagre flere års gjennomsnittlig årlig avrenning. Hvor lavfrekvensvariasjoner er av hovedinteresse, er det ønskelig å glatte utladningsrekordet for å eliminere eller redusere kortvarige svingninger før bruk av utladningsrekordet for å studere betydningen av klimatiske variasjoner i vannforsyningen. Utjevning er en form for filtrering som produserer en tidsserie hvor betydningen av spektrale komponenter ved høye frekvenser reduseres. Elektriske ingeniører kaller denne typen filter et lavpassfilter, fordi lavfrekvensvariasjonene får passere gjennom filteret. I et lavpasfilter påvirkes lavfrekvente (langvarige) bølger knapt av utjevningen. Det er også mulig å filtrere en serie slik at lavfrekvensvariasjonene blir redusert og høyfrekvensvariasjonene upåvirket. Denne typen filter kalles et høypassfilter. Avhending er en form for høypassfiltrering: Den tilpassede trendlinjen sporer de laveste frekvensene, og residuene fra trendlinjen har hatt de lave frekvensene fjernet. En tredje type filtrering, som kalles bandpass-filtrering, reduserer eller filtrerer ut både høye og lave frekvenser, og etterlater noe mellomfrekvensbånd relativt upåvirket. I denne leksjonen dekker vi flere metoder for utjevning, eller lavpassfiltrering. Vi har allerede diskutert hvordan den kubiske utjevningsspline kan være nyttig for dette formålet. Fire andre typer filtre diskuteres her: 1) Enkel glidende gjennomsnitt, 2) binomial, 3) Gaussisk og 4) Windowing (Hamming metode). Betraktninger ved å velge en type lavpassfilter er ønsket frekvensrespons og spenningen eller bredden av filteret. Svar: Kjør script geosa8.m og svar på spørsmål som er oppført i filen i a8.pdf Definisjoner: filter, filtervekter, filterspenning, lavpassfilter, høypassfilter, filterfilterfrekvensrespons for et filter filteret er relatert til den gaussiske distribusjonen. Hvordan lage et enkelt binomialfilter manuelt (uten datamaskinen). Hvordan beskrive frekvensresponsfunksjonen når det gjelder et system med sinusformet inngang og utgang. Hvordan bruke geosa8.m til å interagere designe en gaussisk, binomial eller Hamming-Window Lowpass-filter for en tidsserie Pearson-produkt-korrelasjonskoeffisienten er trolig den mest brukte statistikken for å oppsummere forholdet mellom to variabler. Statistisk betydning og forbehold for tolkning av korrelasjonskoeffisienten som brukt på tidsserier, er emner i denne leksjonen. Under visse antagelser avhenger den statistiske signifikansen av en korrelasjonskoeffisient bare av prøvestørrelsen, definert som antall uavhengige observasjoner. Hvis tidsseriene er autokorrelert, bør en effektiv prøvestørrelse, lavere enn den faktiske prøvestørrelsen, brukes når man vurderer betydningen. Forløpende eller falske forhold kan gi betydelig korrelasjon i noen perioder og ikke for andre. Tidsvariasjonen av styrken av lineær korrelasjon kan undersøkes med plott av korrelasjon beregnet for et skyvevindu. Men hvis mange korrelasjonskoeffisienter evalueres samtidig, bør konfidensintervallene justeres (Bonferroni-justering) for å kompensere for den økte sannsynligheten for å observere noen høye korrelasjoner der det ikke eksisterer forhold. Tolkning av glidende korrelasjoner kan også bli komplisert ved tidsvariasjoner av middel og varians av serien, idet glidende korrelasjon reflekterer kovariasjon i form av standardiserte avvik fra midler i tidsvinduet av interesse, som kan avvike fra langsiktige midler. Endelig bør det understrekes at Pearson korrelasjonskoeffisienten måler styrken av lineært forhold. Scatterplots er nyttige for å sjekke om forholdet er lineært. Svar: Kjør script geosa9.m ​​og svar på spørsmål som er oppført i filen i a9.pdf Matematisk definisjon av korrelasjonskoeffisienten Forutsetninger og hypoteser for signifikanstesting av korrelasjonskoeffisient Hvordan beregne signifikansnivået for korrelasjonskoeffisient og å justere signifikansnivået for autokorrelasjon i de individuelle tidsseriene Hensyn til tolkning av korrelasjonskoeffisient Bonferroni justering til signficansnivå korrelasjon under flere sammenligninger Inflasjon av varians av estimert korrelasjonskoeffisient når tidsserier autokorrelert Mulige effekter av datatransformasjon på korrelasjon Hvordan tolke plott av glidende korrelasjoner Hvordan søke geosa9. m for å analysere korrelasjoner og glidende korrelasjoner mellom par av tidsserier Lagrede relasjoner er karakteristiske for mange naturlige fysiske systemer. Lagget korrelasjon refererer til korrelasjonen mellom to tidsserier skiftet i tid i forhold til hverandre. Laget korrelasjon er viktig for å studere forholdet mellom tidsserier av to grunner. For det første kan en serie ha forsinket respons på den andre serien, eller kanskje en forsinket respons på en felles stimulus som påvirker begge seriene. For det andre kan responsen fra en serie til den andre serien eller en utvendig stimulus bli smurt i tid, slik at en stimulus begrenset til en observasjon utløser en respons ved flere observasjoner. For eksempel, på grunn av lagring i reservoarer, isbreer, etc., kan volumutslipp av en elv på ett år avhenge av nedbør i de foregående årene. Eller på grunn av endringer i kronetetthet og fotosynthatlagring, kan bredden på en trering på ett år avhenge av klimaet i flere foregående år. Den enkle korrelasjonskoeffisienten mellom de to seriene som er riktig justert i tid, er utilstrekkelig til å karakterisere forholdet i slike situasjoner. Nyttige funksjoner vi skal undersøke som alternativ til den enkle korrelasjonskoeffisienten er krysskorrelasjonsfunksjonen og impulsresponsfunksjonen. Korskorrelasjonsfunksjonen er korrelasjonen mellom serien skiftet mot hverandre som en funksjon av antall observasjoner av forskyvningen. Hvis den enkelte serie er autokorrelert, kan den estimerte krysskorrelasjonsfunksjonen bli forvrengt og villedende som et mål for det forsinkede forhold. Vi vil se på to tilnærminger for å avklare mønsteret av krysskorrelasjoner. Den ene er å individuelt fjerne persistensen fra, eller prewhiten, serien før krysskorrelasjonsestimering. I denne tilnærmingen betraktes de to seriene i likhet med likestilling. Et alternativ er systemtilnærmingen: se serien som et dynamisk lineært system - en serie inngang og den andre utgangen - og estimer impulsresponsfunksjonen. Impulsresponsfunksjonen er responsen på utgangen i nåværende og fremtidige tider til en hypotetisk puls av inngang begrenset til gjeldende tid. Answer: Run script geosa10.m and answer questions listed in the file in a10.pdf Definitions: cross-covariance function, cross-correlation function, impulse response function, lagged correlation, causal, linear How autocorrelation can distort the pattern of cross-correlations and how prewhitening is used to clarify the pattern The distinction between the equal footing and systems approaches to lagged bivariate relationships Which types of situations the impulse response function (irf) is an appropriate tool How to represent the causal system treated by the irf in a flow diagram How to apply geos10.m to analyze the lagged cross-correlation structure of a a pair of time series Multiple linear regression Multiple linear regression (MLR) is a method used to model the linear relationship between a dependent variable and one or more independent variables. The dependent variable is sometimes also called the predictand, and the independent variables the predictors. MLR is based on least squares: the model is fit such that the sum-of-squares of differences of observed and predicted values is minimized. MLR is probably the most widely used method in dendroclimatology for developing models to reconstruct climate variables from tree-ring series. Typically, a climatic variable is defined as the predictand and tree-ring variables from one or more sites are defined as predictors. The model is fit to a period -- the calibration period -- for which climatic and tree-ring data overlap. In the process of fitting, or estimating, the model, statistics are computed that summarize the accuracy of the regression model for the calibration period. The performance of the model on data not used to fit the model is usually checked in some way by a process called validation. Finally, tree-ring data from before the calibration period are substituted into the prediction equation to get a reconstruction of the predictand. The reconstruction is a prediction in the sense that the regression model is applied to generate estimates of the predictand variable outside the period used to fit the data. The uncertainty in the reconstruction is summarized by confidence intervals, which can be computed by various alternative ways. Answer: Run script geosa11.m (Part 1) and answer questions listed in the file in a11.pdf The equation for the MLR model Assumptions for the MLR model Definitions of MLR statistics: coefficient of determination, sums-of-squares terms, overall-F for the regression equation, standard error of the estimate, adjusted R-squared, pool of potential predictors The steps in an analysis of residuals How to apply geosa11.m (part 1) to fit a MLR regression model to predict one variable from a set of several predictor variables Validating the regression model Regression R-squared, even if adjusted for loss of degrees of freedom due to the number of predictors in the model, can give a misleading, overly optimistic view of accuracy of prediction when the model is applied outside the calibration period. Application outside the calibration period is the rule rather than the exception in dendroclimatology. The calibration-period statistics are typically biased because the model is tuned for maximum agreement in the calibration period. Sometimes too large a pool of potential predictors is used in automated procedures to select final predictors. Another possible problem is that the calibration period itself may be anomalous in terms of the relationships between the variables: modeled relationships may hold up for some periods of time but not for others. It is advisable therefore to validate the regression model by testing the model on data not used to fit the model. Several approaches to validation are available. Among these are cross-validation and split-sample validation. In cross-validation, a series of regression models is fit, each time deleting a different observation from the calibration set and using the model to predict the predictand for the deleted observation. The merged series of predictions for deleted observations is then checked for accuracy against the observed data. In split-sample calibration, the model is fit to some portion of the data (say, the second half), and accuracy is measured on the predictions for the other half of the data. The calibration and validation periods are then exchanged and the process repeated. In any regression problem it is also important to keep in mind that modeled relationships may not be valid for periods when the predictors are outside their ranges for the calibration period: the multivariate distribution of the predictors for some observations outside the calibration period may have no analog in the calibration period. The distinction of predictions as extrapolations versus interpolations is useful in flagging such occurrences. Answer: Run script geosa11.m (Part 2) and answer questions listed in the file in a12.pdf Definitions: validation, cross-validation, split-sample validation, mean square error (MSE), root-mean-square error (RMSE) standard error of prediction, PRESS statistic, hat matrix, extrapolation vs interpolation Advantages of cross-validation over alternative validation methods How to apply geosa11.m (part 2) for cross-validated MLR modeling of the relationship between a predictand and predictors, including generation of a reconstruction and confidence bands Downloading Files -- tsfiles. zip The Matlab class scripts and user-written functions are zipped in a file called tsfiles. zip. To get the files, first create an empty directory on your computer. This is where you will store all functions, scripts and data used in the course. Go to D2L, or click on tsfiles. zip to download the zip file to that directory and unzip it there. When you run matlab, be sure that directory is your current matlab working directory. Powerpoint lecture outlines miscellaneous files. Downloadable file other. zip has miscellaneous files used in lectures. Included are Matlab demo scripts, sample data files, user-written functions used by demo scripts, and powerpoint presentations, as pdfs (lect1a. pdf, lect1b. pdf, etc.) used in on-campus lectures. I update other. zip over the semester, and add the presentation for the current lecture within a couple of days after that lecture is given. To run the Matlab scripts for the assignments, you must have your data, the class scripts, and the user-written Matlab functions called by the scripts in a single directory on your computer. The name of this directory is unimportant. Under Windows, it might be something like C:geos585a. The functions and scripts provided for the course should not require any tailoring, but some changes can be made for convenience. For example, scripts and functions will typically prompt you for the name of your input data file and present Spring17 as the default. That is because Ive stored the sample data in Spring17.mat. If you want to avoid having to type over Spring17 with the name of your own data file each time you run the script, edit the matlab script with the Matlab editordebugger to change one line. In the editor, search for the string Spring17 and replace it with the name of your. mat storage file (e. g. Smith2017), then be sure to re-save the edited script.

No comments:

Post a Comment