5 Datahantering
5.1 Beskrivning
Informationen i projektet finns samlade i några olika typer av datakällor. Det finns pappersprotokoll ifyllda under fältinventeringen, digitala fotografier tagna under inventeringen, digitala fältprotokoll i Excel-format inmatade från pappersprotokoll och dokument och rapporter med metadatainformation, alltså beskrivningar av lokaler och insamlingsmetodik.
Exakt hur pappersprotokollen är utformade känner jag inte till, men jag gissar att det finns två protokoll som ifylls vid fältinventeringen. Ett som innehåller information från 1-meters stråket; information om träd, buskar och vegetationselement samt deras förekomster längs stråket. Ett andra protokoll som innehåller artförekomster i de 10 småprovytorna. Pappersprotokollen finns arkiverade hos Pro Natura.
Varje stråk fotograferas under inventeringen. De digitala fotografierna från fältinventeringen finns lagrade hos Pro Natura och kansliet för Vänerns Vattenvårdsförbund.
Efter varje fältsäsong digitaliseras uppgifterna från fältprotokollen till Excelfiler. Jag har haft tillgång till två digitala datafiler. En datafil med alla uppgifter kopplade till 1-meters stråket. Ett utdrag ur stråkfilen ses i Tabell 4.1. Där finns data för träd, buskar, funktionella växtgrupper, exempel vass, risvegetation, och uppgifter om strandlutning, strandens längd till vattenbrynet, typ av substrat och andra uppgifter som beskriver stråket.
Den andra datafilen innehåller artförekomster från småprovytorna. Datat är här aggregerat per stråk och för varje art visas i hur många småprovytor arten förekommer. Tabellen är arrangerad i brett format där varje växtart visas på en rad och data för stråk och inventeringstillfälle bildar kolumner. Kanske inte det bästa formatet för effektiva analyser. Tabell 4.2 visar ett utdrag ur en omformad datatabell i långt format där varje inventeringstillfälle och art bildar en rad i tabellen.
Jag har också tillgång till en Excel-fil med lokaluppgifter. För stråk uppgifter om vilken lokal den tillhör och koordinater för stråkets startpunkt. Viss utförlig metadatainformation finns också publicerade i rapportform (Lannek 2001)
I dagsläget finns det också en del uppenbara fel i datafilerna. I stråkfilen finns det mycket stavfel i art- och artgruppskolumnerna. Det finns också en del fel i vissa beräknade kolumner. Exempelvis finns det kolumner för start, slut och längd. Längden är en beräknad variabel och den beräknas som slut - start, men det stämmer inte alltid.
Artförekomstfilen innehåller även den felstavade artnamn. Ett annat problem med artlistor är att de ofta sker namnförändringar när taxonomin förändras. Därför är det bra att skapa en separat artlista med namn som används i inventeringen tillsammans med de giltiga namnen som bör användas i olika presentationer. Artdatabanken ajourför en namndatabas, dyntaxa, som innehåller en uppdaterad lista av vetenskapliga och svenska namn tillsammans med en taxon_id för alla arter och taxa. Artförekomstfilen är uppbyggd i brett format där varje rad representerar en art och kolumnerna visar förekomster som en kombination av stråk och inventeringstillfälle. Enkelt att mata in, men svårare att använda vid analyser. För analyser är det bättre att lagra datat i långt format. Det är dock en jämförelsevis enkel operation att pivotera mellan lång och brett format.
Lokalbeskrivningar finns i en tredje Excel-fil. I den senaste versionen saknas dock vissa lokaler och en av stråken har även en felaktig koordinat.
5.2 Rekommendationer
Som utvärderare har jag fått tillgång till all data och information som behövts för att utvärdera projektet. Det har varit möjligt att förstå både hur projektet är upplagt utifrån manualer, datafiler och med lite hjälp av intervjuer av medarbetare.
Idag finns rapporter och metodbeskrivningar tillgängliga via Vänerns vattenvårdsförbunds hemsidor. I framtiden skulle det vara önskvärt att även datafiler, analysscript och fotografier skulle vara tillgängliga. Det skulle exempelvis kunna göras via de datavärdskap som Naturvårdsverket finansierar. För att kunna kvalitetssäkra och arkivera hela dataflödet är det också bra om pappersprotokollen digitaliseras.
Ett problem som lätt uppstår med digitaliserade data är att man ofta får många olika versioner och kopior. Efter varje säsong, en ny, kompletterad datafil. En ny version efter rättningar eller analys. Olika kopior lagrade på olika ställen. Det är därför viktigt att det skapas en primär datalagringsplats där de senaste och mest korrekta versionerna av olika data kan hämtas. Datat kan exempelvis lagras i en gemensam databas, men för mindre projekt som den stråkvisa inventeringen fungerar det också bra med enskilda filer. Projektet består av en uppsättning av olika data: Digitala datafiler, metadatabeskrivningar, digitala foton, rapporter och fältprotokoll som antagligen både kommer finnas i digital och pappersform.
Analyser och användning av data underlättas om datafilerna följer en struktur anpassad till analyser. En populär metod att organisera data kallas för tidy data format (Wickham, Çetinkaya-Rundel, and Grolemund 2023; Wickham 2014). Exempel på regler som kan användas är hur man bäst organiserar data i tabeller. Varje observation bildar en rad i tabellen, varje variabel bildar en kolumn, första raden i tabellen används för variabelnamn. Använd en maskinläsbar och tydlig namnstandard för variabel namn, exempelvis ‘snake_case’ eller camelCase. Ett ofta använt format för datafiler är kommaseparerade (eller semikolonseparerade) textfiler. Excel som används i den stråkvisa inventeringen är bra för inmatning eller presentation, men kan innehålla så mycket annan information som försvårar maskininläsning och validering.