3  Statistisk design

3.1 Beskrivning

Inventeringen använder sig av ett stationssystem där ett antal provytor inventeras inom olika områden. Provytorna kallas stråk och består av transekter eller bälten som sträcker sig från övre delen av stranden ut till strandlinjen och vidare ut till 1 meters djup för att kunna följa flytbladsvegetation. Stråken är 1 meter breda. Urvalsprocessen av områden och stråk finns beskriven i en rapport (Lannek 2001) där följande steg och urvalskriterier användes.

  1. Lokaler och stråk valdes ut med hjälp av infraröda flygbilder. Tillgängliga flygbilder var dock begränsat så områden som kunde inkluderas begränsades till sex områden.
  2. För att minska effekten av mänsklig påverkan skall lokalerna inte ligga närmare än 500 meter från båtplatser eller fritidshusområden. Det skall heller inte finnas några fristående fritidshus i direkt anslutning till stråken.
  3. Lokalerna bör dock ligga inom 200 meter från närmsta väg (för att minska tidsåtgång vid inventeringen)
  4. Alla typer av stränder skall inkluderas. Från klippor till vassdjungel, men inte nödvändigtvis inom samma område.
  5. Stråken skall innehålla stränder med olika vågexponering, helst olika exponeringsgrader inom samma område.

Designen som används är en icke slumpmässig design. En design där områden och stråk inte valts ut slumpmässigt utifrån en i förväg vald population eller urvalsram. I litteraturen benämns ofta denna typ av design som non-random sampling design, eller möjligtvis convenience sampling. I denna inventering påverkades urvalet efter vilka flygbilder som var tillgängliga och endast stränder med låg exploatering valdes ut.

Figur 3.1 visar en schematisk presentation av alla inventeringstillfällen. Varje punkt i figuren visar ett inventeringstillfälle. Varje delfigur visar ett område och punkter sammanbundna med en linje representerar ett stråk. Vid programmets start valdes 25 områden ut. I varje område lades sedan antingen 2 eller 3 provytor ut. I samband med inventeringen 2009 utökades antalet områden till 36. Beroende på förändrad markanvändning har vissa stråk bytts ut och i vissa fall även hela områden.

Fullständiga fältinventeringar har utförts under fem inventeringstillfällen; 2000, 2003, 2009, 2014 och 2019. Från 2009 har detta kompletterats med årliga inventeringar i 13 av områdena. De utvalda områdena och stråken är permanenta, vilket betyder att samma stråk inventeras vid de olika inventeringstillfällena. Figur 3.2 visar var inventeringsområdena är lokaliserade.

Det finns även en aspekt av att datat är obalanserat. Det finns en tidsmässig obalans. Avläsningarna har gjorts med olika frekvens. Intervallen mellan de kompletta avläsningarna är 3, 6, 5, 5 år. För en andel av lokalerna har det dessutom gjorts årliga avläsningar de tio senaste åren. Det finns även en obalans vad gäller vågexponering. De flesta lokalerna vid starten var mer skyddade och uppvisade låg exponeringsgrad. För att jämna ut det kompletterades designen med mer exponerade ytor. För de nya lokalerna finns data från 2009. Det finns ytterligare en obalans, en rumslig obalans då alla typer av stränder inte är representerade i varje lokal. Vissa lokaler används för vissa analyser, men inte för andra. Detta komplicerar analyser och framför allt tolkningarna av analyserna.

Code
readxl::read_excel("../Vanern_utvardering/data/Grunddatabas tom 2020 (2021-01-10).xlsx", sheet = 9) |>
  janitor::clean_names() |>
  dplyr::distinct(lokal, straknr, strak_id, exp_grad, ar) |>
  ggplot2::ggplot() +
  ggplot2::aes(x = ar, y = straknr, group = strak_id, color = exp_grad) +
  ggplot2::geom_line(show.legend = FALSE) +
  ggplot2::geom_point(show.legend = FALSE) +
  ggplot2::facet_wrap(~lokal) +
  ggplot2::xlab("Inventeringsår") +
  ggplot2::ylab("Stråknummer") +
  ggplot2::scale_x_continuous(breaks = c(2000, 2010, 2020), limit = c(1998,2022)) + 
  ggplot2::scale_y_continuous(limit = c(0,4.5), breaks = c(1,2,3,4)) +
  ggplot2::theme_light() +
  ggplot2::theme(axis.text.x = ggplot2::element_text(size = ggplot2::rel(0.7)))
Figur 3.1: Inventerade stråk och områden inom lokalerna. Varje punkt visar ett inventeringstillfälle. Färgerna representeras vågexponering. Svart = låg, Blå = hög
Figur 3.2: Inventerade lokaler i den stråkvisa inventeringen. Inom varje lokal inventeras 2-4 stråk.

3.2 Konsekvenser av en icke slumpmässig design

Det är ofta omöjligt att bara genom att titta på data eller resultat från ett miljöövervakningsprogram avgöra om det baseras på ett randomiserat stickprov eller inte. De flesta program samlar in data från provytor inom olika områden, trakter, kluster eller vad de nu väljer att kalla det. I den stråkvisa vegetationsinventeringen är det dock uppenbart från metodbeskrivningen att programmet använt en icke randomiserad provtagning.

En icke randomiserad design begränsar vilka frågor och vilka slutsatser som kan dras från en studie.

Den stråkvisa inventeringen inventerar endast oexploaterade stränder. Resultaten omfattar alltså inte alla stränder längs Vänern. Hur stor andel av Vänerns stränder omfattar studien? Insamlade data ger förstås ingen indikation. Endast oexploaterade stränder är inventerade. Länsstyrelsernas strandexploateringsdata visar att 19% av Vänerns stränderna är exploaterade (Lundberrg and Nilsson 2018; Nilsson 2018). Den stråkvisa inventeringen har nog använt ett aningen mer restriktivt urval än det som exploateringsstudien använder. Urvalskriterie 2 säger att det skall vara minst 500 meter från stugområden, så studien omfattar nog betydligt mindre än 81%. Hur mycket skulle man kunna uppskatta med en GIS-analys. Men det viktiga är att komma ihåg att det är oexploaterade stränder långt från bebyggelse som inventerats.

En annat problem med icke randomiserade studier är att de riskerar att ge bias, ett systematiskt fel. Eftersom provytor valts ut godtyckligt finns en risk att vissa typer är över- eller underrepresenterade och beräkningar och skattningar kan då bli för stora eller låga. Det hjälper inte nödvändigtvis att öka provstorleken. Godtyckligheten finns antagligen kvar och samma systematiska fel kan finnas kvar. Detta till skillnad från randomiserade designer. Det finns alltid slumpmässiga variationer, men när man ökar stickprovsstorlekarna minskar skattningsfelet alltefter en större del av populationen inkluderas i undersökningen.

Lite förenklat kan man säga att de flesta *tillståndsskattningar* blir svåra att tolka och analysera med en icke randomiserad design. En typisk fråga från en randomiserad studie är hur stor areal eller hur stor andel som är påverkad av något fenomen. Exempelvis, “Hur stor andel av Vänerns stränder uppvisar igenväxning?”. Alla sådana frågor faller bort från en icke randomiserad design.

Typiskt för många icke randomiserade undersökningar verkar vara att de huvudsakligen fokuserar på förändringar. Man bygger upp tidserier genom att man återinventerar samma permanenta provytor och områden. Man fokuserar sedan på hur olika mätvariabler som vegetationstäckning eller artförekomster förändras över tiden.

Det finns fortfarande problem med representativitet och bias och när man utför analyser tvinga man att anta att representativiteten är tillräckligt hög och biasen låg. Eller så kan man med kompletterande datainsamling undersöka det. Man kan med en separat studie jämföra egenskaperna hos de provytor som ingår i studien med ett större slumpmässigt urval av lokaler. Om de har samma fördelning i några uppmätta karaktärer så antar man att det godtyckliga urvalet är representativt och antagligen även uppvisar låg bias.

En stor andel av miljöövervakningsprogrammen och antagligen en ännu större andel av forskningsprojekten i Sverige använder icke randomiserade designer. Trots det finns det få studier där randomiserade och icke randomiserade undersökningar jämförts. Speak et. al. (2018) diskuterar några effekter av conveniance sampling. De menar att den stora fördelen med conveniance sampling främst är ekonomisk. Man kan ofta använda färre provytor samtidigt som de negativa effekterna är begränsade.

3.3 Förslag och rekommendationer

Jag är själv en stor förespråkare av randomiserade stickprovsinventeringar. De har stora fördelar då man både kan analysera frågor kopplade till tillstånd och förändringar. Jag tänker ändå inte rekommendera att den Stråkvisa vegetationsinventeringen byter design. Särskilt då flera av de limniska systerprojekten inom miljöövervakningen i Vänern använder liknande stationssystem.

Undvik att skapa fler obalanser i datainsamlingen. Försök skapa processer där datainsamlingen sker regelbundet. Antingen där inventeringen sker med fasta tidsintervall, eller ett system där en viss andel inventeras årligen och varje lokal återbesöks med fast intervall. Försök också undvika att avsluta och påbörja nya områden och stråk.

Överväg att kombinera den fältbaserade vegetationsinventeringen med en fjärranalysbaserad studie som omfattar ett större (randomiserat) stickprov av Vänerns stränder. Man kan då undersöka om uppenbara förändringar som ses i det subjektiva urvalet av stråk överensstämmer med de generella förändringarna som kan ses i fjärranalys. Med fjärranalys kan förstås inte alla fenomen som ingår i fältstudien följas. Trädförekomst, vasstäckning och kanske förekomst av makrofyter kan vara lämpliga vegetationskategorier. En metod som rekommenderas är att utföra stereogrammetrisk (tolkning i 3D) av infraröda flygbilder. Numera finns möjlighet att skapa tolkningsprojekt där flera tidpunkter tolkas samtidigt. Man kan alltså direkt tolka och fokusera på förändringar i de aspekter man vill undersöka. En annan fördel med fjärranalys är att man även kan inventera historiska, äldre bilder och förlänga tidsserierna bakåt i tiden.