Kapitel 6 Metod

Utifrån observerade data vill vi nu prognostisera framtiden. Detta gör vi med hjälp av en prediktiv statistisk modell.

6.1 Statistisk modell

Den modell som allmänt tycks anses vara “state-of-the-art” avseende cancerincidenspredektion är den så kallade age-period-cohort-modellen (APC) (Møller m.fl. 2003).

Modellen bygger i grunden på Poissonregression med antalet cancerfall som utfall. Istället för den kanoniska logaritmiska länkfunktionen (som alltså är standard för Poissonregresssion) används dock en så kallad “power-5-länk” (vilket har visat sig ge bättre resultat).

Modellen utgår från fyra prediktorer beskrivna nedan.

6.1.1 Ålder

Traditionellt kategoriseras åldern till åldersgrupper om fem år: 0-4, 5-9 år och så vidare. Grupperingen är ofta lämplig eftersom tillgänglig befolknings- och incidensdata ofta presenteras aggregerat på detta sätt. (Vilken vi också kunde konstatera enligt avsnitt 4.1 ovan). Då cancer främst förekommer i de äldre åldersgrupperna är det ofta svårt att modellera och prediktera incidens för yngre åldrar. I modellen brukar man därför använda ett nedre gränsvärde. Incidensen för yngre åldersgrupper än så tas då istället som medelvärdet av tidigare observerat antal under föregående tio år.

För denna rapport har vi valt åldersgränser så att minst 30 observerade cancerfall ska finnas totalt över det historiskt observerade tidsintervallet. För vilken åldersgrupp detta inträffar skiljer sig åt beroende på diagnos enligt tabell 6.1.

Table 6.1: Yngsta åldersgrupp för vilka incidensen skattas med hjälp av APC-modellen (för yngre åldrar tas observerat medelvärde för senaste tio åren).
diagnos yngsta
Prostata (blåshalskörtel) 45-49
Bröst 25-29
Tjocktarm 30-34
Tumör i huden, ej malignt melanom 40-44
Lunga, luftstrupe och bronker 40-44
Urinvägar utom njure 40-44
Malignt melanom i huden 20-24
Ändtarm och anus 40-44
Magsäck 45-49
Ospecificerad lokalisation 40-44

Ibland gör man skillnad på vilka åldersgrupper som används för att prediktera data för modellen och för vilka åldersgrupper man sedan använder dessa skattningar. Vi väljer dock att använda samma gränser för båda dessa syften.

På senare tid har föreslagits att ålder istället modelleras med hjälp av så kallade “splines” (Smittenaar m.fl. 2016) istället för via en diskret steg-funktion (vilket annars är det vanliga). Detta skulle ge en mer kontinuerlig relation mellan olika åldrar, vilket också kan kännas intuitivt riktigt. Metoden finns ännu inte implementerad på ett lättillgängligt sätt för APC-modellen men en framtida utveckling i sådan riktning vore definitivt av intresse.

6.1.2 Period

Med period avses den period under vilken cancerdiagnosen ställs (det vill säga den period incidensberäkningen avser). Även här används diskreta tidsperioder om fem år. Detta är lämpligt då variationen för ovanligare diagnoser kan vara stor i mindre populationer mellan olika år. Med längre tidsperioder blir antalen något mer stabila. Tanken med att beakta period är att detta blir en proxy för dels hälsofaktorer (variabla över tid), dels interventioner såsom screeningprogram och andra politiska beslut som kan påverka diagnostiseringen av cancer.

6.1.3 Cohort

Med kohort avses individers födelsekohorter. Dessa bestäms deterministiskt av ålder och period. Tanken är här att olika yttre påverkansfaktorer (såsom förekomst av rökning och kostvanor) inte bara skiljer sig mellan olika perioder och åldrar utan även baserat på en interaktionseffekt av de två.

6.1.4 Drift

Den så kallade “driftfaktorn” bygger inte på samma sätt som övriga prediktorer på direkt observerbara demografiska faktorer. Detta är istället en skattning av i övrigt ej observerade förändringar över tid (där tiden inte enbart mäts i de diskreta perioderna utan även som ett mer kontinuerligt förlopp). En svårighet med “drift”-faktorn är att vi inte vet hur mycket av den periodspecifika variationen som kan tänkas bestå över tid.

Exempelvis vid införande av screeningprogram är tendensen ofta att incidensen inledningsvis går upp (då man finner ett ökat antal fall i ett tidigt skede till följd av den ökade diagnostiken) för att sedan gå ner (då de ordinarie diagnostiserade minskas till följd av att dessa individer redan fått diagnos) och därefter åter stabiliseras på en lägre nivå än före interventionen (ifall programmet har önskad effekt).

På grund av denna svårighet blir det ofta en subjektiv bedömning av hur stor vikt man bör lägga vid sådana effekter från föregående tidsintervaller.

Idealt vore att bestämma sådana vikter separat för varje diagnos baserat på kunskap om eventuellt förändrade diagnosmetoder och dylikt. Längre fram kommer vi exempelvis se att det finns vissa svårigheter att skatta framtida incidens för diagnoser där individers beteendemönster (såsom ökad solning för hudmelanom) eller diagnostiska procedurer (såsom PSA-testning för prostatacancer) påverkat incidenstalen utöver vad som kan förutses av enbart en förändrad befolkningsstruktur.

Vi har dock valt att nyttja två olika driftstrender vid våra skattningar för att på så sätt ändå illustrera osäkerheten och svårigheten att välja rätt driftstrend.

  • Ingen driftstrend: Detta motsvarar skattningar helt baserade på observerad och prognostiserad befolkningsutveckling.
  • Standarddriftstrend: Standardvalet av driftstrend för APC-modellen är att utöver befolkningstrenden även inkludera en eventuell trend baserad på tidigare observerad cancerincidens. Man tillmäter ofta denna trend mindre vikt ju längre fram i tiden prognosen avser. I vårt fall prognostiserar vi incidensen för två femårsintervall framåt i tiden. För den närmast kommande femårsperioden inkluderar vi den observerade driftstrenden fullt ut. För perioden därefter reducerar vi dock vikten av denna trend till 75 procent.

6.2 Mjukvara

Många studier nyttjar för APC-modeller en “programvara” kallad Nordpred från norksa cancerregistret (Møller m.fl. 2002, Møller2003). Programvaran utgörs av ett par skriptfiler för det lite äldre statistikspråket S. I samband med incidensprediktion för Regionala utvecklingsplanen 3.0 omarbetade undertecknad denna mjukvara något, till ett så kallat R-paket efter kontakt med upphovsmännen. Det paketet finns nu åtkomligt via GitHub. För de uppgifter som presenteras i denna rapport har detta R-paket sedan använts omodifierat tillsammans med modernare hjälpverktyg.

Som ett parallellspår till prediktioner presenterade i rapporten har också visst utvecklingsarbete initierats för att ytterligare modernisera och utveckla paketet. Detta bland annat i syfte att eventuellt kunna introducera splines för ålderseffekter (se avsnitt 6.1.1) samt ytterligare kovariater såsom folkhälsofaktorter (se avsnitt 11). Ett sådant arbete har emellertid visat sig mer tidskrävande än initialt uppskattat. Detta arbete har därför avstanat och bordlagts.

Referenser

Møller, Bjørn, Harald Fekjær, Timo Hakulinen, Helgi Sigvaldason, Hans H. Storm, Mats Talbäck, och Tor Haldorsen. 2003. ”Prediction of cancer incidence in the Nordic countries: Empirical comparison of different approaches”. Statistics in Medicine 22 (17): 2751–66. doi:10.1002/sim.1481.

Smittenaar, C R, K A Petersen, K Stewart, och N Moitt. 2016. ”Cancer incidence and mortality projections in the UK until 2035.” British journal of cancer 115 (9). Nature Publishing Group: 1147–55. doi:10.1038/bjc.2016.304.

Møller, Bjørn, Harald Fekjær, Timo Hakulinen, Laufey Tryggvadóttir, Hans H Storm, Mats Talbäck, och Tor Haldorsen. 2002. ”Prediction of cancer incidence in the Nordic countries up to the year 2020”. Eur J Cancer Prev. 11 (Suppl): S1–S96.