Hvordan måles prediksjonsevnen?

I dette innlegget forklares det kort og langt om hvordan prediksjonsevnen måles i FFIs turnering.

Først oppsummeres de viktigste “reglene” for beregning av scores, som kan være greit å ha lest for alle deltagere i turneringen. Deretter beskrives det mer utfyllende om hvorfor og hvordan prediksjonsevne måles, om scoringsystemet som benyttes og det gis eksempler på ulike scores ved forskjellige prediksjoner, utfall og typer spørsmål.

Til slutt følger en påminnelse om hva prediksjonsevnen som måles her ikke kan si noe om.

Oppsummering

  • Her måles du ikke bare ut ifra om du treffer riktig (pekte du på det riktige utfallet?), men også hvor sikker du var i prediksjonen din (sa du 90 % eller 60 % sikkert?).
  • Alle deltagere må derfor oppgi hvor sannsynlig (i antall %) de tror hvert utfall er.
  • For å score best mulig må du oppgi høy sannsynlighet til de hendelsene som faktisk skjer, og lav sannsynlighet til de som ikke gjør det. Slik måles din evne til å forutsi konkrete utfall, uavhengig av hvor vanlig fenomenet er statistisk sett.
  • For å slå “den pilkastende apen”, som bare gjetter helt tilfeldig, må prediksjonene dine havne på “riktig side” av 50/50 %. Du må altså treffe bedre enn om du bare fordelte sannsynligheten likt på alle svaralternativer.
  • For å slå de andre deltagerne, må du oppgi en høyere sannsynlighet for det riktige svaret enn resten gjør. Du vil f.eks. fått en bedre score om du predikerte 90 % sannsynlighet for at Donald Trump ble USAs neste president enn en annen deltager som predikerte 70 %, selv om dere begge trodde han vant.
  • Du straffes hardt for å oppgi høye sannsynligheter til hendelser som ikke skjer. Estimater på 80 % og 90 % for hendelser som ikke skjer, staffes hardere enn gevinsten du oppnår ved å justere fra 80 % til 90 % sannsynlighet når du predikerer riktig.
  • På spørsmål der noen svaralternativer er “riktigere” enn andre, f.eks. om hvor mange mennesker som blir drept av terror i 2017, vil prediksjonene nærmest det riktige svaret vektes tyngre enn de lengst unna. Her premieres du for å komme “nært”.
  • Treffsikkerheten som måles her sier bare noe om din systematiske evne til å forutsi hendelser og utviklinger som kan være viktig i beslutninger om fremtidens forsvar – den sier ikke noe om ditt generelle kunnskapsnivå, din evne til å forklare hvorfor ting skjer eller utlede konsekvensene av en utvikling som du antar vil skje.

Beregning av prediksjonsevne i FFIs turnering

FFIs prediksjonsturnering baserer seg på en forenklet modell av måten prediksjonsevne er blitt målt i tidligere studier og måten det gjøres i dagens GJ Open-turnering.

Her følger en utdypende forklaring av hvordan prediksjonsevnen måles i akkurat denne turneringen. Innlegget består av seks kapitler som kan leses individuelt eller samlet:

Hva menes med prediksjonsevne?

Alle beslutninger som tas i forsvarsplanleggingen bygger på forskjellige estimater av sannsynligheten til ulike utviklinger i de forsvars- og sikkerhetspolitiske omgivelsene, f.eks. endringer i trusselnivået, teknologisk utvikling og de politiske forutsetningene.

Vanligvis beskrives slike utviklinger med ord som “mulig” og “trolig”, men slike språklige formuleringer kan bety alt fra 1 % til 60 % sannsynlig, avhengig av hvem som sier det og hvem det blir sagt til. For beslutningstagere, som må basere seg på slike språklige vurderinger, kan en så stor forskjell være avgjørende for hva de velger å gjøre.

For å undersøke hvor gode eller dårlige vi er til å forutsi fremtidige hendelser og utviklinger, må derfor prediksjonsevnen måles kvantitativt. Derfor blir alle deltagerne i turneringen bedt om å tallfeste sine sannsynlighetsvurderinger (i antall prosent).

Ofte baserer prediksjoner om fremtiden seg på hvor ofte noe vanligvis skjer. Værmeldigene varsler f.eks. at det er 90 % sannsynlighet for regn når tidligere erfaringer har vist at det har regnet 90 % av gangene hvor forholdene var like. Med forsvars- og sikkerhetspolitiske spørsmål er dette langt vanskeligere. Få hendelser er svært like, og selv like hendelser, som f.eks. valg, skjer ikke veldig ofte. Stortingsvalget i 2017 var f.eks. det 18. valget i Norge siden andre verdenskrig.

Andre typer hendelser, som terrorangrep, antall konflikter og andelen av BNP som brukes på forsvar, finnes det gode tall på utviklingen over tid, men det er også hendelser som i større grad enn været avhenger av hvilke tiltak vi velger å gjøre selv. Noen hendelser skjer også kanskje bare én gang. Viktigst av alt er at de underliggende premissene for forsvars- og sikkerhetspolitiske utviklinger kan endre seg langt mer enn naturlovene bak været.

Denne typen prediksjon, der vi baserer oss på hvor sannsynlig noe er statistisk sett, er derfor ikke det vi tenker på med god prediksjonsevne i forsvars- og sikkerhetspolitisk sammenheng. Det kan være et godt utgangspunkt, men de virkelig nyttige prediksjonene er de som kan fortelle oss at «dette vil skje» og «dette vil ikke skje», uavhengig av hvor ofte det skjer over tid og hvor stor usikkerheten opprinnelig var. Personer som systematisk og over tid klarer å forutsi denne typen utfall kan derfor sies å ha en systematisk bedre evne til å forutsi relevante utviklinger enn andre.

Derfor måles alle deltagerne ut fra hvor sikker de er på prediksjonene sine: Hvis noen sier at det er 70 % sjanse for at en hendelse vil skje, og hendelsen skjer, vil de score godt, men hvis noen andre sa at den samme hendelsen var 90 % sannsynlig, vil de gjøre det bedre. På den annen side vil de som sier at noe er 90 % sannsynlig, når det ikke skjer, straffes hardere enn de som sa at det var 70 % sannsynlig. Det er dette Brier score-systemet gjør.

Brier score

Brier score er basert på Glenn W. Briers studie fra 1950 for å måle treffsikkerheten til værmeldinger.[1] Brier score måler avstanden mellom det du predikerte og det som virkelig skjedde. Brier score er med andre ord et mål på hvor langt unna man er fra å predikere helt riktig.

Brier score-skalaen går fra 0 til 2, der lavere score betyr høyere treffsikkerhet. Du får en Brier score på 0 hvis du predikerer «helt riktig», dvs. at du mener at en hendelse er 100 % sannsynlig og den skjer. Du får en Brier score på 2 hvis du predikerer «helt feil», dvs. at du sier at en hendelse er 100 % sannsynlig, men den ikke skjer. Hvis du predikerer 50 % sannsynlighet, der du gir lik sannsynlighet til begge alternativene som den pilkastende apen, får du en Brier score på 0,5 uansett utfall. Figurene under illustrerer hvordan Brier scoren vil variere ved ulike estimater.

Hvis du ble bedt om å predikere sannsynligheten for at en hendelse skjer, og hendelsen skjedde, ville Brier scoren din blitt fordelt slik ved ulike sannsynlighetsestimater:

Hvis hendelsen derimot ikke skjedde, ville du fått følgende Brier scores ved samme estimater:

Som det fremgår av figurene, straffes du hardt for å havne på “feil side” av 50/50. Estimater på 80 % og 90 % for hendelser som ikke skjer, staffes svært hardt – og straffes hardere enn gevinstene du oppnår ved å justere fra 80 % til 90 % sannsynlighet når du predikerer riktig. Samtidig må du treffe bedre enn med 50 % for å være bedre enn tilfeldig gjetning (den pilkastende apen).

Beregning av Brier score ved ulike typer spørsmål

Under følger en beskrivelse av hvordan Brier scoren blir beregnet matematisk ved ja/nei-spørsmål og to ulike typer spørsmål med flere alternativer.

Ja/nei-spørsmål

Den enkleste utregningen av Brier score skjer ved et enkelt ja/nei-spørsmål. Her finnes det bare to mulige utfall. La oss si at du blir spurt om Putin vil stille til valg i Russland i 2018. Du anslår at det er 80 % sannsynlig at han vil det. Det betyr samtidig at du mener det er 20 % sannsynlig at han ikke vil det.

Brier score beregnes da på følgende måte:

  1. Sannsynlighetsberegningen deles på 100, slik at prediksjonen blir et tall mellom 0 og 1. Det vil si at prediksjonen for at Putin stiller til valg blir: 80/100 = 0,8, mens prediksjonen for at han ikke stiller til valg blir: 20/100 = 0,2.
  2. Deretter avgjøres det om hendelsen det ble spurt om har skjedd eller ikke skjedd. Hvis hendelsen skjedde, gis den verdien 1. Hvis den ikke skjedde, gis den verdien 0. La oss si Putin stilte til valg. Da får dette utfallet (at Putin stiller til valg) verdien 1, mens det gale utfallet (at Putin ikke stiller til valg) verdien 0.

Brier scoren beregnes ved å regne ut forskjellen mellom prediksjonene og disse utfallene (1 og 0), multiplisere disse forskjellene med seg selv, og legge dem sammen.

Gitt at Putin stilte til valg, ville du fått følgende Brier score:

Ja   Nei  
(0,8 – 1)2 + (0,2 – 0)2 =
0,04 + 0,04 = 0,08

Hvis Putin ikke stilte til valg, ville du med samme prediksjoner fått en langt høyere Brier score:

Ja   Nei  
(0,8 – 0)2 + (0,2 – 1)2 =
0,64 + 0,64 = 1,28

Legg merke til at prediksjonene er de samme (0,8 og 0,2), mens hendelseskodene (1 og 0) har byttet plass, fordi utfallet har endret seg fra «skjedde» (1) til «skjedde ikke» (0).

Spørsmål med flere alternativer, der rekkefølgen ikke betyr noe

Fremgangsmåten er den samme for kategoriske spørsmål med flere alternativer, men utregningen utvides for hvert alternativ som er med. La oss f.eks. si at du ble bedt om å predikere hvem av fem nominerte som ville vinne kategorien «rock» under Spellemannsprisen 2017.

Du velger å estimere sannsynligheten for de fem ulike alternativene slik:

Alternativer Sannsynlighetsvurdering
A: «Pineapple Pizza» – Death By Unga Bunga 40 %
B: «Vannmann86» – Hjerteslag 20 %
C: «Nattesferd» – Kvelertak 10 %
D: «Ført bak lyset» – Tusmørke 30 %
E: «The Gospel – Årabrot 0 %
Totalt 100 %

Hvis alternativ A var riktig (markert med rød farge), ville du derfor fått følgende Brier score:

 A   B   C   D   E  
(0,4 – 1)2 + (0,2 – 0)2 + (0,1 – 0)2 + (0,3 – 0)2 + (0 – 0)2 =
0,36 + 0,04 + 0,01 + 0,09 + 0,0 = 0,5

Hvis alternativ C var riktig, ville du fått følgende Brier score:

 A   B   C   D   E  
(0,4 – 0)2 + (0,2 – 0)2 + (0,1 – 1)2 + (0,3 – 0)2 + (0 – 0)2 =
0,16 + 0,04 + 0,81 + 0,09 + 0,0 = 1,1

Hvis alternativ E var riktig, ville du fått følgende Brier score:

 A   B   C   D   E  
(0,4 – 0)2 + (0,2 – 0)2 + (0,1 – 0)2 + (0,3 – 0)2 + (0 – 1)2 =
0,16 + 0,04 + 0,01 + 0,09 + 1 = 1,3

Selv om man i det siste eksempelet mente at det var 0 % sannsynlighet for det riktige alternativet og dermed tok «helt feil», får man likevel ikke 2 i Brier score (slik som på ja/nei-spørsmål) hvis de resterende prosentene fordeles på flere alternativer. Hvis man derimot satser alt (100 %) på ett alternativ som senere viser seg å være feil, vil man også i spørsmål med flere alternativer kunne få en Brier score på 2.

Til sammenligning vil den pilkastende apen, der sannsynligheten fordeles likt på alle alternativene, få følgende Brier score ved forskjellige antall alternativer:

  • Ved tre alternativer, der sannsynligheten for hvert alternativ er 33,3 %, vil apen få en Brier score på 0,6667.
  • Ved fire alternativer, der sannsynligheten for hvert alternativ er 25 %, vil Brier scoren bli 0,75.
  • Ved fem alternativer, der sannsynligheten for hvert alternativ er 20 %, vil apen få en Brier score på 0,8.
Spørsmål med flere alternativer, der noen svar er riktigere enn andre

Ordinale spørsmål har også flere svaralternativer, men her er noen alternativer  «riktigere» enn andre. Da vektes også prediksjonsevnen annerledes. La oss si at Ole og Per blir bedt om å predikere hvor mange som blir drept av islamistiske terror i Europa i 2017.

De får følgende alternativer, og estimerer sannsynligheten for hvert utfall slik:

Alternativer Ole Per
A: 0-49 drepte 25 % 0 %
B: 50-99 drepte 25 % 25 %
C: 100-149 drepte 40 % 30 %
D: 150-199 drepte 10 % 35 %
E: 200+ drepte 0 % 10 %
Totalt 100 % 100 %

La oss si 65 ble drept av islamistisk terror i 2017. Da var B det riktige svaralternativet. Som vi ser anslo begge det som 25 % sannsynlig at B var riktig, men Ole vektla de nærmeste alternativene A og C mer enn Per, som avfeide A som helt usannsynlig og la mer vekt på C og D.

Ved vanlig Brier-utregning ville Ole fått følgende score:

A (0-49)   B (50-99)   C (100-149)   D (150-199)   E (200+)  
(0,25 – 0)2 + (0,25 – 1)2 + (0,4 – 0)2 + (0,1 – 0)2 + (0 – 0)2 =
0,0625 + 0,5625 + 0,16 + 0,01 + 0 = 0,795

Ved vanlig Brier-utregning ville Per fått følgende score:

A   B   C   D   E  
(0 – 0)2 + (0,25 – 1)2 + (0,3 – 0)2 + (0,35 – 0)2 + (0,1 – 0)2 =
0 + 0,5625 + 0,09 + 0,1225 + 0,01 = 0,785

Her ser vi at begges Brier score blir omtrent 0,79, men Per får faktisk en lavere (og dermed bedre) Brier score enn Ole. Forklaringen er at Ole blir straffet mer for å ha bommet med et høyere anslag på 40 % på alternativ C enn det Per gjorde, som på det meste bommet med 35 % på D. Dette gir imidlertid et galt bilde av prediksjonsevnen siden Ole egentlig var nærmere det riktige svaret ved at han vektla A, B og C langt høyere enn Per, som la mest vekt på B, C, D og litt E. Brier scorene deres bør derfor reflektere denne relativt bedre prediksjonsevnen til Ole.

For å regne ut denne typen spørsmål benyttes samme fremgangsmåte som i GJ Open:

  1. Alle svaralternativene deles opp i par. I eksempelet over deles Ole og Per sine svaralternativer inn i fire par: A vs. BCDE, AB vs. CDE, ABC vs. DE og ABCD vs. E.
  2. Deretter beregnes Brier-scoren til hvert par på samme måte som ved et ja/nei-spørsmål, men hendelseskodingen for at det skjedde (1) vil alltid trekkes fra det paret som inneholder det riktige svaralternativet, i dette tilfellet det paret som inneholder alternativ B.For Ole vil alle parene utregnes slik:
A   BCDE  
(0,25 – 0)2 + ((0,25 + 0,4 + 0,1 + 0) – 1)2 =
0,0625 + 0,125 = 0,125
AB   CDE  
((0,25 + 0,25) – 1)2 + ((0,4 + 0,1 + 0) – 0)2 =
0,25 + 0,25 = 0,5
ABC   DE  
((0,25 + 0,25 + 0,4) – 1)2 + ((0,1 + 0) – 0)2 =
0,01 + 0,01 = 0,02
ABCD   E  
((0,25 + 0,25 + 0,4 + 0,1) – 1)2 + (0 – 0)2 =
0 + 0 = 0
  1. Til slutt regnes gjennomsnittet av alle fire parene.For Ole blir dette regnestykket som følger:
A vs. BCDE   AB vs. CDE   ABC vs. DE   ABCD vs. E  
0,125 + 0,5 + 0,02 + 0 = 0,645/4
        = 0,16125

Med denne vektede fremgangsmåten får Ole en Brier score på 0,16125. Den samme fremgangsmåten må gjøres for alle deltagerne. For Per blir utregningen som følger:

A   BCDE  
(0 – 0)2 + ((0,25 + 0,3 + 0,35 + 0,1) – 1)2 =
0 + 0 = 0
AB   CDE  
((0 + 0,25) – 1)2 + ((0,3 + 0,35 + 0,1) – 0)2 =
0,5265 + 0,5265 = 1,125
ABC   DE  
((0 + 0,25 + 0,3) – 1)2 + ((0,35 + 0,1) – 0)2 =
0,2025 + 0,2025 = 0,405
ABCD   E  
((0 + 0,25 + 0,3 + 0,35) – 1)2 + (0,1 – 0)2 =
0,01 + 0,01 = 0,02
A vs. BCDE   AB vs. CDE   ABC vs. DE   ABCD vs. E  
0 + 1,125 + 0,405 + 0,02 = 1,55 /4
        = 0,3875

Nå viser det seg at Per får en vektet Brier score på 0,3875, og dermed et dårligere resultat enn Ole, som fikk 0,16125 med samme utregningsmåte. Denne vektede fremgangsmåten er den samme uavhengig av hvor mange flere alternativer enn to spørsmålet har. Til sammenligning vil den pilkastende apen få en Brier score 0,3 på akkurat dette spørsmålet, der det er fem alternativer, sannsynligheten for hvert alternativ estimeres til 20 % og det riktige svaret er B.

Median og Accuracy score

En deltagers gjennomsnittlige Brier score gjennom turneringen gir en indikasjon på hvor gode eller dårlige han eller hun er til å predikere generelt. Samtidig vil denne scoren kunne variere mye fra spørsmål til spørsmål, fordi usikkerheten ved spørsmålene kan være svært ulik. For å kunne kontrollere denne variasjonen og for å kunne sammenligne prediksjonsevnen til deltagere over tid og flere spørsmål, beregnes det også to andre mål:

  • Median score er medianen til alle deltagernes Brier score på et spørsmål. Median score er et nødvendig steg for å regne ut Accuracy score.
  • Accuracy score er et mål på prediksjonsevne i forhold til resten av deltagerne. Det er altså et mål på prediksjonsevne som ikke avhenger av usikkerheten ved spørsmålet som predikeres, men av andres prediksjonsevne.

Accuracy score beregnes ved å trekke Median score fra Brier score på det aktuelle spørsmålet:

Accuracy score = Brier score - Median score

Med denne formelen betyr en negativ Accuracy score at deltageren er bedre til å predikere enn halvparten av deltagerne. En positiv Accuracy score vil si at deltageren var dårligere enn halvparten. Hvor mye Accuracy scoren strekker seg fra 0 sier noe om hvor mye bedre eller dårligere deltageren var sammenlignet med resten av gruppen.

Denne Accuracy scoren brukes til å beregne sammenlagte resultater av de beste deltagerne på et bestemt spørsmål, både for turneringen som helhet eller innenfor visse fagfelt. F.eks. vil summen av alle Accuracy scorene identifisere de deltagerne som er best til å predikere gjennom hele turneringen. For å oppnå en best mulig (mest negativ) Accuracy score lønner det seg å predikere mange spørsmål hvis man samtidig predikerer bedre enn resten. For å undersøke gruppers relative prediksjonsevne kan man bruke snittet av Accuracy score, f.eks. ved å sammenligne snittet til kvinner og menn eller til ansatte i FD og FFI.

Eksempel: En miniturnering

For å illustrere hvordan prediksjonsevne måles ved hjelp av disse tre målene (Brier, Median og Accuracy score), følger det her et eksempel på utregninger i forbindelse med en turneringen med fire deltagere og ett spørsmål av hver av de tre typene beskrevet over.

Ja/nei-spørsmål: Norske F-16 fly i Syria
Spørsmål Vil norske F-16-fly bli involvert i militære operasjoner i Syria innen utgangen av 2018?
Spørsmålstype Binomisk (ja/nei)
Instruksjoner Dette inkluderer alle typer militære operasjoner, som ikke er trening, med eller uten bruk av våpen, inkl. alt fra tilstedeværelse til angrep
Svaralternativer Ja, nei

La oss si at norske fly ikke blir involvert i militære operasjoner i Syria innen utgangen av 2018. Følgende personer hadde svarte på spørsmålet og oppgitt disse sannsynlighetsvurderingene:

Deltagere Ja Nei Brier score Median score Accuracy score
Ole 10 % 90 % 0,02 0,0125 0,0075
Per 25 % 75 % 0,125 0,0125 0,1125
Ingrid 2 % 98 % 0,0008 0,0125 –0,0117
Stine 5 % 95 % 0,005 0,0125 –0,0075

Her er det Ingrid som treffer best med sitt anslag på 2 % og får en Brier score på 0,0008. Deretter følger Stine og Ole med 0,005 og 0,02 Brier score for sine anslag på hhv. 5 % og 10 %. Per får imidlertid en langt høyere Brier score på 0,125 og kommer klart dårligst ut. Dette reflekteres også i Accuracy scoren hans, som er 0,105 dårligere enn nest siste plass, mens forskjellen mellom tredje og førsteplass til sammenligning bare er på 0,0192 (mellom 0,0075 og –0,0117).

Flervalgsspørsmål, der rekkefølgen ikke betyr noe: Spellemannsprisen 2017
Spørsmål Hvem vil vinne kategorien «rock» under Spellemannsprisen 2017?
Spørsmålstype Kategorisk, der alle gale alternativer er like feil
Instruksjoner Vinneren publiseres 28. januar 2017
Svaralternativer A: «Pineapple Pizza» – Death By Unga Bunga

B: «Vannmann86» – Hjerteslag

C: «Nattesferd» – Kvelertak

D: «Ført bak lyset» – Tusmørke

E: The Gospel» – Årabrot

28. januar 2017 ble det annonsert at vinneren var C: «Nattesferd» – Kvelertak. Følgende personer hadde svarte på spørsmålet og oppgitt disse sannsynlighetsvurderingene:

Deltagere A B C D E Brier score Median score Accuracy score
Ole 60 % 20 % 10 % 5 % 5 % 1,215 0,94 0,275
Per 40 % 30 % 10 % 10 % 10 % 1,08 0,94 0,14
Ingrid 35% 5 % 50 % 0 % 10 % 0,385 0,94 –0,555
Stine 20 % 20 % 20 % 20 % 20 % 0,8 0,94 –0,14

Her er det Ingrid som gjør det klart best med en Brier score på 0,385 og en Accuracy score som er 0,415 bedre enn nestemann. Det er en like stor forskjell (0,415) som mellom andre og fjerde.

Flervalgsspørsmål, der noen svar er riktigere enn andre: Trumps oppslutning
Spørsmål Hvor stor andel vil mene at Trump gjør en god jobb 28. april 2017?
Spørsmålstype Ordinal, der noen gale alternativer er riktigere enn andre
Instruksjoner Basert på Gallups daglige målinger
Svaralternativer A: Under 35 %, B: 35–39 %, C: 40–44 %, D: 45 % eller over

28. april 2017 var det 43 % som mente Trump gjorde en god jobb. Dermed ble riktig svaralternativ C. Følgende personer hadde svarte på spørsmålet og gitt disse sannsynlighetsvurderingene:

Deltagere A: Under 35 % B: 35–
39 %
C: 40–44 % D: 45 % eller over Brier score Median score Accuracy score
Ole 25 % 25 % 25 % 25 % 0,25 0,215 0,035
Per 40 % 30 % 30 % 0 % 0,433 0,215 0,2183
Ingrid 0 % 30 % 30 % 40 % 0,167 0,215 –0,0483
Stine 10 % 40 % 40 % 10 % 0,18 0,215 –0,035

Som vi ser er det Ingrid og Stine som får best Brier og Accuracy scorer. Ingrid får noe bedre score enn Stine, til tross for at Stine veide alternativ C tyngst, fordi Ingrid også vektla alternativene rundt (B og D) mer enn Stine. Ole, som gav alle svaralternativene lik sannsynlighet, gjorde det bedre enn Per, som til tross for at også han anslo sannsynligheten for C for å være 30 %, vektla de lavere alternativene enda mer til sammen og avslo D som helt umulig.

Sammenlagte resultater

Til slutt kan deltagernes relative prediksjonsevne rangeres etter deres samlede Accuracy score og deres objektive evne til å predikere disse tre spørsmålene beregnes basert på deres gjennomsnittlige Brier score.

Rangering Deltagere Samlet Accuracy score Gj.snitt Brier score
1. Ingrid –0,615 0,1843
2. Stine –0,1825 0,3283
3. Ole 0,3175 0,495
4. Per 0,4708 0,546

Ingrid skiller seg her ut som den som har klart beste prognosemakeren på disse tre spørsmålene. Hennes Accuracy score er langt bedre enn resten. Det samme reflekteres i den gjennomsnittlige Brier scoren, der Ole og Per er omtrent like gode til å predikere disse spørsmålene som om de hadde gitt lik sannsynlighet til alle svaralternativene (Brier score på 0,5). Til sammenligning ville snittet av Brier scoren til den pilkastende apen, som fordeler lik sannsynlighet til alle alternativene, på akkurat disse tre spørsmålene gi en gjennomsnittlig Brier score på 0,5167 ((0,5+0,8+0,25)/3).

Hva er det prediksjonsevne ikke kan si noe om?

Prediksjonsevnen, slik den måles i denne turneringen, måler bare evnen til å forutsi akkurat de forsvars- og sikkerhetspolitiske spørsmålene som er med i turneringen. For å kunne inkluderes i turneringen må spørsmålene være falsifiserbare, dvs. mulig å kunne slå fast hvilket utfall som skjedde. Dette begrenser naturligvis utvalget til spørsmål som kan konkretiseres og måles på en måte hvor det er lite eller ikke noe rom for tolkning.

Prediksjonsevnen er heller ikke et mål på generelt kunnskapsnivå. Det går også an å predikere godt, uten å kunne forklare hvorfor det skjedde, selv om et høyere kunnskapsnivå om internasjonal politikk korrelerte med høyere prediksjonsevne i P. E. Tetlocks studie.[2] En fulltreffer av en prediksjon sier heller ingenting om implikasjonene den samme utviklingen kan få, f.eks. hvordan Russland kan endre seg om Putin blir gjenvalgt i 2018.

Prediksjonsevnen som måles her er altså ikke et mål på andre vurderingsevner som også kan være minst like verdifulle i forsvars- og sikkerhetspolitisk sammenheng. Spesielt gjelder dette evnen til å vurdere konsekvensene av en utvikling gitt en bestemt utvikling eller evnen til å identifisere hendelser som ingen andre kommer på å spørre om, men som kan få store konsekvenser hvis de skulle skje. Evnen til å stille de gode spørsmålene og evnen til å forutsi dem, er ikke den samme.

Samtidig har kunnskap om et fagfelt, en aktør eller region begrenset nytte­verdi som støtte til beslutninger om fremtidens forsvar, hvis ikke denne kunnskapen kan anvendes til å si noe om hva som vil skje i fremtiden. Det er her en systematisk og målbar evne til å kunne pre­dikere relevante hendelser med høy presisjon kan være av potensielt stor verdi. Det å vite hva vi er gode på og ikke, hvem og hvilke personer og grupper som er bedre enn andre til akkurat dette, er et bedre utgangspunkt enn ikke å vite svaret på disse spørsmålene.

Brier systemet har også sine begrensninger. Det er ifølge Tetlock et «work in progress».[3] Den største svakheten er at det ikke skilles mellom betydningen av false alarms, der man hevder at noe vil skje, men det ikke gjør det, og misses, der man hevder at noe ikke vil skje, men så gjør det det likevel.[4] Det kan f.eks. være farligere å ikke forutsi et militært anslag eller terroristangrep som faktisk skjer (miss), enn det er å hevde at det vil skje, uten at det gjør det (false alarm).

De mest alvorlige militære angrepene mot Norge handler imidlertid om hendelser som i utgangspunktet er svært usannsynlige, der det er viktigere er å analysere konsekvensene og hvilke forsvarsstrukturer som vil kunne håndtere ulike former for angrep ved hjelp av scenarier i stedet. Scenarier bygger ofte på en rekke premisser i den forsvars- og sikkerhetspolitiske omverdenen, som utsiktene til alliert støtte, hva angriperen ønsker å oppnå og hvilken evne aktører vil ha på sikt. Det er her økt treffsikkerhet i prediksjonene av forsvars- og sikkerhetspolitiske betingelser kan være nyttig. Selv med sine svakheter er Brier systemet også et forskningsbasert supplement til måtene eksperter, forskere og offiserer blir målt og valgt ut til utredninger på i dag – antall publikasjoner, grad av selvtillit, evne til å fortelle en god historie, antall bøker solgt og siteringer i media.[5]

Fotnoter

[1] Brier, Glenn W. (1950), ‘Verification of Forecasts Expressed in Terms of Probability’, Monthly Weather Review, Vol. 78, No. 1.

[2] Se kapittel 9 og ss. 107–110 i Tetlock og Gardner (2015), Superforecasting. For en oversikt over egenskapene som betyr mest for prediksjonsevnen, se Mellersm.fl.(2015), ‘The Psychology of Intelligence Analysis: Drivers of Prediction Accuracy in World Politics’.

[3] Tetlock og Gardner (2015), Superforecasting, s. 261. For mer om måling av prediksjonsevne, se kapittel 12.

[4] For mer om dette, se også Tetlock (2005), Expert Political Judgment, s. 11–12 og Technical Appendix.

[5] Tetlock og Gardner (2015), Superforecasting, s. 261.

17 kommentarer om “Hvordan måles prediksjonsevnen?

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.