Foreløpige funn og sammenlagte vinnere (2017-2020)

De endelige resultatene fra turneringen er nå klare. Til sammen er det avgjort 150 spørsmål fra 2017 til 2020. I denne perioden er det samlet inn rundt 300,000 prediksjoner fra 1354 deltagere.

Her presenteres foreløpige observasjoner fra turneringsresultatene og alle de sammenlagte vinnerne innenfor alle kategorier.

  • I gjennomsnitt traff deltagerne omtrent akkurat like presist som tilfeldig gjetning. Snittet skjuler imidlertid betydelige variasjoner i treffsikkerheten blant deltagerne, og at flertallet traff bedre enn Apen på to tredeler av spørsmålene.
  • Forskere, eksperter i media og den eldste aldersgruppen traff i snitt best. Ellers var det små forskjeller mellom kjønn og øvrige aldersgrupper, men høyere utdanningsnivå ser ut til å henge sammen med bedre treffsikkerhet.
  • Deltagerne traff best på spørsmål om terrorisme og det norske forsvaret, og dårligst på spørsmål om Øst-Asia, norsk utenrikspolitikk og Russland/nordområdene.
  • Deltagerne traff best på de mest kortsiktige spørsmålene (0-99 dager). På spørsmålene som så lenger enn dette, var forskjellene relativt små.
  • Det var systematiske individuelle forskjeller i hvor godt deltagerne klarer å predikere, og denne evnen holdt seg overraskende stabil gjennom hele turneringen. Det synes også å være mulig å identifisere deltagere som treffer bedre enn andre basert på relativt få spørsmål.
  • Beste deltager i hele turneringen ble Simen E Rustad (med stor margin), etterfulgt av Atle Onar Knapskog og Halvor Kippe. I tillegg ble det kåret en rekke andre individuelle vinnere, som beste lekmann, offiser og ekspert.
  • Beste forsvars- og fagmiljø ble deltagerne fra Norges teknisk-naturvitenskapelige universitet (NTNU), etterfulgt av Forsvarets forskningsinstitutt (FFI) og Forsvarsdepartementet.

Alle som har svart på minst ett spørsmål, har fått en mail med individuelle resultater, inkludert beste og verste plassering, hvor ofte de var blant de beste, og hva plasseringen deres ville vært dersom treffsikkerheten hadde blitt målt på en annen måte.

Om spørsmålene og deltagerne i perioden
  
Antall spørsmål150
Antall prediksjoner295557
Antall deltagere1353
Andel kjønnMenn: 85.7%, Kvinner: 14.2%
Gjennomsnittsalder42.57 år
Andel med forsvars- og sikkerhetspolitisk erfaring30.6%
Interesse for forsvars- og sikkerhetspolitikk (snitt)5 - ganske stor
Tro på egen prediksjonsevne (snitt)4 - litt god

Av de 1353 deltagere som besvarte minst ett spørsmål i løpet av turneringens tre år, var det 834 som svarte på minst 20 % (30) av spørsmålene som har blitt avgjort så langt. Dette var også minstekravet for å få en sammenlagt plassering og for å kunne konkurrere om vinnertitlene.

Resultater

Resultatene beregnes ved hjelp av to ulike mål – Brier-score og Accuracy-score – der det alltid er om å gjøre å få lavest mulig score. Jo lavere, jo bedre!

Hvordan måles Brier og Accuracy score?
  • Brier score er et objektivt mål på hvor langt unna du er fra å predikere riktig. Brier score måles på en skala fra 0 til 2, der lavere score er bedre. Hvis du predikerer «helt riktig», ved å anslå 100 % sannsynlighet for noe som skjer, får du en score på 0. Hvis du predikerer «helt feil», ved å anslå 100 % sannsynlighet for noe som ikke skjer, får du en score på 2. Hvis du bare gjetter på et ja/nei-spørsmål (50 % på begge alternativene), får du en Brier score på 0,5.
  • Accuracy score er et relativt mål på hvor god du er til å predikere sammenlignet med andre som svarte på samme spørsmål. Dette beregnes ved å trekke medianen av alle Brier scorene på et spørsmål fra din Brier score. Det betyr at hvis du får en negativ Accuracy score (under 0), predikerte du bedre enn halvparten av alle deltagerne. Til forskjell fra Brier score justerer Accuracy score derfor også for ulike vanskelighetsgrader på spørsmålene.
  • Når treffsikkerheten til ulike grupper deltagere eller forsvars- og fagmiljøer skal sammenlignes, beregnes det en gjennomsnittlig Accuracy score for alle deltagerne i hver kategori, f.eks. snittet av Accuracy scoren til alle kvinner og menn. Det betyr at hver gruppes Accuracy score er snittet av hvor godt alle deltagerne traff sammenlignet med alle andre deltagere på det aktuelle spørsmålet.
  • Du kan lese mer om hvordan prediksjonsevnen beregnes her.
Hvor godt traff deltagerne sammenlignet med tilfeldig gjetning?

For å kunne si noe om hvor godt eller dårlig en treffer, er det i studier av treffsikkerhet vanlig å sammenligne resultatene med enkle tilnærminger enn gjerne forventer å slå. Her sammenlignes derfor den gjennomsnittlige Brier-scoren til alle deltagerne med den Brien scoren en ville fått, dersom en bare “gjettet”. Tilfeldig gjetning er i alle figurene representert ved “Apen” (grønn), som er en algoritme der alle svaralternativer tildeles lik sannsynlighet. Røde søyler betyr at deltagerne traff dårligere enn Apen, mens blå søyler betyr bedre enn Apen. Husk at lavere score er bedre.

Deltagerne vs Apen

Hvor godt deltagerne traff sammenlignet med Apen, avhenger av hvordan treffsikkerheten måles. Basert på snittet av hver enkelt deltagers gjennomsnittlige Brier-score, traff deltagerne litt dårligere enn Apen (se figur over). Deltagerne fikk en gjennomsnittlig Brier-score på 0,528, sammenlignet med Apens på 0,513. Dette tilsvarer omtrent å svare 50/50 % på alle ja/nei-spørsmål eller 33 % på alle alternativer på spørsmål med tre svar.

Samtidig var det store individuelle forskjeller blant deltagerne. Figuren under viser den fordelingen av deltagernes gjennomsnittlige Brier-score etter plasseringen de kom på i turneringen, sammenlignet med Apen. NB! Her inkluderes bare de 834 deltagerne som oppfylte minstekravet og dermed ble rangert. Brier-snittet deres er imidlertid svært likt (0,518) snittet til alle deltagerne, og fortsatt dårligere enn Apens.

Deltagernes gjennomsnittlige Brier score fordelt på sammenlagt rangering, og sammenlignet med Apen.

Som figuren over viser, var det noen deltagere som traff betydelig bedre enn andre (helt til venstre), men også noen deltagere som traff mye dårligere enn resten (helt til høyre). Basert på hver enkelt deltagers gjennomsnittlige Brier-score, var det et lite flertall av deltagerne (54 %) som traff bedre enn Apen, som er havnet på 448. plass. Dette betyr altså at det var noen deltagere som trakk det samlede snittet ned. Omtrent den samme fordelingen (53 % av deltagerne bedre) gjelder også hvis treffsikkerheten baseres på gjennomsnittlig Accuracy-score, der det også tas hensyn til at deltagerne kunne velge hvilke spørsmål de svarte på og at spørsmålene kunne variere i vanskelighetsgrad. Med dette målet på treffsikkerhet ville Apen ha havnet på 438. plass.

Ved sum Accuracy-score, som var den måten sammenlagt treffsikkerhet og plassering ble beregnet på i turneringen, fikk derimot 77 % av deltagerne fått en bedre plassering enn Apen. Hvis Apen hadde deltatt i turneringen, ville han altså ha havnet på 644. plass. Uten at dette er undersøkt nærmere, kan en mulig forklaring være at Apen traff dårligere enn flertallet av deltagerne på de fleste spørsmål (66 %), som gav en høy kumulativ score. Apen traff imidlertid veldig godt på de spørsmålene deltagerne bommet mye på, slik at snittet ble jevnet ut, selv om treffprosenten var dårligere.

Var det noen temaer deltagerne traff bedre eller dårligere på enn andre?

I turneringen ble det stilt om svært forskjellige temaer, der noen kan tenkes å være vanskeligere å forutsi enn andre. Figuren under viser derfor den gjennomsnittlige Brier-scoren til alle deltagerne på spørsmål innenfor ulike temaer, aktører og regioner. For å ta høyde for at noen spørsmål hadde flere svaralternativer, og dermed gjorde det vanskeligere å få en god Brier-score, er deltagernes score også sammenlignet med Apens innenfor hver kategori.

Deltagernes gjennomsnittlige Brier score fordelt på ulike spørsmålskategorier, og sammenlignet med Apen.

Som figuren viser traff deltagerne og Apen best på omtrent like mange spørsmålskategorier, men forskjellene var ofte svært små. Deltagerne traff best på spørsmål om terrorisme og det norske forsvaret, både objektivt sett og sammenlignet med Apen. Deltagerne traff derimot dårligst på spørsmål om Øst-Asia, norsk utenrikspolitikk og Russland/nordområdene, men forskjellen mellom deltagerne og Apen var klart størst på spørsmålene om Øst-Asia.

Var det noen tidsperspektiver deltagerne traff bedre eller dårligere på enn andre?

I turneringen ble det også stilt spørsmål med ulike tidsperspektiver. Figuren under viser hvor godt deltagerne traff, basert på gjennomsnittlig Brier-score på spørsmål med hundre dagers intervaller.

Deltagernes gjennomsnittlige Brier score fordelt på ulike spørsmålskategorier, og sammenlignet med Apen.

Deltagerne traff bedre enn Apen på de mest kortsiktige spørsmålene (0-99 dager). På spørsmålene som så lenger enn dette, ser imidlertid forskjellen ut til å være relativt liten – og ikke endre seg nevneverdig jo lenger fremover spørsmålene så. Med unntak av én av kategoriene (300-399 dager) har imidlertid hver intervall relativt få spørsmål hver.

Hvor godt traff ulike grupper deltagere?

Under vises de sammenlagte grupperesultatene for hele turneringen:

Den gjennomsnittlige Accuracy scoren til alle deltagergrupper, og sammenlignet med Apen.

Av alle deltagergruppene var det forskere, eksperter i media og deltagere på 70 år eller over som traff i snitt best. Denne eldste aldersgruppen bestod imidlertid av et mye lavere antall deltagere enn de to andre gruppene.

Ellers var det generelt liten forskjell mellom kjønn og resterende aldersgrupper, men høyere utdanningsnivå ser ut til å henge sammen med bedre treffsikkerhet. Forskjellen mellom de to høyeste utdanningsnivåene ser ut til å være mindre enn forskjellen ned til gruppene med lavere utdanningsnivå.

I snitt traff imidlertid de fleste deltagergruppene dårligere enn Apen, som fordelte sannsynligheten likt på alle svaralternativer på alle spørsmål. Deltagergruppene som traff dårligst var befal (OR5-OR9) og deltagerne med bare videregående/gymnas som høyeste utdanningsnivå.

Er det noen deltagere som er systematisk bedre enn andre?

Et sentralt funn fra en amerikansk turnering var systematiske forskjeller i hvor godt individer klarte å predikere, og at denne treffsikkerheten viste seg å være overraskende stabil over tid.

For å etterprøve dette funnet, har vi i figuren under delt deltagerne inn i to grupper: de 100 beste og 100 dårligste deltagerne, basert på den gjennomsnittlige, standardiserte Brier-scoren deres på de 25 første spørsmålene som ble avgjort. (Standardisert Brier-score er en annen måte å måle deltagernes relative treffsikkerhet på, slik som Accuracy-score.) For å se om deres relativt bedre treffsikkerhet holdt seg over tid, viser figuren de 100 beste og dårligste deltagernes gj.snittlige score på de neste 125 spørsmålene som ble avgjort i FFIs turnering.

Individuelle variasjoner i treffsikkerhet over tid

Figuren viser at deltagerne som i utgangspunktet var blant de 100 beste etter 25 spørsmål, fortsatte å treffe bedre på nesten alle de neste spørsmålene i turneringen. Dette tilsier at den relative treffsikkerheten til deltagerne holdt seg stabil over tid også i FFIs turnering, og synes således å bekrefte påstanden om at treffsikkerhet er en “evne”. Det betyr også at det synes å være mulig å identifisere deltagere som treffer bedre enn andre basert på relativt få spørsmål.

NB! Alle funne beskrevet over basert på første, overordnede observasjoner av resultatene så langt. Det tas derfor forbehold om at disse funnene kan endre seg etter hvert som disse kvalitetsikres og de siste 90 spørsmålene avgjøres i årene fremover.

Individuelle vinnerkategorier

Her listes alle individuelle vinnere innenfor hver kategori. Dersom en deltager har vunnet flere kategorier, utgår de andre kategoriene som han eller hun også har vunnet. I denne perioden utgikk Beste fagperson, Beste forsvarsforsker og Beste selvsikre amatør. Kriteriene for hver vinnerkategori kan du lese her. Alle individuelle vinnere får tilsendt et krus i premie!

Alle individuelle vinnere er basert på summen av deltagernes Accuracy-score. Her er det om å gjøre å få lavest mulig score. Jo mer negativ, jo bedre. Les mer om hvordan scorene beregnes her.

Beste deltager

Denne tittelen går til den beste av alle 834 deltagerne som oppfylte minstekravet om å ha svart på minst 20 % av spørsmålene. Vinneren ble:

  • Simen E Rustad. Han fikk en sammenlagt score på -13,538, etterfulgt av Atle Onar Knapskog på 2. plass med -8,580 og Halvor Kippe på 3. plass med -7,900.
Beste lekmann

Denne tittelen går til den beste av alle deltagere som har oppgitt at de ikke har forsvars- og sikkerhetspolitisk arbeidserfaring. Antallet deltagere innenfor denne kategorien var 558. Vinneren ble:

  • Atle Onar Knapskog. Av alle deltagerne kom han på 2. plass.
Beste offiser

Denne tittelen går til den beste deltageren som er offiser (OF1-OF9). Antallet deltagere innenfor denne kategorien var 170. Vinneren ble:

  • Anonym.
Beste befal

Denne tittelen går til den beste deltageren som er befal (OR5-OR9). Antallet deltagere innenfor denne kategorien var 29. Vinneren ble:

  • Seinar S Baar.
Beste ekspert

Denne tittelen går til den beste deltageren som har oppgitt at de har forsvars- og sikkerhetspolitisk arbeidserfaring, at de har blitt intervjuet av media som “ekspert” og hvis navn gir minst ett faglig treff i mediearkivet ATEKST. Antallet deltagere innenfor denne kategorien var 69. Vinneren ble:

  • Halvor Kippe. Han er forsker ved FFI og blir ofte interjvuet i media om atomvåpenprogrammene i Iran og Nord-Korea. Av alle deltagerne kom han på 3. plass.
Beste kvinne

Denne tittelen går til den beste kvinnen i turneringen. Denne kåres for å oppmuntre til flere kvinnelige deltagere, som var svært underrepresentert. Antallet deltagere innenfor denne kategorien var 91. Vinneren ble:

  • Mari Helene Farstad. Av alle deltagerne kom hun på 17. plass.
Beste ydmyke amatør

Denne tittelen går til den beste deltageren uten forsvars- og sikkerhetspolitisk arbeidserfaring og som har oppgitt at de har en svært, ganske eller litt dårlig evne til å forutsi forsvars- og sikkerhetspolitiske spørsmål. Antallet deltagere innenfor denne kategorien var 95. Vinneren ble:

  • Frode Sandvin Folkedal. Av alle deltagere kom han på 5. plass.
Beste beskjedne amatør

Denne tittelen går til den beste deltageren uten forsvars- og sikkerhetspolitisk arbeidserfaring og som har svart at de har en hverken dårlig eller god evne til å forutsi forsvars- og sikkerhetspolitiske spørsmål. Antallet deltagere innenfor denne kategorien var 284. Vinneren ble:

  • Svein Nyseter. Av alle deltagere kom han på 12. plass.
Topp 20 deltagere

Her kan du se alle deltagerne blant de 20 beste gjennom hele turneringen.

NavnScore
1Simen E Rustad-13.538
2Atle Onar Knapskog-8.5799
3Halvor Kippe-7.9001
4Espen Amundsen-7.7806
5Frode Sandvin Folkedal-7.331
6Tormod Ryeng-6.7526
7Jon Kåre Hellan-6.1372
8Anonym-6.0332
9Simen Medhus-5.6344
10Kjetil Waggestad-5.6057
11Eirik Torsvoll-5.5777
12Svein Nyseter-5.4637
13Arne Cato Jenssen-5.2718
14Erik Thomassen-5.1692
15Håvard Stien-4.7043
16Øystein Hellesøe Brekke-4.5349
17Mari Helene Farstad-4.0888
18Per B. Lilje-3.7162
19Ola Krogh Halvorsen-3.6711
20Paal Wangsness-3.1097
Beste forsvars- og fagmiljø

I tillegg til individuelle vinnere kåres det én vinner innenfor kategorien “Beste forsvars- og fagmiljø”, som får en egen pokal. Denne går til miljøet med den beste gjennomsnittlige Accuracy-scoren. Her vektes deltagernes Accuracy-scores like mye, uavhengig av hvor mange spørsmål hver enkelt har svart på. Det forutsettes imidlertid at miljøet har minst 10 deltagere som hver for seg har svart på minst 20 % av spørsmålene. N = antallet deltagere i miljøet som oppfyller minstekravet.

1. plassen og vinneren ble:

  • Norges teknisk-naturvitenskapelige universitet (NTNU) (n=10), som fikk en score på 0,085.

På 2. og 3. plass kom:

  • Forsvarets forskningsinstitutt (n=133), som fikk en score på 0,089.
  • Forsvarsdepartementet (n=13), som fikk en score på 0,111.

Det var imidlertid firemiljøer som fikk en bedre score enn alle disse, men som ikke vant, fordi de ikke oppfylte kravet til antallet aktive nok deltagere. Disse var:

  1. Universitetet i Oslo (n=9), som fikk en score på 0,070.
  2. Utenriksdepartementet (n=7), som fikk en score på 0,076.
  3. Etterretningstjenesten (n=8), som fikk en score på 0,079.
  4. Universitetet i Tromsø (n=6), som fikk en score på 0,084.

Alle disse miljøene hadde egentlig flere enn 10 deltagere som deltok, men ikke mange nok som svarte på minst 20 % av de avgjørte spørsmålene.

Hvilke spørsmål er kåringene basert på?

Alle 150 spørsmålene som var avgjort innen 14. januar 2021 er inkludert i datagrunnlaget som resultatene her er basert på. Spørsmål som ikke kunne avgjøres helt sikkert innen denne datoen (f.eks. på grunn av manglende informasjon), er ikke med. Her kan du se alle spørsmålene som ble stilt, med lenker til svarene på alle de som ble avgjort i løpet av turneringen.

Veien videre

Selve konkurransen er nå avsluttet. Det blir ikke sendt ut nye spørsmål. Det gjenstår 90 spørsmål som skal avgjøres de neste årene. Disse vil inngå i det endelige datagrunnlaget som skal analyseres videre. Deltagere som ønsker svar på disse spørsmålene, må oppgi dette i undersøkelsen som ble sendt ut i januar 2021.

I den videre forskningen vil vi se nærmere hva som kjennetegner de som treffer bedre enn andre og hva som kan forklare hvorfor de gjør det. Hvis du som deltager har gjort deg noen refleksjoner rundt dette eller har spørsmål om turneringen, send dem gjerne til alexander.beadle@ffi.no.

Tusen takk til alle som deltok i turneringen!