Resultater fra testrunden

Før sommeren ble det gjennomført en testrunde av FFIs prediksjonsturnering. Testrunden bestod av tre runder med fem spørsmål som ble sendt ut i perioden 12.-16. juni 2017. Deltagerne var i hovedsak forskere ved Avdeling analyse ved FFI, samt noen eksterne fra andre miljøer i og utenfor forsvarssektoren. Her kan du lese mer om spørsmålene og resultatene fra denne testrunden.

Om testrunden
Antall spørsmål15
Antall prediksjoner391
Antall deltagere40
Andel kjønnMenn: 82.5%, Kvinner: 17.5%
Gjennomsnittsalder40.8 år
Andel med forsvars- og sikkerhetspolitisk erfaring92.5%
Interesse for forsvars- og sikkerhetspolitikk (snitt)6 - svært stor
Tro på egen prediksjonsevne (snitt)4 - hverken dårlig eller god

NB! Alle resultatene her er basert på et begrenset datagrunnlag i forbindelse med en testrunde, der alle deltagerne var klar over at resultatene ikke vil telle. Det er derfor ikke grunn til å tro at disse resultatene er representative. Resultatene fra testrunden kan imidlertid illustrere hvilke hypoteser som kan utforskes når turneringen begynner.

Spørsmålene

Alle spørsmålene i testrunden var representative for den typen spørsmål som vil være med i den virkelige turneringen, men tidsperspektivene var kunstig korte (dager og uker i stedet for måneder og år). Dette var nødvendig for å kunne avgjøre spørsmålene og teste beregningen av resultater.

Her er noen av spørsmålene deltagerne ble bedt om å predikere:

  • Hvor stor andel av den amerikanske befolkningen vil mene at Trump gjør en god jobb den 23. juni 2017?
  • Hva vil spotprisen på et fat Brent Blend råolje være fredag 23. juni 2017?
  • Vil Nord-Korea gjennomføre en atomvåpenprøvesprengning før 25. juni 2017?
  • Vil IS bekrefte at lederen deres, Abu Bakr al-Baghdadi, er død før 25. juni 2017?
  • Vil én eller flere norske styrker miste livet som følge av kamphandlinger i internasjonale operasjoner før 24. juni 2017?
  • Vil Donald Trump annonsere at han trekker seg som president før 26. juni 2017?
  • Vil et digitalt angrep sette én eller flere kritiske infrastrukturer i Norge ut av spill før 24. juni 2017?
Resultater

Testrunden samlet 391 prediksjoner fra 40 unike deltagere. Alle deltagerne ble scoret individuelt og som del av ulike grupper, f.eks. kjønn, utdanningsnivå og stillingstype.

I tillegg ble alle deltagerne og gruppene målt opp mot en pil-kastende ape med bind for øynene, der alle svaralternativer gis lik sannsynlighet. F.eks. vil apen alltid predikere 50/50 % på alle ja/nei-spørsmål og gi 25 % sannsynlighet til alle alternativer på spørsmål med fire alternativer. Apen inkluderes for å kunne sammenligne deltagernes treffsikkerhet med tilfeldig gjetning.

Hvor godt traff deltagerne?

Et første spørsmål er derfor hvor godt deltagerne traff sammenlignet med apen. Heldigvis traff deltagerne i gjennomsnitt langt bedre enn ved tilfeldig gjetning (se figur 1).

Figur 1. Alle deltagere vs. apen (gj.snittlig Brier score på alle spørsmål).
En sannsynlig forklaring på hvorfor deltagerne traff mye bedre enn apen, er at 9 av de 15 spørsmålene i testrunden var ja/nei-spørsmål om hendelser med relativt liten sannsynlighet. Deltagerne anslo derfor i snitt svært lav sannsynlighet til disse hendelsene, mens apen alltid predikerte 50 %.

Hvis vi bare ser på de 6 spørsmålene med mer enn to alternativer, der både deltagerne og apen fordelte sannsynligheten mer jevnt, er forskjellen mellom deltagerne og tilfeldig gjetning noe mindre, men deltagerne traff fortsatt langt bedre enn apen (se figur 2). På spørsmål med lengre tidsperspektiv og større usikkerhet er det grunn til å tro at forskjellen mellom deltagerne og apen vil bli mindre.

Figur 2. Alle deltagere vs. apen (gj.snittlig Brier score på bare flervalgsspørsmål).

Hvilke grupper deltagere gjorde det best?

Et interessant spørsmål er hvilke grupper deltagere som traff best relativt sett. Som figur 3 viser, var det deltagere i aldersgruppen 50-59 år som traff best sammenlignet med alle andre grupper. Menn gjorde det i snitt bedre enn kvinner, personer med 4-5 års høyere utdanning bedre enn personer med flere og færre års utdanning, og forskerne traff bedre enn offiserene. Forskjellen på eksperter og ikke eksperter var ikke stor. Alle gruppene gjorde det imidlertid langt bedre enn apen.

Figur 3. Ulike gruppers relative prediksjonsevne (gj.snittlig Accuracy score).

Interesse for forsvars- og sikkerhetspolitikk og tro på egen prediksjonsevne

Et annet interessant spørsmål er hvorvidt deltagernes prediksjonsevne hang sammen med deres interesse for og tro på egen evne til å predikere den typen forsvars- og sikkerhetspolitiske spørsmål som de får i turneringen.

Figur 4. Interesse for forsvars- og sikkerhetspolitikk (gj.snittlig Accuracy score).

Figur 5. Tro på egen evne til å forutsi forsvars- og sikkerhetspolitikk (gj.snittlig Accuracy score).

Den siste figuren peker mot en potensiell sammenheng mellom høyere tro på egen prediksjonsevne og dårligere treffsikkerhet. Datagrunnlaget her er for lite, men en slik sammenheng ville være i tråd med tidligere forskning på selvsikkerhet og prediksjonsevne – og er et eksempel på den typen hypoteser som kan undersøkes i den virkelige turneringen.