Offentlige anskaffelser: Normalisering kan vilkårlig endre tildelingskriterienes vekt

Gitt Digitaliseringsdirektoratets anbefaling om å normalisere poengscoren er det neppe uvanlig at offentlige oppdragsgivere gjør nettopp dette. Vi antar derfor at mange i utgangspunktet var overrasket over vårt innlegg hvor vi frarådet normalisering, og til og med hevdet at en slik praksis under omstendighetene kunne være ulovlig. Vi er derfor glade for at synspunktene våre imøtegås slik at alle sider av denne praksisen blir belyst.

Når vi i det følgende skal begrunne hvorfor vi fastholder vårt standpunkt, tar vi utgangspunkt i de tre overordnede innvendingene som Gulsvik og Thommessen fremmer i sitt innlegg.

1. En nyansering av hva normalisering innebærer

Det er riktig at vi i vårt innlegg beskriver en forholdsmessig oppjustering. Det er denne normaliseringen som er problematisk. En absolutt oppjustering har ikke noen betydning, og er dermed helt unødvendig. Dette kan vi demonstrere ved hjelp av de to første tabellene i vårt innlegg:

I det første eksempelet er kvalitetskriteriet poengsatt etter en absolutt skala (noe vi kommer tilbake til), og vi ser at tilbudet med best kvalitet ikke nådde lenger opp enn halvveis på skalaen, dvs. 5 poeng. Hvis vi gjør en absolutt normalisering av disse poengscorene, altså slik at vi legger på 5 poeng på alle tilbydernes poengscore på kvalitet, får vi følgende poengscore:

Påvirker man vekten ved å gjøre en slik absolutt normalisering? Det kan vi se hvis vi sammenligner poengdifferansene på den samlede poengscoren. Avstanden mellom Tilbyder E og Tilbyder F er 1 poeng i begge tilfeller, og avstanden mellom Tilbyder E og D og 2 poeng i begge tilfeller. Vekten er altså ikke påvirket, men en slik absolutt normaliseringen har heller ingen funksjon.

Vi har derfor for så vidt ingen innvendinger mot at det gjøres en absolutt normalisering, men det er heller ikke noen grunn til å foreta en slik normalisering. Den normaliseringen vi har kritisert i vårt innlegg, er forholdsmessig normalisering, og er det vi omtale i det følgende.

Det er riktig at poengsettingen i eksempelet i innlegget vårt er absolutt. Alternativet ville vært en relativ poengsetting, altså slik som på priskriteriet hvor beste tilbud får 10 poeng og de andre tilbudene ble vurdert i forhold til dette. Hadde samme relative poengsetting skjedd for kvalitetskriteriet, altså gitt 10 poeng til beste tilbud, ville det ikke vært noe rom for normalisering.

Gulsvik og Thommessen fremhever at det er ved relativ poengsetting av underkriteriene at det vil ha de beste grunner for å normalisere forholdsmessig. Vår mening er imidlertid at man ikke bør normalisere forholdsmessig selv om man gir poeng relativt. Forutsetningen da er at den relative skalaen var innrettet på en annen måte enn at beste tilbud får 10 poeng på det enkelte kriteriet, f.eks. slik at det blir gitt 5 poeng til tilbudet med “akseptabel kvalitet” eller lignende. Dersom oppdragsgiver i en konkurranse får inn 3 tilbud, hvor det ene tilbudet får 4 poeng, det andre får 5 poeng og det tredje får 6 poeng, bør dette bety at oppdragsgiver mener denne poengforskjellen gir uttrykk for de relative forskjellene mellom tilbudene. Men dersom oppdragsgiver velger å gjøre en normalisering, blir poengene hhv. 6,7 poeng, 8,3 poeng og 10 poeng. Poengdifferansen øker altså fra ett poeng mellom hvert tilbud til å bli 1,7 poeng mellom hvert tilbud. Mener da oppdragsgiver at 1,7 poeng differanse gjenspeiler kvalitetsforskjellen mellom tilbudene? Hvorfor ga i så fall ikke oppdragsgiver poeng med denne poengdifferansen i utgangspunktet for så å unnlate å normalisere? Da ville oppdragsgiver hatt kontroll over poengdifferansene.

La oss heller si at de opprinnelige poengscorene før normalisering var 4, 5 og 8 poeng. Det ville gitt hhv. 5 poeng, 6,25 poeng og 10 poeng etter en forholdsmessig normalisering. Her har differansen mellom det første og det andre tilbudet etter normalisering gått fra 1,7 poeng i eksempelet ovenfor til 1,25 poeng i dette eksempelet – utelukkende fordi det tredje tilbudet fikk to poeng bedre score. Dette fremstår som vilkårlig.

Vi mener heller oppdragsgiver bør sørge for at poengdifferansen ved poenggivningen gjenspeiler de relative forskjellene mellom tilbudene, fremfor å gjøre en etterfølgende normalisering hvor utfallet av poengdifferansene ikke er forankret i evalueringen.

2. Hvorvidt hele skalaen benyttes

Gulsvik og Thommessen er uenige i at det er en misforståelse at tildelingskriterienes vekt endres dersom ingen tilbud får maksimal poengscore på et kriterium. De mener dette lar seg utlede av eksempelet vi brukte. Her har nok ikke Gulsvik og Thommessen lest innlegget vårt nøye nok.

Vi var i innlegget tydelige på at kvalitetskriteriet ble evaluert etter en objektiv målestokk i eksempelet, altså en absolutt poengsetting. Selv om tilbudet med best kvalitet i eksempelet bare fikk 5 poeng, og tilbudet med best pris fikk 10 poeng, betyr ikke det at det kun var “totalt 7,5 (5 + 2,5) poeng å kjempe om”. Begge kriteriene ble evaluert etter en skala fra 0–10, og den eneste grunnen til at ingen tilbud fikk mer enn 5 poeng på kvalitet, var at den tilbudte kvaliteten ikke var bedre enn midt på treet.

Dersom Gulsvik og Thommessen mener at man i et slikt tilfelle skulle foretatt en absolutt normalisering, viser vi til eksempelet i punkt 1 ovenfor. Det ville i så fall være en helt unødvendig operasjon som verken får betydning for de endelige poengdifferansene eller tildelingskriterienes relative vekt. Vektingen i eksempelet er følgelig 50 % for hver av kriteriene selv om tilbudene viste seg å være slik at kun halve skalaen på kvalitetskriteriet faktisk ble brukt.

Vi kan ikke se at dette poenget stiller seg annerledes dersom man bruker flere enn to tildelingskriterier. Oppdragsgiver må uansett sørge for at poengdifferansene gjenspeiler forskjellene mellom tilbudene i utgangspunktet, og ikke senere forrykke dette gjennom en normalisering hvor man ikke lenger kan sikre at tilbudenes relative forskjeller gjenspeiles i poengdifferansene.

3. Normalisering kan være i strid med de grunnleggende prinsippene

Vi er enige om at en evaluering i tråd med det som er angitt i konkurransegrunnlaget, vil være i tråd med forutberegnelighetsprinsippet. Spørsmålet blir hvilket handlingsrom oppdragsgiver har når konkurransegrunnlaget er taust.

I tråd med det som er vist ovenfor, mener vi at en forholdsmessig normalisering har effekter som er vilkårlige: Poengdifferansene endres i forhold til det oppdragsgiver opprinnelig har vurdert og på en måte som ikke avhenger av forskjellene mellom de aktuelle tilbudene. I noen tilfeller kan dette gi en annen vinner enn den som fikk høyest poengscore etter evalueringen uten normalisering. Dette er ikke forutberegnelig for tilbyderne: Tilbyderne må kunne stole på at tildeling av kontrakt skjer på bakgrunn av evalueringen av tilbudene, og at oppdragsgiver ikke introduserer et vilkårlig element som påvirker poengscore etter gjennomført evaluering. Vi har igjen behov for å understreke at tildelingskriterienes vekt ikke blir endret av at man ikke normaliserer. Det er normaliseringen som endrer vekten av tildelingskriteriene, og som etter omstendighetene kan være i strid med prinsippene om forutberegnelighet og likebehandling, avhengig av om det får avgjørende betydning i den enkelte konkurransen.

Vi fastholder etter dette vårt standpunkt om at oppdragsgivere ikke bør følge Digitaliseringsdirektoratets anbefaling om å normalisere. Det aller viktigste er at man ikke gjør en forholdsmessig normalisering av poengscore som er gitt etter en absolutt skala, ettersom det er her en normalisering gir størst og mest vilkårlige utslag.