Beoordelingsfouten weg digitaliseren

Beoordelingsfouten 'weg digitaliseren': MARK-methodiek geïmplementeerd bij aanbestedingen Rijkswaterstaat

Dit artikel is eerder gepubliceerd in Nevi’s landelijke inkoopvakblad ‘Deal!‘ Klik op onderstaande afbeelding om dit artikel te downloaden. Of lees het op deze pagina.

Leon Laureij
oktober 19, 2022
Aanbesteden, Beoordelen, Inkoop & Contractmanagement, MARK-methodiek

Inschrijvingen beoordelen is mensenwerk. Dat maakt het soms lastig om objectief en consequent te blijven. Leon Laureij, medeontwikkelaar van de MARK-beoordelingsmethodiek bij Rijkswaterstaat, beschrijft hoe je knelpunten kunt minimaliseren.

Bij aanbestedingen zijn er drie knelpunten die we vaker tegenkomen bij consensusbeoordelingen van de kwaliteit van offertes, te weten:

1. beoordelaars praten langs elkaar heen;

2. oordelen zijn gebaseerd op meningen, gevoelens of sociale verhoudingen; en

3. de beoordeling verschilt tussen projecten.

Een situatie die veel inkoopprofessionals zullen herkennen, is die waarin beoordelaars in consensusdiscussies vaak langs elkaar heen praten. Mensen communiceren immers altijd vanuit hun eigen referentiekader, dat bovendien verschilt van die van de ander. Bovendien zijn we ons dikwijls niet bewust van ons eigen kader. Hiermee is het eerste knelpunt geboren.

Soms is onduidelijk hoe een beoordeling precies tot stand komt. Of onwenselijk, bijvoorbeeld wanneer een beoordelingscommissie de consensusscore baseert op de mening van de beoordelaar met de grootste staat van dienst. Recent is dit beschreven als een vorm van ‘ruis’ bij beoordelen (Lennartz, Schotanus en Telgen, 2022).

Aanbestedingsleidraden kunnen nog zo uitvoerig uiteenzetten waarmee inschrijvers punten kunnen verdienen, meningen, gevoelens en sociale dynamieken kunnen daarbij nog steeds verstorend werken. Het risico van dit tweede knelpunt is dat een offerte oneigenlijk wordt beoordeeld.

Nummer 3 knelt vooral voor organisaties die regelmatig vergelijkbare goederen of diensten inkopen. Variatie in aanbestedingen, beoordelingscommissies en inschrijvingen vergroot het belang van consequent beoordelen. Partijen zijn gebaat bij voorspelbare beoordelingen, dus is het lastig als commissies op eigen wijze beoordelen.

Knelpunten minimaliseren

Nederlandse aanbesteders, waaronder Rijkswaterstaat, hebben aangegeven de benoemde knelpunten ook te ervaren. Ze blijken ook uit mijn promotieonderzoek naar public procurement in de Verenigde Staten (Laureij, 2013).

Ik bespreek hier twee oplossingen die afzonderlijk inzetbaar zijn, maar in combinatie het meest effectief als het gaat om het minimaliseren van de knelpunten. Het gaat om de beoordelingsmethodiek ‘Beoordelen met MARK’, die Rijkswaterstaat sinds 2020 hanteert, en de digitale ‘Versnellingskamer’. De laatste is een besluitvormingsprocedure die wordt ondersteund door online software, ontwikkeld door Spilter en sinds 2018 ingezet bij aanbestedingen in de begeleiding van beoordelingen.

Millennia-oude logica

MARK staat voor Meerkleurig Argumentatief ReferentieKader. De methodiek, die ik mede heb ontwikkeld in dienst van Rijkswaterstaat (Laureij, 2019), bestaat uit een generieke argumentatiestructuur van inschrijvingen (Laureij & Santema, 2016). Ze is gebaseerd op de millennia-oude logica van Aristoteles die nog altijd universeel is voor hedendaagse argumentatie (Toulmin, 2003/1958). De standaardprocedure van de methodiek bestaat uit twee keer drie stappen per te beoordelen kwalitatief document; eerst individueel en dan in consensus. Ik beschrijf per stap hoe de knelpunten bij beoordelen worden verkleind.

Stap 1: Analyseren

Elke beoordelaar begint met het markeren van de inschrijvingstekst (op papier of digitaal) volgens de MARK-argumentatiestructuur. Afbeelding 1 hierboven geeft deze structuur weer in de kleuren waarmee de beoordelaars de argumenttypes markeren in de kwalitatieve documenten (afbeelding 2 hieronder). Zo interpreteren de beoordelaars, ieder voor zich vanuit een uniform en waardevrij referentiekader, wat de inschrijver heeft bedoeld als ‘resultaten’, ‘maatregelen’, ‘verklaringen’ en ‘onderbouwingen’.

Dit betaalt zich terug in de consensusdiscussie: beoordelaars baseren zich op grotendeels dezelfde tekstonderdelen, dus praten minder langs elkaar heen. Daarnaast voorkomt het een oordeel op basis van eerste indruk. Dus wordt begonnen met analyseren voordat ze waarderen. Zo verkleint de analyse ook ruis die wordt veroorzaakt door meningen.

Stap 2: Waarderen

De individuele beoordelaar geeft elk afzonderlijk cluster van resultaat-maatregel-onderbouwing grove kwantitatieve waarderingen (in de vorm van -1, 0, 1 of 2, waarbij 0 staat voor ‘geen meerwaarde’) en motiveert deze. Dit maakt de beoordeling herleidbaar naar de inschrijving en daarmee minder gevoelig voor ‘hiërarchische ruis’ binnen de commissie. De gemotiveerde waarderingen vormen de opmaat voor een discussie op basis van argumenten. Wij noemen zo’n cluster van resultaat-maatregel- onderbouwing ook wel een ‘MARK’, als in: ‘doelwit’.

Het waarderen werkt subjectieve stoorzenders verder tegen door het te baseren op drie uniforme aandachtspunten: bijdrage aan de doelstelling (van het beoordelingscriterium), SMART en onderbouwd. Deze zijn niet projectinhoudelijk, waarmee wordt voorkomen dat projectteams subjectievere aandachtspunten voor de beoordeling bedenken. De uniformiteit maakt ook standaardisatie van de beoordelingsmethodiek mogelijk voor uiteenlopende projecten.

Stap 3: Scoren

Tot slot beziet elke beoordelaar het geheel aan waarderingen per aandachtspunt per resultaat-maatregel-onderbouwing, zoomt uit en bepaalt de score voor het beoordelingscriterium. Dit kan met verschillende scoremechanismen, zolang het gaat om een afweging van alle waarderingen. Bij het motiveren legt de beoordelaar zo nodig uit waarom bepaalde waarderingen zwaarder wegen dan andere. Ook dit verdringt weer willekeur.

Consensusdiscussie

Hoe werkt dit dan door in de consensusdiscussie? Wanneer elke individuele beoordelaar de inschrijvingen heeft geanalyseerd, gewaardeerd en gescoord via MARK, hinderen de drie knelpunten de consensusdiscussie minimaal. Beoordelaars praten minder langs elkaar heen. En wanneer dit toch gebeurt, wordt dit snel herkend als afwijking van het gezamenlijk referentiekader. Om de focus te herstellen, volstaat de vraag van een inkoper of beoordelaar: wat heb jij eigenlijk groen/roze/geel gemarkeerd?

Uniform toepasbaar

De consensusdiscussie staat primair in het teken van gemotiveerd waarderen en scoren. Doordat de beoordelaars discussiëren op basis van hun argumenten voor waarderingen en scores, kan de procesbegeleider de feiten bewaken en gelijktijdig de motiveringen in consensus vastleggen. Bovendien helpt de methodiek consensusdiscussies van meerdere projecten te standaardiseren: de kleurenmarkeringen, de aandachtspunten en de procedure zijn uniform toepasbaar in de procesbegeleiding.

Digitaliseren

Afgaande op reacties van inschrijvende marktpartijen, heeft beoordelen volgens MARK bij Rijkswaterstaat gezorgd voor consequente en beter gemotiveerde beoordelingen. Inkopers en beoordelaars ervaren dat de methodiek een grondigere beoordelingsprocedure borgt die recht doet aan de inspanningen van inschrijvers. Het kost wel iets meer tijd, wat als drempel kan worden ervaren om de methodiek precies toe te passen. De digitale Versnellingskamer biedt hierin een uitweg én minimaliseert de drie knelpunten van beoordelingen nog verder.

Softwaresysteem

De Versnellingskamer staat voor een werkwijze waarmee Spilter complexe besluitvorming in allerlei domeinen vereenvoudigt met gebruik van een online Group Decision Support System (GDSS). Dit softwaresysteem is in opdracht van Rijkswaterstaat ingericht als specifieke ‘Versnellingskamer Beoordelen met MARK’ en doorontwikkeld op basis van beoordelingen bij zeven aanbestedingen. Op geen van deze beoordelingen is overigens een bezwaar ontvangen (in het kader hieronder wordt een van deze aanbestedingen besproken).

Tijdwinst

Waar het beoordelen volgens MARK een beoordelingscommissie twee keer zo veel tijd kost, reduceert de Versnellingskamer die tijd weer. Het GDSS loodst de beoordelaars online door een aantal schermen waarin zij de beoordelingsprocedure gedisciplineerd conform MARK doorlopen. De waarderingen, scores en motiveringen zet de beoordelaar in hetzelfde systeem als waar hij ook de inschrijvingen, beoordelingscriteria en aandachtspunten vindt.

De inkoper heeft bovendien inzicht in de input van alle beoordelaars, inclusief overzichten die laten zien op welke punten al consensus bestaat en waar nog niet, zie afbeelding 3 hierboven. Deze toont het scherm van Versnellingskamer Beoordelen met MARK met gemiddelde waarderingen per aandachtspunt per MARK. Rood betekent dat verschillende waarderingen zij gegeven; groen is consensus.

Motiveringen formuleren

Ook de consensusdiscussies gaan in de Versnellingskamer (via conferencecalls of fysiek) sneller en meer conform de MARK-methodiek. De inkoper selecteert samen met de beoordelaars de MARKs om nader te bespreken, per waardering, wiens ingevoerde motivering het beste past als uitgangspunt voor de consensusmotivering. De beoordelaars zien in het systeem de punten van consensus toenemen als zij hun individuele waarderingen aanpassen aan de discussie. En zij helpen de inkoper bij het formuleren van de uiteindelijke motiveringen, binnen de ingevoerde formats van de inkooporganisatie.

Volledig te standaardiseren

Naast de tijdwinst helpt de Versnellingskamer knelpunten van beoordelingen verder te minimaliseren. Hier wordt de MARK- analyse gedigitaliseerd, waardoor alle beoordelaars dezelfde argumenten in de inschrijving waarderen en nog minder langs elkaar heen praten. De Versnellingskamer democratiseert het proces ook omdat elke beoordelaar een gelijke stem heeft. Het hele proces is bovendien traceerbaar vastgelegd en met een druk op de knop is terugkoppeling aan de inschrijver gereed. Tot slot is hiermee de wijze van beoordelen volledig te standaardiseren voor meerdere projecten, doordat de techniek van de Versnellingskamer getrouwe toepassing van de MARK-methodiek 100 procent borgt.