Dit model zal naast V3.5 blijven draaien. Daar wordt de komende periode actief aan ontwikkeld. Er zal waarschijnlijk minimaal een jaar overlap zijn waarin zowel V3.5 als V4 ondersteund worden. Hoe de overgang precies gaat verlopen, welke processen wanneer overstappen en welke outputs leidend worden, is nu nog niet vastgesteld.
Voor V4 wil ik het fundamenteel anders aanpakken: veel meer vanuit een data science-benadering, waarbij we expliciet openstaan voor methodieken en inzichten die we nu nog niet volledig overzien.
Belangrijk om te begrijpen is dat funderingsrisico’s sterk afhankelijk zijn van het funderingstype. De beschikbare data geeft daar nu al duidelijke aanwijzingen voor. Een goed uitgangspunt voor verdere modelontwikkeling is daarom het funderingstype zelf. Juist op dat onderdeel beschikken wij inmiddels over aanzienlijk meer data én een hogere datakwaliteit dan voorheen.
Dat biedt de mogelijkheid om een andere benadering te kiezen dan het huidige deterministische A–E-model. In plaats van één vaste uitkomst (“point estimate”) willen we naar een probabilistisch model, waarin onzekerheid expliciet onderdeel wordt van de output.
Daarbij denk ik aan een regionale aanpak, gebaseerd op datadichtheid en data-beschikbaarheid. Simpel gezegd: in West-Nederland beschikken we over veel meer vergelijkbare panden en onderzoeksdata dan in Oost-Nederland. Dat verschil moet ook zichtbaar worden in de betrouwbaarheid en nauwkeurigheid van de modeluitkomsten.
De denkrichting voor V4 bestaat onder andere uit:
- Een probabilistisch model dat niet één label teruggeeft, maar een kansverdeling.
- Een calibrated classifier, waarbij de voorspelde kansen ook statistisch betrouwbaar zijn. Bijvoorbeeld: wanneer het model 70% kans aangeeft, moet dat ook daadwerkelijk in circa 70% van de gevallen kloppen.
- Quantile regression voor het voorspellen van bandbreedtes en percentielen in plaats van één vaste waarde.
- Prediction intervals (bijvoorbeeld p10–p50–p90) om onzekerheidsmarges inzichtelijk te maken.
Het expliciet onderscheiden van:
- aleatoric uncertainty: inherente onzekerheid en ruis in de data;
- epistemic uncertainty: onzekerheid door gebrek aan voldoende vergelijkbare data of kennis.
Een parameter data_availability raakt al gedeeltelijk de voorgestelde dichtheid per regio.
In de financiële sector en bij verzekeraars zie je vergelijkbare principes terug in zogenaamde PD-modellen (probability-of-default). In essentie gaat het om dezelfde statistische benadering, maar toegepast op een ander domein.
Wat we daarmee nadrukkelijk verlaten, is het huidige deterministische model waarin één vast A–E-label centraal staat. Dat model geeft onvoldoende ruimte voor onzekerheid, regionale verschillen en variatie in datakwaliteit.
Dit model zal naast V3.5 blijven draaien. Daar wordt de komende periode actief aan ontwikkeld. Er zal waarschijnlijk minimaal een jaar overlap zijn waarin zowel V3.5 als V4 ondersteund worden. Hoe de overgang precies gaat verlopen, welke processen wanneer overstappen en welke outputs leidend worden, is nu nog niet vastgesteld.
Voor V4 wil ik het fundamenteel anders aanpakken: veel meer vanuit een data science-benadering, waarbij we expliciet openstaan voor methodieken en inzichten die we nu nog niet volledig overzien.
Belangrijk om te begrijpen is dat funderingsrisico’s sterk afhankelijk zijn van het funderingstype. De beschikbare data geeft daar nu al duidelijke aanwijzingen voor. Een goed uitgangspunt voor verdere modelontwikkeling is daarom het funderingstype zelf. Juist op dat onderdeel beschikken wij inmiddels over aanzienlijk meer data én een hogere datakwaliteit dan voorheen.
Dat biedt de mogelijkheid om een andere benadering te kiezen dan het huidige deterministische A–E-model. In plaats van één vaste uitkomst (“point estimate”) willen we naar een probabilistisch model, waarin onzekerheid expliciet onderdeel wordt van de output.
Daarbij denk ik aan een regionale aanpak, gebaseerd op datadichtheid en data-beschikbaarheid. Simpel gezegd: in West-Nederland beschikken we over veel meer vergelijkbare panden en onderzoeksdata dan in Oost-Nederland. Dat verschil moet ook zichtbaar worden in de betrouwbaarheid en nauwkeurigheid van de modeluitkomsten.
De denkrichting voor V4 bestaat onder andere uit:
Het expliciet onderscheiden van:
Een parameter data_availability raakt al gedeeltelijk de voorgestelde dichtheid per regio.
In de financiële sector en bij verzekeraars zie je vergelijkbare principes terug in zogenaamde PD-modellen (probability-of-default). In essentie gaat het om dezelfde statistische benadering, maar toegepast op een ander domein.
Wat we daarmee nadrukkelijk verlaten, is het huidige deterministische model waarin één vast A–E-label centraal staat. Dat model geeft onvoldoende ruimte voor onzekerheid, regionale verschillen en variatie in datakwaliteit.