De open data van de Kamer van Koophandel
Pijnlijk: Nederland is een van de minst transparante landen van Europa als het gaat om bedrijfsinformatie. In veel landen is het Handelsregister opengesteld als open data. Voorbeelden zijn Groot-Brittanië, Frankrijk, België, Roemenië, Bulgarije, Finland, Noorwegen en Denemarken (aldus Open State).
In november 2015 heeft de Tweede Kamer een motie aangenomen die vraagt of het Nederlandse handelsregister open kan worden gesteld. Het heeft even geduurd, maar op 17 juli dit jaar heeft de Kamer van Koophandel twee datasets gepubliceerd. Open State, een organisatie die zich inzet voor een transparante overheid, is niet echt enthousiast. Terecht?
De gegevens
Er zijn twee datasets gepubliceerd die wekelijks worden bijgewerkt. De ene bevat bedrijfsgegevens uit het Handelsregister zoals woonplaats, sector, datum oprichting, etc. De andere bevat gegevens uit jaarrekeningen. De jaarrekeningen zitten in een zip-bestand met 580.000 xml-bestanden.
De gegevens zijn geanonimiseerd. Volgens de Kamer van Koophandel is dat noodzakelijk om de privacy van ondernemers te beschermen. Overigens zijn niet-geanonimiseerde gegevens tegen betaling wel verkrijgbaar bij de Kamer van Koophandel.
TNO heeft zich hier ook over gebogen. Het onderzoeksinstituut vindt het terecht om rekening te houden met de privacy van ondernemers, maar vindt de gekozen oplossing (alles anonimiseren) onnodig drastisch.
Het anonimiseren maakt het niet alleen onmogelijk om gegevens over een individueel bedrijf op te zoeken; het beperkt ook de mogelijkheden om gegevens te analyseren. Je kan bijvoorbeeld niet op bedrijfsniveau ontwikkelingen in de tijd volgen.
De jaarrekeningen
In de gepubliceerde gegevens zitten alleen jaarrekeningen die door bedrijven digitaal en in het gewenste bestandsformaat zijn aangeleverd. Er zitten 185.000 jaarrekeningen over 2016 bij, terwijl 255.000 bedrijven hun jaarrekening over dat jaar bij de Kamer van Koophandel hebben gedeponeerd (volgens de Handelsregister dataset). Het lijkt erop dat vooral grotere bedrijven ontbreken. Voor eerdere jaren lijken nog meer jaarrekeningen te ontbreken.
Dit betekent onder meer dat je geen totaalbedragen per sector kan berekenen. Overigens verwacht de Kamer van Koophandel dat in de toekomst meer bedrijven hun jaarrekening digitaal zullen aanleveren.
Bijna alle jaarrekeningen in de open dataset bevatten op zijn minst enkele posten uit de balans, maar andere essentiële informatie ontbreekt:
- In bijna alle gevallen ontbreekt een winst- en verliesrekening (kleine bedrijven hoeven geen winst- en verliesrekening te deponeren, maar ook voor grotere bedrijven ontbreekt deze informatie).
- Het aantal werknemers ontbreekt.
- Ruim de helft van de jaarrekeningen bevat geen sectoraanduiding (SBI-code).
Betekenisvolle stap?
Open State noemt de publicatie van de gegevens slechts «een eerste kleine stap». Gezien de beperkingen kan ik me daar wel iets bij voorstellen.
De Kamer van Koophandel citeert minister Henk Kamp, die sprak van een «betekenisvolle stap». Zijn uitspraak was gebaseerd op een rapport dat de Kamer van Koophandel zelf had opgesteld. Dat rapport suggereerde dat het mogelijk zou worden om aggregaties te maken op basis van het aantal werknemers, of om bijvoorbeeld de concentratie van bepaalde typen bedrijven te onderzoeken.
Met de huidige datasets kan dat niet, lijkt me. Sterker, het is de vraag of je überhaupt conclusies kan verbinden aan deze gegevens (en ik ben niet de enige die zich dit afvraagt). Hopelijk is dit inderdaad slechts een eerste stap naar een echt open handelsregister.
Update 23 mei 2021
Bijna vier jaar later wordt de «open data» van de Kamer van Koophandel nog steeds bijgewerkt.
Zoals verwacht is het aantal jaarrekeningen in de dataset de afgelopen jaren flink toegenomen. Er zijn meer dan 715 duizend digitaal gepubliceerde jaarrekeningen over 2019 en - vooralsnog - 125 duizend over 2020. In totaal zijn er ruim 2 miljoen jaarrekeningen gepubliceerd. De volledigheid van de gegevens is echter niet of nauwelijks verbeterd. Zo geldt nog steeds dat de winst- en verliesrekening meestal ontbreekt, dat werknemersaantallen ontbreken en dat bijna de helft van jaarrekeningen geen sectoraanduiding bevat. Ook is het nog steeds niet mogelijk om ontwikkelingen op bedrijfsniveau te analyseren.
Al met al blijft twijfelachtig of er überhaupt conclusies kunnen worden getrokken uit de gepubliceerde jaarverslagen.
Hier is een Pythonscript waarmee de KvK-bestanden kunnen worden gedownload en omgezet naar csv. Het duurt wel even. Overigens zitten er enkele inconsistenties in de gegevensstructuur; als gevolg daarvan valt niet voor honderd procent uit te sluiten dat bepaalde gegevens niet verwerkt zijn. De gegevens in de update hierboven zijn op basis van een download op 25 mei.