champagne anarchist | armchair activist

Data

The network of Dutch firms

One of the ways in which firms are linked is through board members who also sit on the boards of other firms. Researchers use these board interlocks to determine which firms occupy a central position in the corporate network. This «is widely considered as an indication of a powerful or at least advantageous position», Frank Takes and Eelke Heemskerk explain in an interesting paper on the subject.

Two Dutch newspapers, de Volkskrant and NRC Handelsblad, have published visualisations of the Dutch (corporate) elite and their board memberships. You can use the data from those visualisations to create board interlock networks. Below is an example using data from NRC Handelsblad from 2017:

Darker nodes represent organisations with a more central position in the network, as measured by their betweenness centrality. Below is another example, using data from de Volkskrant from 2013:

The most obvious difference is that the second graph contains far more nodes (organisations) and edges (shared board members) than the 2017 chart. But there’s more. The 2017 dataset contains only nodes that have at least two edges - probably the result of a selection criterion used by NRC Handelsblad because of the type of visualisation they wanted to make. Further, the 2013 dataset consists of multiple components: three sets of organisations only share board members with each other; not with the rest of the network.

Given the differences between the datasets, would it still be meaningful to make comparisons between the two? The table below shows the top 10 of organisations with the highest centrality scores, for 2013 and 2017. The comparison is limited to organisations that are included in both datasets.

2013 2017
VNO-NCW VNO-NCW
DNB Ahold
Concertgebouw Concertgebouw
KLM KLM
ABN Amro Schiphol
Aegon NV FrieslandCampina
Concertgebouw Fonds Philips
DSM DNB
Philips Rabobank Groep
Heineken NV Vopak

Organisations like employers’ organisation VNO-NCW, the Concertgebouw concert hall and airline KLM seem to occupy a pretty stable position at the centre of the network. VNO-NCW has a huge non-executive board with representatives from a wide range of industries. The Concertgebouw has been described years ago as the living room of the [Dutch] elite.

Aside from these stable elements, there are substantial differences between the two rankings. The rank correlation is only 0.33 and not statistically significant. This may be due to differences in the way the datasets were created; the small size of the overlap between them (only 34 organisations) and other data quality issues.

On the other hand, some changes in the ranking appear to reflect genuine changes in the position firms occupy. Two examples:

  • One of the fastest risers is Ahold. Ahold merged with Belgian retailer Delhaize in 2016. It would seem plausible that this has strengthened their position in the corporate network.
  • ABN Amro disappeared from the top 10. The bank used to have a board with well-connected members like Gerrit Zalm and Joop Wijn (both have gone through the revolving door between government and the corporate world), Peter Wakkie and Marjan Oudeman (one of the most influential Dutch women according to various rankings). In 2015, chairman Wakkie stepped down over a commotion caused by excessive executive board remunerations (the bank was still state-owned after having been bailed out with public money in 2008). Subsequently, Oudeman, Zalm and Wijn also left the bank, for reasons partly related to its upcoming flotation. It appears the current board has a lower profile.

This type of analyses could benefit enormously from having a larger dataset available. This is yet another reason why the Dutch Company Register should be opened up as open data: this will allow for better understanding of the networks of corporate control.

Method and data

Both de Volkskrant (2013, 2014) and NRC Handelsblad (2017) have published visualisations of the Dutch (corporate) elite and their board memberships. Note that these board memberships not only include companies, but also employers’ organisations, cultural institutions and other types of organisations the collectors of the data deemed relevant for analysing corporate elite networks.

Before comparisons can be made, the names of the organisations need to be cleaned up. Beyond correcting typos and dealing with additions like N.V. (plc) and B.V. (ltd), this involves deciding when to consider units as part of the same organisation. Pragmatically, I decided to treat businesses that are part of the same corporate structure as identical. This may not always be the ideal approach; on the other hand, it’s not always possible to determine what unit a name refers to (e.g. ING could refer to the holding or to one of its subsidiaries). I did treat foundations (e.g. charities linked to a company) as separate from the company.

There are different ways to measure the centrality of a node in a network. Taking my cue from Takes and Heemskerk, I used betweenness centrality, which is based on how often a node is on the shortest path between two other nodes. I calculated centrality for the entire network, that is, before taking a subgraph. I included endpoints to prevent many nodes having a score of zero.

I used the Python library networkx to analyse the graphs (here’s the code and here’s the accompanying text file for cleaning up organisation names). I used d3.js to visualise the network graphs - here’s a description of the problems I ran into and how I dealt with them.

Het netwerk van Nederlandse ondernemingen

Een van de manieren waarop bedrijven met elkaar verbonden zijn, is door gedeelde bestuurders: een commissaris bij een bepaald bedrijf zal soms ook commissaris zijn bij andere bedrijven. Onderzoekers gebruiken deze ‘board interlocks’ om te analyseren welke bedrijven een centrale plek innemen in het ondernemingennetwerk. Dit «wordt veelal beschouwd als indicatie voor een machtige of tenminste gunstige positie», aldus Frank Takes en Eelke Heemskerk in een interessant artikel over dit onderwerp.

Zowel de Volkskrant als NRC Handelsblad hebben visualisaties gemaakt van de (zakelijke) elite en hun commissariaten en andere functies. De gegevens van die visualisaties kan je weer gebruiken om netwerken te maken op basis van board interlocks. Hieronder een voorbeeld met gegevens van NRC Handelsblad uit 2017:

Donkere nodes verwijzen naar organisaties met een centrale positie in het netwerk, afgemeten aan hun betweenness centrality. Hieronder nog een voorbeeld, op basis van gegevens van de Volkskrant uit 2013:

Het duidelijkste verschil is dat de tweede grafiek veel meer nodes (organisaties) en edges (gedeelde bestuurders) bevat dan de grafiek over 2017. Maar er zijn nog meer verschillen. De dataset uit 2017 bevat alleen nodes met tenminste twee edges - waarschijnlijk het gevolg van een selectiecriterium dat NRC Handelsblad heeft gebruikt vanwege het type visualisatie dat ze wilden maken. De dataset uit 2013 bestaat verder uit meerdere componenten: drie sets van organisaties zijn alleen onderling verbonden en niet met de rest van het netwerk.

Er zijn dus flinke verschillen tussen de datasets. Is het desondanks zinvol om ze onderling te vergelijken? De tabel hieronder laat voor beide jaren de top–10 van organisaties met de hoogste betweenness centrality zien. De vergelijking beperkt zich tot organisaties die in beide datasets voorkomen.

2013 2017
VNO-NCW VNO-NCW
DNB Ahold
Concertgebouw Concertgebouw
KLM KLM
ABN Amro Schiphol
Aegon NV FrieslandCampina
Concertgebouw Fonds Philips
DSM DNB
Philips Rabobank Groep
Heineken NV Vopak

Organisaties als VNO-NCW, het Concertgebouw en KLM lijken een vrij stabiele centrale positie in te nemen. VNO-NCW heeft een omvangrijke Raad van Commissarissen met vertegenwoordigers uit uiteenlopende sectoren. Het Concertgebouw werd jaren geleden al omschreven als de huiskamer van de elite.

Naast deze constante factoren zijn er flinke verschillen tussen de twee ranglijsten. De rangcorrelatie is slechts 0.33 en niet statistische significant. Dit kan te maken hebben met verschillen in de manier waarop de datasets zijn samengesteld; de kleine omvang van de overlap tussen de twee dataset (slechts 34 organisaties) en andere problemen die te maken hebben met de kwaliteit van de gegevens.

Aan de andere kant, sommige verschillen tussen de ranglijstjes lijken wel degelijk overeen te komen met daadwerkelijke veranderingen in de positie van ondernemingen. Twee voorbeelden:

  • Een van de snelste stijgers is Ahold. Ahold is in 2016 met Delhaize gefuseerd. Het lijkt plausibel dat dit hun positie in het bedrijvennetwerk heeft versterkt.
  • ABN Amro is verdwenen uit de top–10. Vroeger had de bank commissarissen met veel connecties, zoals Gerrit Zalm en Joop Wijn (die allebei door de draaideur tussen overheid en bedrijfsleven zijn gegaan), Peter Wakkie en Marjan Oudeman (volgens verschillende lijstjes één van de meest invloedrijke Nederlandse vrouwen). In 2015 stapte voorzitter Wakkie op na een rel over buitensporige beloningen (de bank was nog altijd in handen van de staat nadat hij in 2008 met publiek geld was gered). Vervolgens verlieten ook Oudeman, Zalm en Wijn de bank, deels vanwege de beursgang die eraan kwam. Het huidige bestuur lijkt een bescheidener profiel te hebben.

Bij dit soort analyses zou het enorm helpen om meer gegevens te hebben. Dat is nog een extra reden waarom het Handelsregister beschikbaar zou moeten komen als open data: dat biedt meer inzicht in de onderlinge verhoudingen in zakelijk Nederland.

Methode en gegevens

Zie de Engelstalige versie van dit artikel.

Scraping LinkedIn profiles could be legal. Is that creepy?

An interesting American court ruling discusses whether the company hiQ Labs may legally scrape public LinkedIn profiles and sell analyses based on that information.

LinkedIn tries to portray this as an attack to its efforts to protect the privacy of its users. Some media seem to buy this line: Having a public profile just got more risky (the Independent); Is your boss checking up on you? Court rules software IS allowed to look for changes to your LinkedIn profile that suggest you’re quitting your job (Daily Mail).

It’s worthwhile to read the actual ruling. Judge Edward M. Chen pretty much trashes LinkedIn’s argument:

LinkedIn’s professed privacy concerns are somewhat undermined by the fact that LinkedIn allows other third-parties to access user data without its members’ knowledge or consent.

LinkedIn specifically refered to users who use the don’t broadcast feature, which prevents the site from notifying other users when these users make profile changes. hiQ could be violating these users’ privacy by informing their employers about profile changes, which may be an indication that they’re looking for another job.

However, hiQ presented marketing materials from LinkedIn suggesting LinkedIn does exactly the same:

Indeed, these materials inform potential customers that when they ‘follow’ another user, «[f]rom now on, when they update their profile or celebrate a work anniversary, you‘ll receive an update on your homepage. And don‘t worry – they don‘t know you‘re following them.»

All in all, LinkedIn has credibility issues when it claims it’s protecting its users’ privacy. Perhaps what hiQ does is creepy, but not more creepy than what LinkedIn is doing itself. (It’s a bit reminiscent of Facebook, which limited access to user data through it’s public API, claiming it was protecting its users’ privacy.)

There’s more to the case than just the privacy issue. For example, can a website owner prohibit the automated retrievel of otherwise public information? Can they sanction specific users for even looking at their website («effectuating the digital equivalence of Medusa»)? And is it ok for LinkedIn to use it’s dominant position in the professional networking market to stifle competition in a different market? It will be interesting to see how this develops.

Via. Ruling downloadable from the Register

Open company data in the Netherlands

Awkward: according to an Open Corporates ranking, the Netherlands is among the least transparant countries in Europe when it comes to company data. In many countries, the company register has been opened up as open data. Examples include the UK, France, Belgium, Romania, Bulgaria, Finland, Norway and Denmark (according to Open State).

In November 2015, the Dutch Lower House adopted a motion asking if the Dutch Company Register can be opened up. It took a while, but on 17 July this year, the Chamber of Commerce has published two datasets. Open State, an organisation that advocates for government transparency, is not impressed. Is their criticism justified?

The data

Two datasets have been published, and they will be updated on a weekly basis. One contains company data from the Company Register, including city, industry, establishment date, etc. The other contains data from annual accounts. The accounts are in a zip file containing 580,000 xml files.

The data has been anonymised. According to the Chamber of Commerce, this is necessary in order to protect the privacy of entrepreneurs. Incidentally, non-anonimised data is still available at a charge from the Chamber of Commerce.

Research institute TNO has also looked into the matter. It agrees that the privacy of entrepreneurs must be protected, but deems the solution (anonymising all data) unnecessarily drastic.

Anonymising data not only makes it impossible to look up data about individual companies, but also restricts the possibilities for data analysis. For example, it’s not possible to track changes over time at the company level.

The annual accounts

The open data contains only those annual accounts that companies have submitted digitally, in the right format. It contains 185,000 annual accounts for 2016, whereas 255,000 companies have filed their annual account for that year with the Chamber of Commerce (according to the Company Register dataset). Especially the accounts of some of the larger companies appear to be missing. For 2015 and before, even more accounts seem to be missing.

This means, among other things, that it’s not really possible to calculate aggregate amounts for industries. However, the Chamber of Commerce expects that more companies will file their annual account in digital form in the future.

Almost all annual accounts in the open data contain at least a few items from the balance sheet, but other essential data is missing:

  • In almost all cases, the income statement is missing (small companies are not required to file their income statement, but this information is also lacking for larger companies).
  • The number of employees is missing.
  • Over half the annual accounts lack an industry code.

Significant step?

Open State has called the publication of the data a «first small step». Given the limitations of the data, I can see their point.

The Chamber of Commerce quoted Minister Henk Kamp, who spoke of a «significant step». His statement was based on a report by the Chamber of Commerce. The report suggested that it would be possible to aggregate data by number of employees, or to analyse concentration ratios.

I’m afraid that’s not possible with the current data. In fact, one may ask whether it’s at all possible to draw conclusions from this data (I’m not the only one who’s asking that question). Hopefully, this is indeed just a first step towards a truly open company register.

Here’s a Python script that will download and unzip the data and store the annual accounts as a csv. This may take a while.

De open data van de Kamer van Koophandel

Pijnlijk: Nederland is een van de minst transparante landen van Europa als het gaat om bedrijfsinformatie. In veel landen is het Handelsregister opengesteld als open data. Voorbeelden zijn Groot-Brittanië, Frankrijk, België, Roemenië, Bulgarije, Finland, Noorwegen en Denemarken (aldus Open State).

In november 2015 heeft de Tweede Kamer een motie aangenomen die vraagt of het Nederlandse handelsregister open kan worden gesteld. Het heeft even geduurd, maar op 17 juli dit jaar heeft de Kamer van Koophandel twee datasets gepubliceerd. Open State, een organisatie die zich inzet voor een transparante overheid, is niet echt enthousiast. Terecht?

De gegevens

Er zijn twee datasets gepubliceerd die wekelijks worden bijgewerkt. De ene bevat bedrijfsgegevens uit het Handelsregister zoals woonplaats, sector, datum oprichting, etc. De andere bevat gegevens uit jaarrekeningen. De jaarrekeningen zitten in een zip-bestand met 580.000 xml-bestanden.

De gegevens zijn geanonimiseerd. Volgens de Kamer van Koophandel is dat noodzakelijk om de privacy van ondernemers te beschermen. Overigens zijn niet-geanonimiseerde gegevens tegen betaling wel verkrijgbaar bij de Kamer van Koophandel.

TNO heeft zich hier ook over gebogen. Het onderzoeksinstituut vindt het terecht om rekening te houden met de privacy van ondernemers, maar vindt de gekozen oplossing (alles anonimiseren) onnodig drastisch.

Het anonimiseren maakt het niet alleen onmogelijk om gegevens over een individueel bedrijf op te zoeken; het beperkt ook de mogelijkheden om gegevens te analyseren. Je kan bijvoorbeeld niet op bedrijfsniveau ontwikkelingen in de tijd volgen.

De jaarrekeningen

In de gepubliceerde gegevens zitten alleen jaarrekeningen die door bedrijven digitaal en in het gewenste bestandsformaat zijn aangeleverd. Er zitten 185.000 jaarrekeningen over 2016 bij, terwijl 255.000 bedrijven hun jaarrekening over dat jaar bij de Kamer van Koophandel hebben gedeponeerd (volgens de Handelsregister dataset). Het lijkt erop dat vooral grotere bedrijven ontbreken. Voor eerdere jaren lijken nog meer jaarrekeningen te ontbreken.

Dit betekent onder meer dat je geen totaalbedragen per sector kan berekenen. Overigens verwacht de Kamer van Koophandel dat in de toekomst meer bedrijven hun jaarrekening digitaal zullen aanleveren.

Bijna alle jaarrekeningen in de open dataset bevatten op zijn minst enkele posten uit de balans, maar andere essentiële informatie ontbreekt:

  • In bijna alle gevallen ontbreekt een winst- en verliesrekening (kleine bedrijven hoeven geen winst- en verliesrekening te deponeren, maar ook voor grotere bedrijven ontbreekt deze informatie).
  • Het aantal werknemers ontbreekt.
  • Ruim de helft van de jaarrekeningen bevat geen sectoraanduiding (SBI-code).

Betekenisvolle stap?

Open State noemt de publicatie van de gegevens slechts «een eerste kleine stap». Gezien de beperkingen kan ik me daar wel iets bij voorstellen.

De Kamer van Koophandel citeert minister Henk Kamp, die sprak van een «betekenisvolle stap». Zijn uitspraak was gebaseerd op een rapport dat de Kamer van Koophandel zelf had opgesteld. Dat rapport suggereerde dat het mogelijk zou worden om aggregaties te maken op basis van het aantal werknemers, of om bijvoorbeeld de concentratie van bepaalde typen bedrijven te onderzoeken.

Met de huidige datasets kan dat niet, lijkt me. Sterker, het is de vraag of je überhaupt conclusies kan verbinden aan deze gegevens (en ik ben niet de enige die zich dit afvraagt). Hopelijk is dit inderdaad slechts een eerste stap naar een echt open handelsregister.

Hier is een Python-script dat de gegevens downloadt en unzipt en de jaarrekeningen opslaat als csv. Dit kan een tijdje duren.

Pages