champagne anarchist | armchair activist

CBS Statline is vernieuwd

Voor heel veel mensen vormt Statline de toegang tot de cijfers van het CBS. Het is dan ook best groot nieuws dat Statline compleet is vernieuwd. Voor mensen die moeite hebben met overstappen blijft de oude versie tot na de zomer in de lucht, maar dan moet iedereen eraan geloven. Wat betekent dit?

Er zijn momenteel vier ingangen om toegang te krijgen tot dezelfde gegevens: de ‘gewone’ Statline, het Dataportaal, de API en de Feed.

Statline lijkt vooral gericht op het algemene publiek. Je krijgt tabellen op je scherm te zien en je kan de gegevens als grafiek weergeven. De manier waarop je gegevens selecteert binnen een tabel is veranderd ten opzichte van het ‘oude’ Statline. «Het belangrijkste is dat je ziet dat je de data kunt ‘slepen’,» aldus het CBS.

Het Dataportaal is eigenlijk bedoeld als hulpmiddel voor mensen die de API gebruiken, maar je kan het ook gebruiken om handmatig gegevens te zoeken en te downloaden. Je kan altijd doorklikken naar een voorvertoning in Statline als je de tabel toch op je scherm wil zien.

Enkele verschillen tussen Statline en Dataportaal:

  • In Dataportaal kan je de metadata zoals gegevensbronnen en definities makkelijker downloaden (vroeger zaten die in een aparte tab van je Exceldownload, maar Exceldownloads zijn afgeschaft).
  • Een nadeel van het Dataportaal is dat je geen permanente link krijgt naar een selectie die je hebt toegepast op een tabel. Als je in een rapportage wil verantwoorden welke CBS-cijfers je precies gebruikt hebt, dan is een link naar een tabelselectie in Statline waarschijnlijk de beste oplossing.

Dan zijn er nog de API en de Feed. De API is bedoeld voor mensen die apps bouwen met CBS-gegevens. De Feed is bedoeld voor bulkdownloads. De Feed is denk ik ook handig als je een script schrijft om een analyse of rapportage te maken en je wil als onderdeel van dat script de (meest recente) gegevens downloaden.

Bij het downloaden van gegevens moet je er rekening mee houden dat er twee soorten datasets worden aangeboden, waarbij verschillende termen door elkaar worden gebruikt (ik hoop dat ik alles correct heb geïnterpreteerd):

  • UntypedDataset / Onbewerkte dataset / CSV met statistische symbolen. In deze datasets kan je symbolen tegenkomen zoals een . (gegevens ontbreken), een - (nihil) of X (geheim).
  • TypedDataset / Dataset voor grafische weergave / CSV zonder statistische symbolen. Hierin zijn alle ontbrekende waarden als blank aangegeven en nihil door een 0.

Welk type data je moet downloaden zal afhangen van het doel waarvoor je de gegevens wil gebruiken, maar voor verdere verwerkingen zal het tweede type vaak handiger zijn. Let op: bij Statline krijg je afhankelijk van het type dat je kiest een komma of een punt als scheidingsteken voor decimalen.

Dan nog wat losse punten:

  • In het oude Statline kon je gegevens downloaden als Excelbestand, nu alleen nog als csv. Csv is natuurlijk perfect, alleen soms is het makkelijk om snel een Excel te downloaden en bijvoorbeeld te checken welke sector de afgelopen tien jaar het meest is gegroeid. Nu moet je eerst het tekstbestand importeren in Excel (of bijvoorbeeld Jupyter opstarten).
  • De csv-export volgt niet langer de tabelindeling op je scherm (tenzij je daar expliciet voor kiest in Statline). In plaats daarvan nog maar één regel met kolomlabels, en verder één observatie per regel. Wel zo makkelijk bij de verdere verwerking.
  • Met de Kerncijfers wijken en buurten moet je een beetje oppassen: er zijn spaties toegevoegd aan de waarden voor regioaanduiding en afhankelijk van het type gegevensdownload ook aan sommige andere waarden. Bijvoorbeeld soort regio ‘Wijk     ’, gemiddelde huishoudensgrootte ‘     1.6’. Je zal die waardes dus moeten strippen.

Bij de aankondiging van het nieuwe Statline werd uitgelegd dat de nieuwe techniek het mogelijk maakt om de zoekfunctie in de toekomst te verbeteren. Dat klinkt interessant.

Tenslotte nog een tip voor regelmatige gebruikers van CBS-data: de handleiding CBS Open Data Services geeft meer inzicht in hoe de gegevens georganiseerd zijn. In het Dataportaal vind je een link om de handleiding te downloaden.

De nieuwe Statline is op 2 november 2017 live gegaan. Aanvankelijk zou de oude versie nog zes maanden in de lucht blijven, maar die periode is verlengd.

Follow this blog:
Twitter (English) | Twitter (Nederlands) | RSS data blog (English) | RSS dirkmjk (Nederlands)