RStats

High turnout in liberal-voting neighbourhoods, low turnout in left-voting neighbourhoods

A ‘prominent civil servant with a social-democrat background’ gets to hand out 400,000 euros in subsidies to turn out ethnic minorities to vote, the Telegraaf newspaper reported last week. «It’s not difficult to guess which parties will benefit the most from a turnout campaign among hard to reach groups of voters.»

Ok, so they’re hyping it a bit, but the story is more or less accurate. Last year, the city council almost unanimously asked for a campaign that should result in «a turnout of at least 65% across Amsterdam and a substantial increase in turnout in districts that have a low turnout and among specific groups».

Turnout in elections is uneven, as the charts below illustrate. In neighbourhoods where many people voted economic left (SP or PvdA), turnout was low in 2010. By contrast, in neighbourhoods that tend to vote (neo) liberal (pro-market parties VVD and D66), turnout was high. On the one hand there’s Bijlmer Centrum: 57% voted economic left in 2010, but turnout was only 34%. At the other end of the spectrum, there’s for example the Apollobuurt: 57% voted liberal and turnout was 65%. A similar pattern occured in previous elections.

What causes this correlation between political outcome and turnout? A possible explanation: high educated, well-paid, white home owners have more confidence that politicians will take their interests into account. Therefore, they’re more inclined to think it makes sense to vote. And they often vote liberal.

Interestingly, turnout isn’t always that unequal, as a comparison of the 2002 and 2006 elections serves to illustrate.

The boxplot to the left shows that turnout tended to be higher in 2006 than in 2002. At least as interesting is the fact that inequality in turnout has decreased. The chart to the right shows how this happened. In allmost all neighbourhoods, turnout rose relative to 2002, but it rose most in neighbourhoods that had low turnout in 2002. Examples include the Kolenkit in West, the Vogelbuurt in Noord and Bijlmer Centrum. Incidentally, turnout inequality rose again in 2010.

A similar development has taken place at the national level. In elections for the Lower Chamber, liberal-voting municipalities tend to have higher turnout than left-voting ones. Again, turnout inequality was lower in 2006 than in 2002 and 2003. (If you want to check the calculations: data and code for the analysis at both the local and the national level can be found here.)

2006 was a year in which left-wing parties got relatively many votes. For example, PvdA, GroenLinks, SP and AADG jointly got 33 seats in the Amsterdam council, compared to 26 in 2002. Since inequality was less uneven in 2006, it’s conceivable that the 2006 election result better reflected the preferences of Amsterdammers than the election result of 2002.

In any case: if we want a fairer election outcome, it’s important to get more people to vote, especially in neighbourhoods that tend to have low turnout. Whether the municipal turnout campaign will be effective is difficult to say on the basis of the plans, but it is possible to raise turnout. For example, by organising local elections on the same day as national elections.

Hoge opkomst in buurten die liberaal stemmen, lage opkomst in buurten die links stemmen

Een ‘prominente ambtenaar van PvdA-huize’ mag 400.000 euro subsidie uitdelen om kiezers te ronselen onder Amsterdamse allochtonen, zo wist de Telegraaf vorige week te melden. «Het laat zich raden welke partijen het meeste baat hebben bij opkomstbevordering onder moeilijk bereikbare kiezersgroepen.»

Ok, ze hebben het een beetje tendentieus opgeschreven, maar er zit een kern van waarheid in. De gemeenteraad heeft vorig jaar bijna unaniem gevraagd om een campagne die moet leiden tot «een opkomst van minimaal 65% in heel Amsterdam en een substantiële verhoging van de opkomst in de stadsdelen waar de opkomst laag was en onder specifieke groepen».

De opkomst bij verkiezingen is ongelijk verdeeld, zo laten de grafieken hieronder zien. In buurten waar veel mensen economisch links hebben gestemd (SP of PvdA) was de opkomst in 2010 laag. In buurten waar veel stemmen naar de (neo-) liberale partijen VVD en D66 gingen, was de opkomst juist hoog. Het ene uiterste is Bijlmer Centrum: 57% stemde in 2010 economisch links, maar de opkomst was maar 34%. Aan de andere kant van het spectrum heb je bijvoorbeeld de Apollobuurt: 57% stemde liberaal en de opkomst was 65%. Bij eerdere verkiezingen was een vergelijkbaar patroon te zien.

Waar komt die correlatie tussen verkiezingsuitslag en opkomst vandaan? Een mogelijke verklaring: hoog opgeleide, goedbetaalde autochtonen met een eigen huis hebben er meer vertrouwen in dat de politiek rekening houdt met hun belangen. Daarom zien ze eerder het nut ervan in om te gaan stemmen. En ze stemmen vaak liberaal.

Interessant is dat de opkomstverschillen niet altijd zo groot zijn. Een vergelijking van de verkiezingen van 2002 en 2006 kan dat illustreren.

De boxplot aan de linkerkant laat zien dat de opkomst in 2006 over het algemeen wat hoger was dan in 2002. Zeker zo opvallend is dat de verschillen kleiner zijn geworden. De grafiek rechts laat zien hoe dat komt. Bijna overal steeg de opkomst in 2006, maar de opkomst is het meest toegenomen in de buurten waar in 2002 weinig mensen hebben gestemd. Denk aan de Kolenkit in West, de Vogelbuurt in Noord of Bijlmer Centrum. In 2010 nam de ongelijkheid overigens weer toe.

Hetzelfde verschijnsel heeft zich ook landelijk voorgedaan. Bij de Tweede Kamerverkiezingen hebben gemeenten waar vooral liberaal wordt gestemd een hogere opkomst dan links stemmende gemeenten. Opnieuw geldt dat de opkomstverschillen tussen gemeenten in 2006 kleiner waren dan in 2002 en 2003. (Voor wie het na wil rekenen: hier zijn alle gegevens en de code voor de berekeningen te vinden, zowel voor Amsterdam als landelijk.)

2006 was een jaar waarin linkse partijen relatief veel stemmen kregen. Zo kregen PvdA, GroenLinks, SP en AADG samen 33 zetels in de Amsterdamse raad, tegen 26 in 2002. Omdat de opkomst dat jaar minder ongelijk was, zou het zomaar kunnen dat de uitslag van 2006 een betere weerspiegeling vormt van de voorkeuren van de Amsterdammers dan de uitslag van 2002.

Hoe dan ook: als je een eerlijke verkiezingsuitslag wil, dan moet je zorgen dat meer mensen gaan stemmen, vooral in de buurten die gewoonlijk een lage opkomst hebben. Of de opkomstcampagne van de gemeente effectief zal zijn valt op basis van de plannen niet zo goed in te schatten, maar de opkomst verhogen is mogelijk. Bijvoorbeeld door de lokale verkiezingen voortaan op dezelfde dag te houden als de Tweede Kamerverkiezing.

Counting unofficial retweets

One way of finding out who’s influential on Twitter is to count how often people are retweeted. I did so when analysing the Twitter discussion on the election of the new president of the Dutch trade union confederation FNV.

I counted both ‘official’ retweets – retweets acknowledged by Twitter – and ‘unofficial’ retweets. Unofficial retweets may have been generated by unofficial Twitter apps (I think) or users may have typed them manually. They may have the pattern RT@username:text (which is also the pattern of official retweets), the pattern "@username:text", or the pattern text via @username (this pattern wasn’t in my original analysis). Perhaps there are more flavours around that I don’t know of.

When looking for background information, I came across a comment by an SEO analyst explaining why they don’t count unofficial retweets:

To try to count non-official RTs is a messy business, as it would require a lot more Twitter API calls for possibly negligible benefit. Why negligible? We make an assumption that non-official RTs correlate strongly with official RTs. We can then use the latter as a proxy for the former. This assumption may not be true, of course. That is, by not using non-official RTs, we may ignore pockets of users who generate many more unofficial RTs... perhaps those who ask a question, or invite a response? (comment by Pete Bray on this article)

Below is some information on how often users in my FNV sample were retweeted within that same sample.

Prevalence of types of retweets
Official retweet RT@username:text "@username:text"text via @username
Sum 3,544 113 9860

At least within this sample, unofficial retweets are not very common: they make up about seven percent of all retweets. And here’s some information on how official and unofficial retweets are correlated:

Correlations between types of retweets (spearman)
Official retweet RT@username:text "@username:text"text via @username
Official retweet 1 0.28 0.250.13
RT@username:text 0.28 1 0.140.10
"@username:text" 0.25 0.14 10.13
text via @username0.130.100.131

Users who generate more official retweets also tend to generate more unofficial retweets, but the correlation is not particularly strong. So based on this sample, it would seem conceivable that there are indeed ‘pockets of users who generate many more unofficial RTs’ – as suggested by Bray.

Method

The sample contains close to 11,000 tweets containing the string FNV, collected between 26 April and 16 May. For background see this article; the analysis of retweets in the FNV debate is here. The code I used for the analysis above is here.

If you have a sample of tweets and you want to know how often users in that sample have been retweeted, you can only find that out for retweets that are also in the same sample. In my case that wasn’t a problem, for I was interested in who was influential within a specific discussion. However, if you’d be interested in constructing a general measure of how influential twitter users are, you’d probably need a pretty large sample of tweets.

The messiest type of retweet is probably text via @username. Often these aren’t real retweets but added by services like sharethis or AddThis or by news websites that have their own share service (I only included users if they were already in the sample, i.e. had tweeted texts containing FNV; this eliminates sharethis and AddThis tweets). I looked for the pattern via @ followed by any number of non-whitespace characters at the end of the line, or followed by any number of non-whitespace characters before the first whitespace. This method may not be 100% accurate, but I think it’ll do. The regex patterns used to find the different types of retweets are in the code.

Because the retweet counts are not normally distributed (many have a value of 0) I used spearman rank correlation; pearson’s correlation would have yielded stronger - but still not particularly strong - correlations of up to 0.5.

Wie wordt volgens Twitter de nieuwe FNV-voorzitter

Aantal tweets waarin kandidaten worden genoemd


Volgens Amerikaans onderzoek kan je de uitkomst van verkiezingen voorspellen door simpelweg te tellen hoe vaak de namen van de kandidaten worden genoemd op Twitter. Zou je op deze manier ook kunnen voorspellen wie de nieuwe voorzitter wordt van de FNV?

Ik heb vanaf afgelopen vrijdag de tweets verzameld waarin de term ‘FNV’ voorkomt, tot nog toe zijn dat er ruim 2.500. In deze tweets wordt Ton Heerts 204 keer genoemd en Corrie van Brenk 146 keer (tweets waarin ze allebei worden genoemd laat ik buiten beschouwing). Kortom, als Twitter een goede graadmeter is (daarover valt natuurlijk te discussiëren) dan wordt de strijd spannender dan het aanvankelijk misschien leek.

De grafiek hierboven laat de resultaten zien voor de dagen waarvoor volledige gegevens beschikbaar zijn. Er was vanaf zaterdag aandacht voor Van Brenk (vanwege deze factcheck). Op zondag werd Heerts genoemd omdat hij te gast was in het tv-programma van Eva Jinek. Op 1 mei werden de kandidaten officieel bekendgemaakt en gingen ze met elkaar in debat.

Update - Bijgewerkt tot en met 13 mei, de laatste dag waarop gestemd kon worden. In totaal is Van Brenk 497 keer genoemd en Heerts 631. Inmiddels is bekend dat Heerts de verkiezing heeft gewonnen (uiteraard is daarmee nog niet gezegd dat de methode hout snijdt: om daar iets zinnigs over te kunnen zeggen zou je een flink aantal voorspellingen moeten kunnen beoordelen).
In de grafiek zijn onder meer de volgende invloeden zichtbaar: Factcheck bevestigt uitspraak Van Brenk (vanaf 27 april); Heerts bij Eva Jinek (28 april); officiële bekendmaking kandidaten (1 mei); debat bij Buitenhof (5 mei); belastingaffaire waarover Van Brenk’s Abvakabo FNV al aan de bel had getrokken (6 mei); interview Van Brenk op Nu.nl (9 mei); radio-optreden Van Brenk (10 mei); Heerts bij presentatie Techniekpact (13 mei); peiling EenVandaag voorspelt dat Heerts wint (13 mei).
De grafiek is mogelijk niet zichtbaar in oude versies van Internet Explorer.

Methode

Tweets heb ik verzameld via de Twitter Streaming API, op de manier die hier wordt beschreven. Daarbij heb ik gefilterd op de zoekterm ‘fnv’. Ik heb de gegevens met Python bewerkt en met R geanalyseerd (de code staat op Github). De grafiek is gemaakt met D3.js.
Ik heb nog gekeken naar hoe invloedrijk de twitteraars zijn (hoeveel volgers; hoe vaak opgenomen in lijsten) en naar hun achtergrond (noemen ze in hun profiel bijvoorbeeld de FNV). Het belangrijkste wat dit opleverde is dat twitteraars die Van Brenk noemen vaker ‘abva’ of ‘akf’ in hun profiel noemen - niet verassend aangezien Van Brenk momenteel voorzitter is van Abvakabo FNV.
Het Amerikaanse onderzoek naar Twitter als voorspeller van verkiezingsuitslagen is uitgevoerd door DiGrazia en anderen en is hier te vinden. Enkele opmerkingen over hun onderzoek:

  • Het klopt natuurlijk dat twitteraars maar een klein deel van de bevolking vormen en dat ze niet representatief zijn voor de hele bevolking. Waarschijnlijk wordt het beeld op Twitter vooral bepaald door een kleine, actieve incrowd. Ook klopt het dat een tweet waarin een kandidaat wordt genoemd niet altijd positief is; soms wordt er juist kritiek geuit. Ondanks dit alles bleek uit het onderzoek van DiGrazia e.a. dat het aantal keer dat een kandidaat op Twitter wordt genoemd een consistente voorspeller vormt van verkiezingsuitslagen. Wellicht vormt het aantal vermeldingen op twitter een indicator voor iets anders, bijvoorbeeld media-aandacht of hoe actief er campagne wordt gevoerd voor een kandidaat.
  • De methode biedt uiteraard geen zekerheid over wie er wint. Het kan voorkomen dat een kandidaat bijna 100% van de twittervermeldingen krijgt en toch verliest (althans dat suggereren de scatterplots die DiGrazia e.a. laten zien).
  • Het is onduidelijk in hoeverre de conclusies van het Amerikaanse onderzoek naar andere situaties kunnen worden gegeneraliseerd. Het is daarom wel een beetje een gok om met deze methode te voorspellen wie de nieuwe voorzitter van de FNV wordt.

Can Twitter predict the new Dutch trade union president

Number of tweets in which candidates are mentioned


According to an American study, you can predict the outcome of elections by simply counting how often the names of the candidates are mentioned on Twitter. Members of the Dutch union confederation FNV are currently voting for their new president (it has been claimed this is the first time in the world union members get to directly elect their confederation president). Would it be possible to predict who will be the new FNV president using Twitter?

Since last Friday, I’ve been collecting the tweets containing the term ‘FNV’; so far, there are over 2,500. In those tweets, the incumbent Ton Heerts is mentioned 204 times, whereas his challenger Corrie van Brenk is mentioned 146 times. In short, if Twitter is a good predictor (which of course is a matter for debate), the contest is tighter than one might have expected.

The graph above shows the results for the days for which complete data is available. On Saturday, Van Brenk got some attention because something she had said had been fact checked (and found to be correct). On Sunday, Heerts was mentioned because he appeared on a TV show hosted by Eva Jinek. On 1 May, it was officially announced who the candidates are and they had a debate.

Update - Updated to include 13 May, the final voting day. In sum, Van Brenk was mentioned 497 times and Heerts 631. It has since been announced that Heerts has won the election (of course, this doesn’t necessarily mean that the method is sound; in order to make such claims one would need to evaluate a fair amount of predictions).
Influences reflected in the graph include: Factcheck confirms Van Brenk statement (27 April); Heerts in Eva Jinek TV show (28 April); candidates officially announced (1 May); debate in Buitenhof TV show (5 May); problems at tax authorities that Van Brenk’s Abvakabo FNV had warned about (6 May); Van Brenk interview at Nu.nl (9 May); Van Brenk in radio show (10 May); Heerts at presentation of initiative to train technical staff (13 May); EenVandaag TV show poll predicts Heerts will win (13 May).
The graph may not be visible in older versions of Internet Explorer.

Method

I collected tweets using the Twitter Streaming API (the ‘firehose’), in the way described here. I prepared the data using Python and analysed it using R (find the code on Github). The graph was created with D3.js.
I looked into how influential twitterers are (how many followers, how often listed) and into their backgrounds (e.g., do they mention ‘fnv’ in their profile). The most important finding is that twitterers who mention Van Brenk, more often mention ‘abva’ or ‘akf’ in their profile - not surprising since Van Brenk is currently president of Abvakabo FNV, the public sector union affiliated to the FNV.
The American study on Twitter as a predictor of election outcomes was done by DiGrazia c.s. and can be found here. Some remarks on their study:

  • Yes, twitterers are only a small part of the population and no, they’re not representative of the entire population. Likely, Twitter is dominated by a small, active incrowd. It’s also correct that tweets mentioning a candidate need not endorse them; they may as well be critical. Despite all this, DiGrazia c.s. found that mentions on Twitter consistently predict election outcomes. Perhaps they are an indicator of something else - e.g. media attention or how actively people are campaigning for a candidate.
  • Of course, this method doesn’t provide any certainty on who will win. It’s possible for a candidate to get almost 100% of the tweet share and still lose (at least, that’s what the scatterplots of DiGrazia c.s. suggest).
  • It’s unclear to what extent the conclusions of the American study can be generalised to other situations. It’s therefore a bit of a gamble to use this method to predict who will be the next president of the FNV.

Pages