Data, het buzz-woord van 2013. Hoe groter hoe beter en het liefst weergegeven met leuke, kleurige en interactieve infographics. Maar wat doen we behalve consumeren nog meer met data?

Hoe word je datatovenaar. Case 1: het songfestivalWant op dit moment lijkt het goochelen met datasets voorbehouden aan professionele data-analisten, hackers en whizzkids. Dat is best raar, als je je voorstelt dat data ons meer en meer kan helpen bij het maken van keuzes. Om dit een beetje kracht bij te zetten, probeer ik aan de hand van wat historische gegevens van het songfestival de uitkomst te voorspellen van het songfestival van Zaterdag 18 mei.

Gouden gegevens

Als ik een eurocent zou krijgen voor iedere keer dat data op de interwebs vergeleken wordt met olie of met goud dan had ik nu al een slordige 12,5 miljoen euro verdiend. Ondanks het massale gebruik van deze vergelijking valt er wel een en ander op aan te merken.

Overvloed

Data never sleeps

Anders dan goud en olie is data namelijk in overschot aanwezig. Het is geen schaars product, in tegendeel, we verzuipen er haast in. En het is dweilen met de kraan open want elke minuut van elke dag voegen we meer en meer data aan die toch al zo grote oceaan toe.

 

Geen grote investeringen

Ook waar het gaat om het verkrijgen van de data loopt de vergelijking mank. In tegenstelling tot het delven van goud of het boren naar olie heb je voor het verkrijgen van data geen grote investeringen nodig. Voor het raffineren van ruwe gegevens heb je geen fabrieken met complexe chemische productieprocessen nodig. Veel van de gereedschappen die nodig zijn voor het bewerken van data kosten welgeteld €0,-. Er is feitelijk maar één grote investering, en dat is de investering in kennis. Een investering in jezelf dus..

The Big 5

Onbekend maakt onbemind. Tel daar een enorme woordenbrij aan vakjargon bij op en het is niet verwonderlijk dat veel mensen zich al niet eens meer afvragen hoe ze zelf uit grote gegevensverzamelingen relevante informatie kunnen halen.

Vijf essentiële bewerkingen van data
Fotocredits Flickr/giuliomarziale

Toch zijn er wel bekeken maar 5 essentiële handelingen waarmee je antwoorden uit een dataset haalt:

  • verzamelen
  • filteren
  • combineren
  • clusteren
  • sorteren

Dit zijn begrippen waar iedereen met een paar voorbeelden zijn hoofd omheen kan krijgen. De rest is proberen, weggooien en opnieuw proberen.

Als voorbeeld, het songfestival

Met de ‘Big Five’ als gereedschap heeft geen dataset meer geheimen. Spreekt voor zich dat je wel iets over de gegevens moet weten om een relevant antwoord op een vraag uit de hoge hoed te toveren. Laten we als voorbeeld iets nemen waar iedereen wel iets van weet, waar al veel analyses over gemaakt zijn en waar iedereen een mening over heeft. Het Songfestival.

De stelling

Laten we er voor het gemak even vanuit gaan dat alle krachten en machten die buiten de kwaliteit van de individuele liedjes de uitkomst tijdens songfestival de beïnvloeden ook dit jaar van toepassing zijn.
Laten we er dan, met de voeten op tafel en voor ons uit mijmerend, ook vanuit gaan dat de landen met de hoogste notering over de afgelopen jaren het songfestival het best begrijpen. En daarmee bedoel ik te zeggen dat ze het vaakst in staat waren een artiest, een liedje en een performance neer te zetten die op de waardering van zowel vakjury als publiek kon rekenen.

Dan hoeven we alleen nog maar de resultaten uit het verleden op te tellen om tot een lijstje met historische favorieten te komen. In dit geval wil ik kijken welke landen een gemiddelde beste positie hebben behaald en hoeveel punten deze landen over de jaren in de finale bij elkaar hebben gesprokkeld.

Verzamelen

Naar historische gegevens van het Eurovisiesongfestival hoeven we niet lang te zoeken. Deze zijn, van alle jaren dat het festival is gehouden, terug te vinden op de officiële website.

Tenzij je over scripting superpowers beschikt is dit het moment voor het goeie oude Ctrl-C/Ctrl-V. Het betere knip en plakwerk. Ik gebruik een licht en lenig tooltje dat helemaal gemaakt is voor het kneden van data… maar ook een spreadsheet zoals Microsoft Excel of het Opensource programma Open Office Calc werkt prima.

Clusteren

Eenmaal alles onder elkaar geplakt kan ik gaan clusteren. Ook dat klinkt misschien magisch, maar is in dit geval niet anders dan sorteren. En we sorteren dan natuurlijk op de kolom met de “Representing country”
Je kunt er vervolgens voor kiezen om de clustertjes naar aparte sheets te knippen en plakken of om onder elke cluster een regel toe te voegen waar je de gemiddelde positie en het totaal aantal punten per land berekent. Deze berekende data zou vanaf 2002 een tweetal sets moeten opleveren met de volgende inhoud:
Gemiddelde ranking landen in het Eurovisie Songfestival Totaal aantal punten van landen in het Eurovisie Songfestival

Sorteren

Volgens mij moeten we dan op zoek naar het land met het hoogste aantal punten en de hoogste gemiddelde ranking. Ook hier weer een eenvoudige sorteer exercitie. Et voilà!

Historisch favorieten van het Eurovisie Songfestival

And the winner is…

Zoals je ziet hebben we bij de voorspelde uitslag de landen die dit jaar niet meedoen of in de halve finale zijn uitgevallen voor het gemak al uit de lijst verwijderd. Zo houd je een mooi lijstje over om vanaf de bank te kunnen roepen: ”Had ik het niet gezegd…”

0 Shares:
4 comments
  1. Ik ga toch meer voor de alchemie die van data informatie kan maken… Dat is pas echt van iets wat op zichzelf waardeloos is, goud maken… ;-)

Comments are closed.

Dit artikel is 4.264 keer gelezen