Hoe word je datatovenaar. Case 1: Het songfestival

Data, het buzz-woord van 2013. Hoe groter hoe beter en het liefst weergegeven met leuke, kleurige en interactieve infographics. Maar wat doen we behalve consumeren nog meer met data?

Want op dit moment lijkt het goochelen met datasets voorbehouden aan professionele data-analisten, hackers en whizzkids. Dat is best raar, als je je voorstelt dat data ons meer en meer kan helpen bij het maken van keuzes. Om dit een beetje kracht bij te zetten, probeer ik aan de hand van wat historische gegevens van het songfestival de uitkomst te voorspellen van het songfestival van Zaterdag 18 mei.

Gouden gegevens

Als ik een eurocent zou krijgen voor iedere keer dat data op de interwebs vergeleken wordt met olie of met goud dan had ik nu al een slordige 12,5 miljoen euro verdiend. Ondanks het massale gebruik van deze vergelijking valt er wel een en ander op aan te merken.

Overvloed

Anders dan goud en olie is data namelijk in overschot aanwezig. Het is geen schaars product, in tegendeel, we verzuipen er haast in. En het is dweilen met de kraan open want elke minuut van elke dag voegen we meer en meer data aan die toch al zo grote oceaan toe.

Geen grote investeringen

Ook waar het gaat om het verkrijgen van de data loopt de vergelijking mank. In tegenstelling tot het delven van goud of het boren naar olie heb je voor het verkrijgen van data geen grote investeringen nodig. Voor het raffineren van ruwe gegevens heb je geen fabrieken met complexe chemische productieprocessen nodig. Veel van de gereedschappen die nodig zijn voor het bewerken van data kosten welgeteld €0,-. Er is feitelijk maar één grote investering, en dat is de investering in kennis. Een investering in jezelf dus..

The Big 5

Onbekend maakt onbemind. Tel daar een enorme woordenbrij aan vakjargon bij op en het is niet verwonderlijk dat veel mensen zich al niet eens meer afvragen hoe ze zelf uit grote gegevensverzamelingen relevante informatie kunnen halen.

Vijf essentiële bewerkingen van data — Fotocredits Flickr/giuliomarziale

Toch zijn er wel bekeken maar 5 essentiële handelingen waarmee je antwoorden uit een dataset haalt:

verzamelen
filteren
combineren
clusteren
sorteren

Dit zijn begrippen waar iedereen met een paar voorbeelden zijn hoofd omheen kan krijgen. De rest is proberen, weggooien en opnieuw proberen.

Als voorbeeld, het songfestival

Met de ‘Big Five’ als gereedschap heeft geen dataset meer geheimen. Spreekt voor zich dat je wel iets over de gegevens moet weten om een relevant antwoord op een vraag uit de hoge hoed te toveren. Laten we als voorbeeld iets nemen waar iedereen wel iets van weet, waar al veel analyses over gemaakt zijn en waar iedereen een mening over heeft. Het Songfestival.

De stelling

Laten we er voor het gemak even vanuit gaan dat alle krachten en machten die buiten de kwaliteit van de individuele liedjes de uitkomst tijdens songfestival de beïnvloeden ook dit jaar van toepassing zijn.
Laten we er dan, met de voeten op tafel en voor ons uit mijmerend, ook vanuit gaan dat de landen met de hoogste notering over de afgelopen jaren het songfestival het best begrijpen. En daarmee bedoel ik te zeggen dat ze het vaakst in staat waren een artiest, een liedje en een performance neer te zetten die op de waardering van zowel vakjury als publiek kon rekenen.

Dan hoeven we alleen nog maar de resultaten uit het verleden op te tellen om tot een lijstje met historische favorieten te komen. In dit geval wil ik kijken welke landen een gemiddelde beste positie hebben behaald en hoeveel punten deze landen over de jaren in de finale bij elkaar hebben gesprokkeld.

Verzamelen

Naar historische gegevens van het Eurovisiesongfestival hoeven we niet lang te zoeken. Deze zijn, van alle jaren dat het festival is gehouden, terug te vinden op de officiële website.

Tenzij je over scripting superpowers beschikt is dit het moment voor het goeie oude Ctrl-C/Ctrl-V. Het betere knip en plakwerk. Ik gebruik een licht en lenig tooltje dat helemaal gemaakt is voor het kneden van data… maar ook een spreadsheet zoals Microsoft Excel of het Opensource programma Open Office Calc werkt prima.

Clusteren

Eenmaal alles onder elkaar geplakt kan ik gaan clusteren. Ook dat klinkt misschien magisch, maar is in dit geval niet anders dan sorteren. En we sorteren dan natuurlijk op de kolom met de “Representing country”
Je kunt er vervolgens voor kiezen om de clustertjes naar aparte sheets te knippen en plakken of om onder elke cluster een regel toe te voegen waar je de gemiddelde positie en het totaal aantal punten per land berekent. Deze berekende data zou vanaf 2002 een tweetal sets moeten opleveren met de volgende inhoud:

Sorteren

Volgens mij moeten we dan op zoek naar het land met het hoogste aantal punten en de hoogste gemiddelde ranking. Ook hier weer een eenvoudige sorteer exercitie. Et voilà!

And the winner is…

Zoals je ziet hebben we bij de voorspelde uitslag de landen die dit jaar niet meedoen of in de halve finale zijn uitgevallen voor het gemak al uit de lijst verwijderd. Zo houd je een mooi lijstje over om vanaf de bank te kunnen roepen: ”Had ik het niet gezegd…”

Gerelateerd

4 comments

Rene Smit schreef:

18 mei, 2013 om 15:17

Maar wie gaat nou de winnaar worden??? :)
1. matthijsedelman schreef:
  
  18 mei, 2013 om 15:32
  
  Ik denk 1 van de eerste 5.. Dat maakt de lijst toch aanzienlijk kleiner, niet?
Andre Speek schreef:

18 mei, 2013 om 17:42

Ik ga toch meer voor de alchemie die van data informatie kan maken… Dat is pas echt van iets wat op zichzelf waardeloos is, goud maken… ;-)
matthijsedelman schreef:

21 mei, 2013 om 11:19

Ik kan er naast lezen, dat is wat ik schrijf… dus..wat fijn dat we het eens zijn.

Comments are closed.

Xaviera Ringeling op Wat is Bluesky? Uitleg voor beginners21 september, 2023
I would love 1!
Claudia Rahanmetan op Wat is Bluesky? Uitleg voor beginners19 september, 2023
Ik heb 1 invite voor de liefhebber
Xaviera Ringeling op 42Bis is back baby24 juli, 2023
ha Jan, wat leuk dat je dat hebt onthouden. Mij is het een beetje ontschoten, maar de afgelopen 10 jaar…

Hoe word je datatovenaar. Case 1: Het songfestival

Gouden gegevens

Overvloed

Geen grote investeringen

The Big 5

Als voorbeeld, het songfestival

De stelling

Verzamelen

Clusteren

Sorteren

And the winner is…

Gerelateerd

Tags:

Matthijs Edelman

4 comments

[Infographic] Wat kost de schade aan Smartphones onze economie?

[Infographic] Social media shortcut

Hoe je als manager meer tijd overhoudt voor je eigen werk met zakelijk tekenen

Hoe je het zelfvertrouwen van medewerkers vergroot met zakelijk tekenen