Traditionele statistieken zijn doorgaans gebaseerd op gegevens die zijn verzameld in steekproeven, die bewust zijn ontleend aan gespecificeerde en beperkte populaties. Metingen zijn vaak gericht op een klein aantal belangrijke variabelen die van tevoren zijn bepaald. De steekproefomvang is doorgaans groter dan de afmetingen van de gegevens en is voldoende om conclusies te kunnen trekken over de exacte populatie in gedachten.
In de 21e eeuw is dataverzameling vaak geautomatiseerd, wat resulteert in grotere en complexere datasets met meer variabelen, verschillende soorten gegevens en frequentere observaties. De resulterende grote datasets worden doorgaans gekenmerkt door de vier V’s. Hoe dit soort data effectief te gebruiken?
Volume
Het datavolume verwijst naar de omvang van de datasets die moeten worden geanalyseerd en verwerkt, die nu vaak groter zijn dan terabytes en petabytes. Het enorme volume aan gegevens vereist afzonderlijke en andere verwerkingstechnologieën dan traditionele opslag- en verwerkingsmogelijkheden. Met andere woorden: dit betekent dat de datasets in big data te groot zijn om met een reguliere laptop- of desktopprocessor te verwerken. Een voorbeeld van een dataset met een hoog volume zijn alle creditcardtransacties op een dag binnen Europa.
Velocity (snelheid)
Velocity verwijst naar de snelheid waarmee gegevens worden gegenereerd. Gegevens met hoge snelheid worden in zo'n tempo gegenereerd dat er aparte (gedistribueerde) verwerkingstechnieken voor nodig zijn. Een voorbeeld van gegevens die met hoge snelheid worden gegenereerd, zijn Twitter-berichten of Facebook-berichten, of GPS-informatie van bewegende voertuigen.
Variety
Variety gaat over de verschillende soorten data en de structuur. Big data komen uit een grote verscheidenheid aan bronnen en zijn over het algemeen één van de drie typen: gestructureerde, semi-gestructureerde en ongestructureerde data. De verscheidenheid aan gegevenstypen vereist vaak specifieke verwerkingsmogelijkheden en gespecialiseerde algoritmen. Een voorbeeld van zeer uiteenlopende datasets zijn de CCTV-audio- en videobestanden die op verschillende locaties in een stad worden gegenereerd.
Veracity (kwaliteit)
Veracity verwijst naar de kwaliteit en betrouwbaarheid van de gegevens die worden geanalyseerd. Gegevens met een hoge waarheidsgetrouwheid bevatten veel records die waardevol zijn om te analyseren en die op een zinvolle manier bijdragen aan de algemene resultaten. Gegevens met een lage waarheidsgetrouwheid bevatten daarentegen een hoog percentage betekenisloze of onbetrouwbare gegevens. De niet-waardevolle delen in deze datasets worden ruis genoemd. Een voorbeeld van een dataset met hoge waarheidsgetrouwheid zijn gegevens van een medisch experiment of proces.
Uitdagingen van AI v
Big data wordt gekenmerkt door (extreem) grote steekproeven en hoge dimensionaliteit.
Ten eerste maakt dit het mogelijk om patronen of verborgen relaties die in de gegevens zijn vastgelegd, te onthullen. Aan de andere kant, omdat big data doorgaans heterogeen zijn (dat wil zeggen variërende varianties rond gemodelleerde relaties), zijn er verschillende statistische technieken nodig om relaties betrouwbaar te modelleren.
Een ander probleem dat doorgaans gepaard gaat met het gebruik van big data is ‘ruisaccumulatie’, dat wil zeggen dat voor het analyseren van big data veel variabelen tegelijkertijd worden gemodelleerd. De residuen, of schattingsfouten, stapelen zich doorgaans op, waardoor de interpretatie van de gemodelleerde relatie of voorspelling minder betrouwbaar wordt.
Een ander probleem bij het gebruik van grote datasets is de aanwezigheid van “spurieuze correlatie”. Dat wil zeggen dat vanwege de hoge dimensionaliteit veel in werkelijkheid niet-gecorreleerde willekeurige variabelen significante steekproefcorrelaties kunnen hebben. Valse correlaties kunnen aanleiding geven tot valse statistische gevolgtrekkingen en het is om deze reden dat P-waarden die worden gegenereerd in statistische analyses van grote datasets doorgaans onbetrouwbaar zijn.
Er zijn nog andere uitdagingen bij het analyseren van grote datasets, zoals ‘incidentele endogeniteit’ (dat wil zeggen dat invloedsfactoren correleren met de residuen), maar dat valt buiten het bestek van deze blog.
Oplossingen
Om deze problemen te overwinnen wordt doorgaans geadviseerd spaarzame modellen te gebruiken en variabelenselectie toe te passen bij het ontwerpen van een statistisch model.
Eén manier om dit te bereiken is het verminderen van het aantal variabelen dat in beschouwing wordt genomen. Bij het ontwerpen van een model selecteert de BB/GB bijvoorbeeld, in plaats van alle beschikbare variabelen te gebruiken, een subset van variabelen die gezamenlijk de beste signaal-ruisverhouding hebben (dat wil zeggen de minste schattingsfout). Een benadering om dit te doen zou Principal Component Analysis zijn, een statistische techniek om categorieën van variabelen te identificeren die sterk gecorreleerd zijn (dat wil zeggen hoge interne variantieconsistentie - deze variabelen lijken een soortgelijk patroon te volgen en kunnen daarom een soortgelijk fenomeen uit de echte wereld vertegenwoordigen).
De interne verwantschap moet worden gecontroleerd om te zien of verwante variabelen inderdaad dezelfde verschijnselen lijken te vertegenwoordigen. Als dat zo is, kunnen deze variabelen worden samengevoegd tot één latente variabele of samengestelde variabele die de feitelijke verschijnselen vertegenwoordigt.
Een andere benadering om betekenisvolle conclusies te kunnen trekken zou zijn om de steekproefomvang te verkleinen door zeer vergelijkbare waarnemingen in één substeekproef te clusteren met behulp van de K-Means-clustertechniek. Daardoor kan de BB/GB betekenisvolle relaties identificeren door de minder relevante substeekproeven te scheiden van de meer relevante substeekproeven.
Verder lezen?
Wil je graag meer informatie over de Lean methode, bekijk onze tekstboeken, een van onze case studies over de implementatie van de Lean methode, of onze onderzoeksartikelen over de effectiviteit van Lean.