Datawerk is noodzakelijk voor succesvolle Machine Learning

Het succes van machine learning hangt af van de hoeveelheid en het soort data en de beschikbare domeinkennis. Datavoorbereiding bepaalt dus het succes. En dat kost meer tijd dan men denkt.

 

 

Beschikbaar maken en verrijken van data

Voordat diepgaande analyse van data plaatsvindt, wordt de data eerst beschikbaar gemaakt. In een voor het gekozen model beschikbaar format, op een toegankelijke locatie. Van eenvoudige, komma gescheiden bestanden tot genormaliseerde (ster) schema’s in een data warehouse. Ook kan het zijn dat er nog verrijking plaats moet vinden op (een deel van) de data. Maar alleen als de data wordt gebruikt voor het trainen van zogenoemde ‘supervised’ machine learning modellen. Dit wordt ook wel ‘labelen’ genoemd. Dit kan geautomatiseerd, in geval van (gestructureerde) historische data. Of handmatig. Is dat geen optie, dan worden er ‘unsupervised learning’ algoritmes onderzocht. Zoals clustering, neurale netwerken of detectie van uitschieters.

 

 

Het trainen en testen van de modellen

Voor het trainen van de modellen is een ruime keuze aan technologieën en platforms beschikbaar. Om gebruik te maken van deze diversiteit werkt Virtual Sciences met het Expertise Platform dat beschikt over een service adoption layer. Denk hierbij aan adapters voor IBM Watson, WEKA, Python en SPSS. Modellen worden automatisch getraind, getest en gedeployed mits aan ingestelde specificaties wordt voldaan. Zijn al deze stappen afgerond? Dan wordt de daadwerkelijke analyse uitgevoerd en de uitkomsten gecommuniceerd. Denk aan BI en services. 



Onze team van IT-consultants helpen bij het collecteren, transformeren, modelleren en visualiseren.
Bel Roy van Zoggel
+31 (0)6 25058334