Succesvolle machine learning? Niet zonder datavoorbereiding

Een machine die zaken efficiënter uitvoert en zichzelf kan verbeteren met minimale instructies. Welke organisatie wil dat nou niet? Tegelijkertijd bestaat er een schrikbeeld rondom dit buzzword. Van Terminator, tot Bladerunner, Ex Machina, en The Matrix… voorbeelden van robots die de wereld dreigen over te nemen zijn er genoeg. Mensen zijn niet meer nodig, machines handelen alles af. Of de angst voor dit toekomstbeeld terecht is? Als je het aan mij vraagt niet. Ja, een machine die taken uit kan voeren zonder menselijke tussenkomst klinkt misschien griezelig. Maar met zo’n uitspraak onderken je de wetenschap die aan de technologie ten grondslag ligt. In de praktijk komt machine learning namelijk voor een groot deel neer op ouderwetse datavoorbereiding en -verwerking in combinatie met domeinkennis.

25 oktober 2019   |   Blog   |   Door: Virtual Sciences Conclusion

Deel

Virtual Sciences Succesvolle machine learning

Stel dat slimme technologie de wereld gaat overnemen…

Laten we eens uitgaan van het schrikbeeld en aannemen dat slimme technologie inderdaad de wereld gaat overnemen. Dat beslissingen voor een groot deel worden genomen door computers die door zelflerende algoritmen ook nog eens slimmer worden. Om op dat punt te komen moeten we zo’n slim stukje technologie (of een robot) eerst iets leren. Hoe? Door het informatie aan te bieden. Nu is het zo dat vrijwel ieder bedrijf op een groot data lake zit, een ‘meer’ vol interessante informatie. Daar moet zo’n robot toch ontzettend veel mee kunnen? Daar kan het toch zeker de wereld mee overnemen? Je voelt het antwoord al aankomen: nee, dat kan het niet. Machine learning technologie bestaat vaak uit een of meerdere modellen, zoals een technisch of een statistisch model. Het technische is als het ware een beslisboom die doorlopen wordt op basis van de input die het ontvangt. Het statische model is een model dat, zoals de naam doet vermoeden, op basis van statistiek tot resultaten komt. Beide modellen draaien in de eerste plaats om data. Relevante data, welteverstaan. Daarvoor moet je eerst het data lake induiken en hier data uithalen die schoon, consistent en nauwkeurig is. Het moet zodanig omgevormd worden, dat het in een model past; dat een robot er daadwerkelijk iets mee kan. Daarna is het mogelijk om te kijken of de data statistisch relevant is. Door domeinkennis toe te voegen en dit te vatten in een technisch model, is het middels deze combinatie mogelijk te bepalen of de data binnen het domein en statistisch gezien relevantie heeft.

Laten we het simpeler benaderen. Stel dat het data lake jouw onopgeruimde kledingkast is. De kans is groot dat hier zeker vier kledingcombinaties in liggen die jou fantastisch staan, maar waarvan jij niet op de hoogte bent. Hoe leg je deze verborgen outfits bloot? Simpel: ruim om te beginnen je zooi op, breng orde aan en ga vanaf daar verder. Zonder een logisch overzicht, zal je altijd verdwalen. Maar dan ben je er nog niet. Voeg hier externe kennis en data aan toe, die op basis van jouw fysieke kenmerken en de komende fashiontrends kan bepalen wat het beste bij je zou passen. De combinatie van de twee kan de vier winnende kledingcombinaties blootleggen die je zelf over het hoofd zou hebben gezien. Zo werkt het ook met data. Rangschik, categoriseer en bekijk dán waar de meerwaarde zit vanuit bedrijfsoogpunt. Combineer statistiek met domein gerelateerde kennis.

Datavoorbereiding is meer dan het halve werk?

Helaas is het dus niet zo eenvoudig als een verzameling ruwe data in een statistisch model voeren en te wachten tot de meerwaarde eruit komt rollen. De eerste stap is bekijken hoe de data zo gerangschikt wordt dat je überhaupt iets kunt modelleren. Datavoorbereiding speelt een essentiële rol in het moderne machine learning – en dat kost meer tijd dan men denkt. Het is iets wat in de praktijk vaak wordt onderschat.

Het succes van machine learning – en of robots de wereld over gaan nemen – hangt niet zozeer af van een doorbraak van nieuwe technologieën, maar heeft dus alles te maken met de hoeveelheid en soort data en domeinkennis die beschikbaar is. Ik geloof zeker dat machine learning een hele grote toekomst heeft, mits bedrijven er op de juiste manier mee aan de slag gaan. Wanneer zij rekening houden met de moeilijkheidsgraad van machine learning en het proces vervolgens goed inrichten, ben ik ervan overtuigd dat het bedrijven veel kan brengen. Maar om die kansen te creëren, moet er eerst heel wat datawerk verzet worden!

Hoe nu verder?

Nu duidelijk is geworden dat het succesvol toepassen van machine learning in de eerste plaats om noeste (data)arbeid draait, vraag je je waarschijnlijk af hoe te beginnen. Je vraagt je misschien zelfs af of je er überhaupt aan wil beginnen. Logisch ook: als de kennis in huis ontbreekt, is het lastig je een weg te banen door onbekende technologieën. Een verstandige stap is dan om een externe partij aan te haken die bewezen ervaring heeft met data-analyse en veel markt- en klantkennis op het gebied van machine learning. Bij Virtual Sciences ben je hiervoor aan het goede adres. We hebben kennis opgebouwd door een jarenlange intensieve samenwerking met klanten als Schadegarant en Univé en mooie resultaten geboekt. Schroom niet om onze expertise in te schakelen. Dan bevrijden we samen de data in je data lake en zetten het om in waarde!