icon blogAltijd iets te leren

How to Blend Traditional Relational Data with Big Data

09-04-2014 door Rogier Wessel

Pentaho organiseerde 21 maart in Eindhoven met partners Cloudera en MongoDB een bijeenkomst over de mogelijkheden van Pentaho 5 in combinatie met Cloudera en MongoDB. Hierbij lag de focus op data blending; het combineren van informatie uit diverse informatiebronnen

How to Blend Traditional Relational Data with Big Data

Removing complexity

Davy Nys, Vice President, EMEA & APAC van Pentaho, noemt de uitdagingen die ondernemingen op dit moment ervaren, zij die nog niet informatie georiënteerd zijn, worden gedwongen om dat op korte termijn te worden om onderscheidend en concurrerend te blijven: “Everybody is a knowledge worker now”.

Wat Pentaho tot nog toe geleerd heeft:

  • Dat Pentaho goed moet kunnen samenwerken met heel verschillende technologieën, leveranciers en versies, niet alleen vandaag, maar vooral morgen.
  • De meeste waardevolle informatie te is vinden door slim gebruik te maken van bestaande (relationele) datasets en deze te verrijken met nieuwe (big-data) bronnen. Een Twitter analyse op zichzelf zegt weinig, maar door deze te koppelen aan bijvoorbeeld je klanttevredenheidsonderzoeken creëer je een veel breder klantbeeld.
  • 80% van al het werk zit in het opschonen en prepareren van data, daarom focussen zij zich op slimmer combineren van data middels data blending.

Data blending

Matt Caster, Chief Data integration en grondlegger van Pentaho data-integration (PDI), gaat in op de uitdagingen en  plannen voor de toekomst. Hierbij ligt de focus voor PDI  op “blending at the source”, de nieuwe bronnen zijn te groot om op traditionele wijze naar een Enterprise Datawarehouse te brengen, de uitdaging zit veel meer in het samenbrengen van traditionele relationele data met big-data, “data blending”.

Pentaho data-integration, met zijn krachtige visuele interface, kan alle big-data distributies ontsluiten van alle leveranciers en ook alle beschikbare versies. MongoDB kent een native ondersteuning sinds 2006, en de samenwerkingen tussen MongoDB en Pentaho zijn en blijven heel intensief.

 

Hadoop and the future of data management

Mark Lewis, Senior Director Marketing - Europe, Middle East & Africa van Cloudera, doet als eerste een vragenronde om gebruik van big-data oplossingen in kaart te brengen. Van de aanwezigen heeft 5% een oplossing operationeel, een andere 5% verwacht dat te gaan doen, en dit onderschrijft zijn huidige perceptie van de markt. De beloften zijn groot, de kansen ook, maar er bestaat nog veel behoefte aan kennis over aanbod en technische mogelijkheden in dit snel bewegende werkgebied: “a lot of simple questions about big data have not been answered yet”.

Hij beschrijft verschillende real world use cases, analyses van landbouw opbrengsten middels satellietbeelden op ongekende schaal, een verzekeraar die veel specifieker en gerichter persoonlijke aanbiedingen kan doen, maar ook de kansen in de zorg in bijvoorbeeld de genetische screening, “now it is possible for a doctor to have 10.000 second opinions”.

 

Afsluitend stelt hij de vraag wat de beste manier is om foto's te maken, met de allernieuwste high-end foto camera, of met een smartphone camera. De high-end camera geeft de beste kwaliteit, maar de smartphone is altijd beschikbaar, koppelt met applicaties, social en clouddiensten, en wordt vanwege zijn ultieme integratie meer en meer gebruikt! Die integratie is voor Cloudera topprioriteit die geresulteerd heeft tot een volledige certificering tussen Pentaho en Cloudera.

MongoDB, Pentaho and Hadoop, all you need for big data

Luca Olivari, Business Development Director bij MongoDB, gaat in op het gecombineerd gebruik van MongoDB met Hadoop. Hij ziet dat meer klanten directe analyses draaien op MongoDB, een Document database voor opslag van json objects. Informatiestromen uit big data bronnen kunnen zo direct opgeslagen worden, of via Hadoop worden ontsloten. Hij is van mening dat MongoDB en Hadoop geen concurrerende functionaliteit hebben, ze zijn juist aanvullend op elkaar. Hadoop is geschikt voor het continue analyseren en bijstellen van modellen, terwijl de ontwikkelde modellen op MongoDB toegepast worden en vervolgens weer met de native koppeling met Pentaho weer aan de klant gepresenteerd kunnen worden, data blending in optima forma.

Conclusie

De dag laat zien dat Pentaho zijn platform meer dan gereed heeft gemaakt voor de hedendaagse data ecosfeer. Hierbij ondersteunt het platform een grote diversiteit aan bronnen. Data blending ontwikkelingen volgen elkaar in hoog tempo op, maar het aantal bedrijven met een operationele oplossing biedt nog ruimte voor groei.