Veel organisaties voelen de druk om de kracht van data te benutten. De angst om linkse rechts ingehaald te worden zet organisaties aan tot actie. Veel van hen maken overhaaste en slecht geïnformeerde keuzes.
Als je de kracht van data-analyse goed wilt benutten is het van belang om de juiste tools te weten kiezen. Verkeerde keuzes kunnen een grote impact hebben. Er zijn veel manieren waarop dit mis kan gaan.
Een paar praktijkvoorbeelden:
- als je meerdere databronnen hebt leidt dat snel tot verwarring, de zoekopdrachten van de analisten leveren dan ook rampzalige beslissingen op
- een organisatie kiest tools vanwege hun voorspelbare prijzen. Maar beseft zich pas later dat ze de rekenkracht niet kan vergroten zonder ook meer opslagruimte te kopen. Iets wat duur is en ook helemaal niet nodig.
- een organisatie gebruikt meerdere op zichzelf staande datatools. Dat resulteert in tegenstrijdige data en conclusies
Het is verstandig om de volgende 3 stappen te doorlopen voordat je een tool gaat kiezen:
- De basisbehoefte voor data-analyse
- Begrijp de opties van data analyse tools
- Extra aandachtspunten bij de keuze van data analyse tools
1. De basisbehoefte voor data-analyse
Dit is meteen de belangrijkste stap. Beantwoord vooral de volgende vragen:
- Welke vragen willen jullie beantwoorden met de data en wat verwacht je te bereiken met de resultaten daarvan?
- Welke problemen willen jullie op als een en hoe belangrijk zijn ze?
- Wie zijn de stakeholders in uw organisatie en wat zijn hun behoeften en verwachtingen voor het gebruik van data?
- Het identificeren van de gebruikers is een essentiële stap die vaak over het hoofd wordt gezien in het proces van het selecteren van data analyse tools;
- Zijn deze gebruikers geavanceerd of nog niet?
- Zijn het data scientists en engineers die de onderliggende datamodellen begrijpen en SQL-, R- en Python-code schrijven voor complexe ad hoc-queries?
- Of zijn het business intelligence gebruikers, die intuïtieve gebruikersinterface nodig hebben om eenvoudige analyses uit te voeren met uniforme datasets?
- Wat zijn de verwachtingen van de gebruikers ten aanzien van tijdigheid?
- Data scientists die de details van complexe query’s begrijpen, begrijpen dat dit een paar minuten kan duren. En bovendien kunnen ze natuurlijke taal vaardigheden gebruiken om processen te optimaliseren als dat nodig is;
- Minder geavanceerde datagebruikers verwachten misschien onrealistisch snelle resultaten voor hun queries. Er worden ongeduldig als schermen meer dan een paar seconden nodig hebben om te laden. Ze gebruiken ook graag drag-and-drop interfaces, die echter langzamere verwerkingstijden veroorzaken;
- Wat zijn de verwachtingen t.a.v. samenwerking?
- Tegenwoordig erkennen de meeste organisaties de kracht van één “bron van waarheid”, gevoed door verschillende databronnen en beheerd door een DBA. Ondanks dat gebruiken sommige organisatieonderdelen nog steeds inhoud uit verschillende silo’s. Als je dit wilt doorbreken dan zijn er ook tools op de markt die de samenwerking stimuleren;
- En volgend op het voorgaande: kan de data worden geput uit een relatief statisch datamodel of zal het model voortdurend veranderen?
De meeste organisaties voeren query’s van verschillende complexiteit uit. Te begrijpen of jullie ingewikkeldere ad-hoc-analyses nodig hebben en voor welke toepassing is cruciaal voor het vinden van de juiste tools. Dat leidt tot de vraag: Zijn er constante updates in de architectuur nodig of worden de queries naar verwachting standaard uitgevoerd?
Wie verwerkt de data?
Daarbij kun je verschillende situaties onderscheiden, belangrijke vragen daarbij zijn:
- Betrekken jullie collega’s van IT, data engineers of analisten in het proces voordat de gebruiker de data ziet of juist niet?
- Hoe en hoeveel verwacht je dat verschillende soorten gebruikers samenwerken?
- Hoe moeten bevoegdheden en autorisaties toegewezen worden aan individuele personen, hun rollen of niveau?
- Hoeveel data engineers zullen de data verwerken?
Hou rekening met toekomstige groei. Groei heeft een stevige invloed op de beste keuze. Als je wilt op schalen dan kunnen er extra kosten optreden dan wel performance problemen. Vastlopende queries of databases.
Stel overigens slimme vragen aan de mogelijke leveranciers over de definitie van gebruikers. Leveranciers definiëren gebruikers anders. Sommigen brengen abonnementskosten in rekening door het aantal gebruikers; anderen staan een onbeperkt aantal gebruikers toe en factureren op basis van het aantal queries.
Wat is het budget?
Ook voor data analyse tools geldt dat je krijgt waarvoor je betaalt. Belangrijke vragen in dit verband zijn:
- Omvat het budget de kosten van essentiële functies zoals opslag en pipelines, of worden die kosten elders begroot?
- Hoe voorspelbaar moeten de kosten zijn?
- Moeten de kosten de komende 3 jaar vast zijn of zij je bereid andere bedragen te dalen als jullie eisen veranderen?
Sommige tools hebben vaste prijzen en dienstverlening, maar die kunnen minder flexibel blijken te zijn als de behoeften veranderen. Anderen hebben variabele prijzen, maar dat kan leiden tot onverwachte kosten als je bijvoorbeeld minder aandacht besteedt aan het aantal queries of gebruikers.
2. Begrijp de opties van de data analyse tools
De opties zullen in 4 categorieën liggen: ETL of ELT, opslag, analyses en samenwerking. Sommige tools zijn meer gericht op complexere behoeften. Andere meer voor eenvoudigere BI vragen.
Om de kosten te optimaliseren moet je eisen in balans brengen. Bij het selecteren van de oplossingen beoordeel je de behoefte in elke categorie en ook natuurlijk hun onderlinge afhankelijkheid.
ETL of ELT of beide?
Bij het kiezen moet je rekening houden met de configuratie en consolidatie van verschillende databronnen. Het gaat om de fundamentele keuze tussen ETL of ELT – of een combinatie van de twee.
ETL (Extract, Transform, Load) is het proces waarbij eerst data uit de oorspronkelijke bronnen wordt geëxtraheerd, waarna deze data wordt omgezet in een opgeschoonde en bruikbare vorm. Ten slotte laadt het de data in de doeldatabase of datawarehouse.
ETL kan geschikt zijn voor complexe databases , die bijvoorbeeld volledig aanpasbaar en diep genest zijn, met verschillende datamodellen. MongoDB stores en bronnen met JSON blobs zijn goede kandidaten voor ETL, vanwege hun complexiteit.
Omdat het proces complexer en resource-intensief is tijdens de overdrachtsfase, is ETL meestal meer geschikt voor organisaties met data engineering professionals. Over het algemeen kost ETL meer, maar de aanpassing ervan vergroot de kans dat u precies de analyse uitvoert die u nodig hebt.
ELT (Extract, Load, Transform) keert de volgorde van de laatste twee stappen om. En is een nieuwere techniek. Het laden vindt in de doelbron plaats vóórdat een transformatie plaatsvindt. ELT is meestal sneller en makkelijker, vaak goedkoper. Maar kan complexe datasets en relaties minder makkelijk aan. Als je bijvoorbeeld Google AdWords, HubSpot of Facebook als basis wilt gebruiken voor een stuk data dan zijn die geschikt voor ELT. Ze vereisen namelijk weinig aanpassingen van het data model. Hoewel je altijd een bepaalde hoeveelheid transformatie wel zult hebben voordat er geladen wordt. Zelfs met ELT.
Opslag
Voer geen analyses uit vanuit een productiedatabase. Gebruik de data vanuit een andere locatie die de data ververst met een door jezelf opgegeven tijdsinterval. Daarmee komt er wel wat latentie in de analyses maar het beschermt de productiedata. En kan bovendien overbelasting voorkomen. Zet dus een specifieke dataomgeving op die uitsluitend voor analyses wordt gebruikt.
Voor grote hoeveelheden gestructureerde en ongestructureerde data kan een datalake, zoals Amazon S3 een kosteneffectieve opslagoplossing zijn. Veel ruimte voor een betaalbare prijs. Maar een datalake heeft meer problemen om queries uit te voeren, rekenkracht te wijzigen of andere meer geavanceerde bewerkingen uit te voeren. Dit verandert wel naarmate de technologie evolueert. Maar voorlopig is de beste methode om een selecte subset van de data over de brengen naar datawarehouse om daar complexe analyses uit te voeren.
Datawarehouse dus zijn nog steeds de beste analytics omgeving. Beter dan data lakes, standaard databases en dergelijke.
Vervolgens bieden de mogelijkheden van opslag verschillende kostenniveaus als je wilt opschalen of afschalen.
Bijvoorbeeld Amazon Redshift bundelt nodes en rekenkracht, zodat je de ene niet kan verhogen zonder te betalen voor meer van het andere.
Snowflake kent die bundeling niet. Je kunt precies aanschaffen wat je nodig hebt in elke categorie.
Als je trouwens gekozen hebt en je zou weer willen wisselen van opslagoplossing dan is het goede nieuws dat migraties tegenwoordig veel makkelijker zijn dan vroeger.
Data analyse
Voor wat betreft de data analyse opties zijn er eigenlijk 2 categorieën.
De 1e categorie is voor business intelligence gebruikers die SQL, R en Python niet kennen. Daarvoor worden lagen tussen de gebruikers en de data gebruikt. Deze gebruikers zijn afhankelijk van semantische verwerking en hebben een intuïtieve gebruikersinterface nodig. Die de data benaderbaar maakt met een wizard, met functies zoals drag-and-drop, data dictionaries en keuzelijsten.
De 2e categorie is geschikt voor engineers die coderen in eigen talen en die de datamodellen begrijpen waarmee ze werken. De ad hoc analyses die ze uitvoeren zijn zowel krachtiger als complexer. Hun tools richten zich daarom op data in de ongefilterde vorm die het meest geschikt is voor complexe datasets en voortdurend veranderende datamodellen.
Dit onderscheid verdwijnt echter snel. Tien jaar geleden was codering in je eigen moedertaal het domein van data-experts. Tegenwoordig hebben veel meer collega’s SQL-vaardigheden.
Delen van data en inzichten
Het is van groot belang om van tevoren te bedenken wie data en inzichten zullen delen. In dit verband kun je 3 categorieën persona onderscheiden:
- Traditionele BI gebruikers en -analisten, die intuïtievere gebruikersinterfaces en statische overzichten gebruiken
- Semi-technische gebruikers zoals data-analisten, die overzichten gebruiken en bouwen en enigszins bedreven zijn met SQL
- Data-experts die dagelijks met SQL, Python en R werken
Zoek dus naar een dataplatform waarmee elke persona belangrijke taken kan uitvoeren. En het gemakkelijk is om inzichten te delen.
3. Extra aandachtspunten bij de keuze van data analyse tools
Deze factoren zullen niet meteen de keuze voor tools bepalen maar kunnen toch helpen om een beslissing te nemen.
Snelheid
Hoewel iedereen “real-time” analyses belooft bestaat latentie in alle data-analyse activiteiten. Omdat sneller meestal ook hogere kosten betekent is het een goed idee om een drempel in te bouwen op basis van de behoeften van de gebruikers. En daarna kun je nadenken hoe je de 2 bronnen van latentie in de data-analyses optimaliseert:
- latentie in de data is afhankelijk van hoe snel data wordt overgedragen van de bron naar de verwerking. Die factor hangt af van de rekenkracht van de bron, de gekozen ETL / ELT tool en de lagen tussen de data en het display;
- de verwerkingssnelheid is afhankelijk van de rekenkracht. Die wordt bepaald door hoe snel en hoe vaak het ETL/ELT-script draait, samenvoegt en analyses uitvoert.
Terugverdientijd
Als je hebt beslist over de keuze voor een oplossing is het de vraag hoe snel de oplossing echte waarde kan genereren. Een volledige oplossing kan al inzichten opleveren binnen uren.
Dat is is ook afhankelijk van de aanpak. Sommige organisaties willen graag datadefinities en semantische lagen instellen. Of nieuwe datamodellen gaan gebruiken. Veel snellere en betere manier maakt gebruik van de bestaande datastromen en datamodellen. Voor een oplossing die je direct installeert en queries kan uitvoeren binnen enkele minuten.
Het beste resultaat door samenwerking
Zelfs met de mogelijkheden van machine learning tegenwoordig komen de beste data-analyse inzichten uit de samenwerking tussen mensen.
Hoewel een wizard business intelligence gebruikers kan helpen bij het maken van queries, brengen interacties met een geautomatiseerd hulpprogramma ook risico’s met zich mee. Ze zijn nuttig, maar wizards kunnen een datamodel niet uitleggen aan een business intelligence analist.
Zo kan een wizard de intentie achter een business intelligence aanvraag ook niet begrijpen. En daarmee ook niet zeker stellen dat het script de gewenste taak uitvoert. Beperkingen van wizards kunnen business intelligence gebruikers in de war brengen of, erger nog, het risico van datamisbruik betekenen.
De beste resultaten beginnen met goede relaties tussen echte mensen. Data-experts werken samen met business intelligence analisten om inzicht te krijgen in de belangrijkste vragen die ze willen beantwoorden. En waarom ze belangrijk zijn.
Toegang
De trend van democratisering van data om data gedreven te kunnen werken is krachtig, maar kan ook risico’s opleveren.
Elke tool die je selecteert, moet voldoen aan de vereisten voor role-based access control. Hiermee kun je autorisaties en bevoegdheden instellen. Conform de manier waarop je data in jullie organisatie wilt beveiligen.
De belangrijkste vraag om te beantwoorden is: hoe kunnen we data veilig en tegelijkertijd beschikbaar houden voor de juiste collega’s? Dat antwoord bepaalt wie in de organisatie de mogelijkheden krijgt om met welke data om te gaan. En ook hoe kijk- en bewerkingsrechten worden toegewezen.
Dus in 3 stappen naar de juiste data-analyse tool…
Doorloop deze 3 stappen. Data-analyse is maatwerk. Het selecteren van het juiste platform kost dus op tijd. Het vergt zelfonderzoek, zorgvuldig onderzoek van de opties en gedegen betrokkenheid van experts in de organisatie.
Zorg dat je gedurende het proces met leveranciers spreekt. Goede keuzes komen voort uit een analyse van de behoefte. In plaats van een analyse van productkenmerken van de datatools.
Het huiswerk wat je door deze stappen te volgen hebt gedaan levert veilige, betrouwbare en betaalbare data-analyses op die toegankelijk zijn voor jullie hele organisatie.
Meer weten?
Als je meer wil weten over hoe jullie organisatie meer data gedreven kan gaan werken met behulp van data analyse tools neem dan gerust contact met ons op.