Woordenlijst business intelligence en data engineering
Een handige verklarende woordenlijst voor als je op zoek bent naar ondersteuning voor data gedreven werken. Dat kan natuurlijk in de vorm van advisering, een project of ook het inhuren van onze getalenteerde data engineers en BI consultants.
Analysis Services: ook bekend als Microsoft SQL Server Analysis Services, SSAS en soms MSAS. Analysis Services is een online analytische dataengine die wordt gebruikt ter ondersteuning van beslissingen en bedrijfsanalyses. Het biedt de analytische data rapportages en toepassingen zoals PowerBI, Excel, Reporting Services-rapporten en andere datavisualisatietools. Analyseservices worden gebruikt om informatie te analyseren en te begrijpen. Die kunnen verspreid zijn in meerdere databases of in ongelijksoortige tabellen of bestanden.
Business Analytics (BA): de vaardigheden, technologieën en methodes voor het onderzoeken van prestaties uit het verleden. Om hiermee inzichten te krijgen voor de toekomst.
Terwijl business intelligence (BI, zie hieronder) zich richt op een consistente set metrische data om zowel prestaties uit het verleden te meten als de planning te sturen, is business analytics gericht op het ontwikkelen van nieuwe inzichten en inzichten op basis van statistische methoden en voorspellende modellen.
BI-methoden gebruiken query’s, rapportage, OLAP en alert tools om vragen te beantwoorden als:
- Wat is er gebeurd?
- Hoeveel?
- Hoe vaak?
- Waar is het probleem?
- Welke acties zijn nodig?
Business analytics kan vragen beantwoorden als:
- Waarom gebeurt dit?
- Wat als deze trends doorzetten?
- Wat gebeurt er daarna?
- Hoe kunnen we optimaliseren?
BI-applicatie ontwerper: Iemand die verantwoordelijk is voor het ontwerpen van de eerste rapportagesjablonen en dashboards in de front-end applicaties. Competenties zijn datavisualisatie, ontwerpen van gebruikerservaringen en rapportage van applicaties.
Big Data: deze term heeft de status van modewoord. Het doelt op een hoeveelheid data die zo onmogelijk groot is dat deze niet met traditionele technieken kan worden geanalyseerd. Volgens onderzoeksbureau Gartner is ‘Big Data’ “data met grote volumes, hoge snelheden en / of veel verschillende soorten informatie. Die kosteneffectieve, innovatieve vormen van informatieverwerking vereisen die meer inzicht, betere besluitvorming en processen mogelijk maken”.
Business Intelligence (BI): een term voor een verscheidenheid aan tools, applicaties en methodologieën. Waarmee organisaties data kunnen verzamelen uit interne systemen en externe bronnen. BI kan worden gebruikt om data voor te bereiden voor analyse, queries te ontwikkelen en uit te voeren. En om rapporten, dashboards en visualisaties te maken. Om de resultaten te leveren aan beslissers en eindgebruikers.
Data Analysis Expressions (DAX)
- het proces waarmee data:
- uit bronnen worden gehaald
- getransformeerd of gestandaardiseerd voor opslag in het juiste formaat
- en in het datawarehouse wordt geladen.
Het ETL-proces wordt normaal gesproken parallel uitgevoerd met de transformatieprocessen terwijl data uit bronnen worden geëxtraheerd. ETL-systemen integreren gewoonlijk data uit meerdere applicaties die worden beheerd en beheerd door verschillende medewerkers. Een kostenberekeningssysteem kan bijvoorbeeld data van salarisadministratie, verkoop en inkoop combineren.
DAX bevat enkele van de functies die in Excel-formules worden gebruikt. En ook aanvullende functies die zijn ontworpen om met relationele data te werken en dynamische aggregatie uit te voeren. DAX kan waarden berekenen voor zeven verschillende datatypen: integer, reëel, valuta, datum, booleaans, string en BLOB (binary large object).
Data-architect: houdt zich bezig met data-architectuur, wat gaat over het ontwerpen, creëren, implementeren en beheren van de data-architectuur van een organisatie. Deze persoon is meestal verantwoordelijk voor het ontwerpen van het Extract, Transform en Load (ETL) -proces. En voor het bouwen van de structuur (dimensioneel model) waarin de data zich zullen bevinden nadat het door het ETL-proces is gegaan. Data-architecten brengen ook de technische functionaliteit voor het BI-project samen. Er zijn meerdere vaardigheden nodig: expertise in dimensionale modellering en een goede antenne voor de vereisten van de organisatie. Ook is expertise vereist t.a.v. ETL-functies zoals SQL Server Integration Services en ervaring met het uitvoeren van ETL-taken. Hardware-infrastructuur- en ondersteunende softwarevaardigheden zijn ook noodzakelijk.
Data-architectuur: een reeks regels, richtlijnen, standaarden en modellen die het type verzamelde data regelen en definiëren en hoe deze worden gebruikt, opgeslagen, beheerd en geïntegreerd in een organisatie en haar databasesystemen.
Database: een verzameling informatie die zo is georganiseerd dat deze kan worden geopend, beheerd en bijgewerkt. Meestal opgeslagen op een computer of op een server. De data kunnen zijn: afbeeldingen, numeriek, scripts, volledige tekst, enz. waarmee bijna elke soort informatie kan worden beschreven. In de context van business intelligence (BI) vertegenwoordigen databases systemen zoals Oracle, Microsoft Dynamics, Excel, CRM, Salesforce, enz. Die aggregaties van datarecords of bestanden bevatten, zoals verkooptransacties, productcatalogi en inventarissen, en klantprofielen. Informatie wordt ingevoerd en opgeslagen in de database, en er is een BI-oplossing nodig om een zinvol, georganiseerd en informatief formaat van die data eruit te krijgen. Zie ook relationele database en multidimensionale database.
Databron Het kan een bestand zijn, een bepaalde database op een DBMS of zelfs een live datafeed. Het doel van een databron is om alle technische informatie die nodig is om toegang te krijgen tot de data op één plaats te verzamelen. Deze is niet zichtbaar voor de zakelijke gebruikers. De gebruikers zien alleen de output van de data bron. Zonder dat de gebruiker weet waar de data zich bevinden of hoe de applicatie tot die data / resultaten is gekomen.
Data management: het proces waarmee data wordt verzameld, gevalideerd, opgeslagen, beschermd en verwerkt. De toegankelijkheid, betrouwbaarheid en tijdigheid van de data wordt zeker gesteld om aan de behoeften van de datagebruikers te voldoen. Data management houdt goed overzicht over de behoeften over de levenscyclus van de data van een organisatie.
Datamarts: afdeling gebonden weergaven van informatie met onderwerpgeoriënteerde data. Datamarts lezen data uit het (enterprise) data warehouse. Datamarts gebruiken hierbij een dimensionaal ontwerp. Dit betekent dat de informatie in de datamarts klaar is voor rapportage. De front-end BI tools halen de informatie op uit deze datamarts en niet uit het (enterprise) data warehouse.
Datamining: het proces waarbij grote hoeveelheden data worden geanalyseerd om patronen en gevallen van statistische betekenis te vinden. Door patronen in grote hoeveelheden data te zoeken, kunnen organisaties meer te weten komen over bijvoorbeeld hun klanten en effectievere acquisitiestrategieën ontwikkelen, de verkoop verhogen en de totale kosten verlagen.
Datamodel: definieert hoe data worden gestructureerd, gerelateerd en gestandaardiseerd om zinvolle inzichten te verkrijgen. Organisaties kunnen meerdere datamodellen gebruiken om ervoor te zorgen dat alle relevante data worden opgenomen.
Datamodellering: het proces van het definiëren, analyseren en structureren van data in datamodellen.
Data opschonen: het proces van het detecteren en corrigeren van defecte records, wat leidt tot zeer nauwkeurige BI-geïnformeerde beslissingen. Aangezien enorme databases en snelle verwerving van data kunnen leiden tot onnauwkeurige of defecte data is het opschonen van invloed op de resulterende BI en analyse. Het corrigeren van typografische fouten, het ontdubbelen van records en het standaardiseren van syntaxis zijn allemaal voorbeelden van het opschonen van data.
Data- en / of veldtransformatie: dit zet onbewerkte veldinvoer om in gestandaardiseerde waarden die betekenisvoller zijn. Transformaties worden bestuurd door regels en kunnen worden geconfigureerd voor gebruik in query’s. Als een meetvariabele bijvoorbeeld niet past in een normale verdeling kan veldtransformatie nodig zijn. Datatransformaties zijn een belangrijk hulpmiddel voor een goede statistische analyse. Het is essentieel dat u het gebruik van veld- en datatransformaties wordt uitgelegd en gedocumenteerd.
Data Vault benadering: is een andere datamodelleringsmethode die in gebruik is bij data warehousing. Het is bedacht door Dan Linstedt en is bedoeld voor het opslaan van data uit verschillende bronnen, met verschillende definities en betrouwbaarheid.
Bij het ontwerpen van een data warehouse volgens Inmon (zie hierna) wordt uitgegaan van het model van transactiesystemen. Om alle data erin te krijgen, worden de definities uit het transactiesystemen overgenomen. Dit leidt tot extra werk wanneer de structuur van het transactiesystemen binnen het bedrijf verandert.
Bij een database volgens Data Vault werkt men andersom. Men gaat uit van de bronnen. In principe wordt elk feit opgeslagen maar wel met een aantal extra parameters. Zo houdt men altijd bij waar de betreffende data vandaan komt en wanneer deze is vastgelegd. Het is hierdoor gemakkelijker om met filtering eerdere versies van de database in te zien.
Datavisualisatie: het structureren en ordenen van data op een visuele manier. Om het voor gebruikers makkelijker te maken ze te begrijpen. Patronen en trends die mogelijk onherkenbaar zijn voor de leek in op tekst gebaseerde data, kunnen gemakkelijk worden bekeken en begrepen door gebruikers met behulp van datavisualisatie software.
Datawarehouse: grote opslag van data uit een breed scala aan bronnen. Die kunnen worden verwerkt, gesplitst en geanalyseerd om inzichten te genereren. Datawarehouses zijn doorgaans relationele databases die historische data bevatten en zijn ontworpen voor query’s en analyses.
Datawarehousing: het proces waarbij data uit verschillende bronnen worden verzameld om een datawarehouse op te bouwen. Datawarehousing omvat ontwerp, ontwikkeling, testen, implementatie, operaties, impactanalyse en verandermanagement.
Data Warehouse Automation (DWA): Gebruikt technologie om efficiëntie te vergroten en de effectiviteit te verbeteren in datawarehousing-processen. Het idee is om elk deel van de datawarehouse-levenscyclus dat kan worden geautomatiseerd, te automatiseren. Zodat het business intelligence- en data team zich kan concentreren op de activiteiten die meer intellectuele input vereisen. DWA helpt bij het verkorten van de implementatietijd voor BI-projecten, het verlagen van de kosten aan BI en het verbeteren van het succes van BI.
Datawarehouse-ontwikkelaar: hun primaire rol is het ontwikkelen en implementeren van code. Ze krijgen leiding en richting van de ETL-architect en bouwen direct ETL-functies op. Expertise en ervaring in ETL zijn nodig, en dat varieert afhankelijk van welke ETL-tool (s) worden gebruikt.
Dimensie: een categorie die kan worden gebruikt om data te rangschikken op feiten en metingen. Veelgebruikte dimensies zijn medewerkers, producten, plaatsen en tijd.
Dimensietabel: in een datawarehouse is een dimensietabel een aanvulling op een feitentabel. Dimensietabellen bevatten beschrijvende velden die traditioneel tekstueel zijn. Dimensietabellen zijn gerelateerd aan feitentabellen (die metingen bevatten) door het gebruik van sleutels.
Extract, Transform, Load (ETL): het proces waarmee data:
- uit bronnen wordt gehaald
- getransformeerd of gestandaardiseerd voor opslag in het juiste heterogene formaat
- en in het datawarehouse wordt geladen.
Het ETL-proces wordt meestal parallel uitgevoerd met transformatieprocessen, terwijl data uit bronnen worden geëxtraheerd. ETL-systemen integreren meestal data uit meerdere applicaties die worden beheerd door verschillende medewerkers. Een kostenberekeningssysteem kan bijvoorbeeld data van salarisadministratie, verkoop en inkoop combineren.
Feitentabel: bestaat uit metingen, statistieken of feiten van een proces. Ze bevinden zich in het midden van een sterschema of een sneeuwvlokschema, omringd door dimensietabellen. Feitentabellen bieden de waarden die fungeren als onafhankelijke variabelen waarmee dimensionale kenmerken worden geanalyseerd. Feitentabellen worden vaak bepaald door hun detailniveau. Het detailniveau van een feitentabel met verkopen kan bijvoorbeeld worden beschreven als ‘Verkoopvolume per dag per product per winkel’.
Index: een datastructuur waarin de waarden voor een specifieke kolom in een tabel worden opgeslagen. Indexeren is een manier om records op meerdere velden te sorteren. Als je bijvoorbeeld een index op een veld in een tabel maakt, wordt een andere datastructuur gemaakt die de veldwaarde bevat en een verwijzing naar het record waarop het betrekking heeft. Deze indexstructuur wordt vervolgens gesorteerd, zodat er snel binaire zoekopdrachten op kunnen worden uitgevoerd.
In-Memory Analytics: het proces waarbij data worden opgevraagd wanneer deze zich in het computergeheugen (zoals RAM) bevinden in plaats van op een fysiek opslagapparaat, zoals harde schijven. Query’s in het geheugen zijn sneller dan de alternatieven, wat resulteert in snellere beslissingen. Aangezien de kosten van RAM blijven dalen, wordt grootschalige in-memory analytics voor veel organisaties een haalbare optie.
Inmom-aanpak: Bill Inmon is dé grondlegger van data warehousing. In Inmons’ data warehouse definitie is het (enterprise) datawarehouse een geïntegreerde opslagplaats van atomaire data. Deze data worden op het laagste detailniveau vastgelegd en opgeslagen in een relationele database. Dit noemt men een top-down methodologie voor datawarehousing en wordt uitgegaan van het model van transactiesystemen. Om alle data erin te krijgen, worden de definities uit het transactiesystemen overgenomen. Dit leidt tot extra werk wanneer de structuur van het transactiesystemen binnen het bedrijf verandert.
De methodiek stelt dat het datawarehouse gemodelleerd moet worden met behulp van normalisatieregels. Tabellen zijn gegroepeerd op onderwerpgebieden die algemene datacategorieën weerspiegelen (bijv. Data over klanten, producten, financiën, enz.). De genormaliseerde structuur verdeelt data in entiteiten, waardoor er meerdere tabellen in een relationele database ontstaan. Bij toepassing in grote organisaties is het resultaat hiervan tientallen tabellen die met elkaar zijn verbonden door een web van joins.
Joins Een manier om velden uit twee tabellen te combineren door gemeenschappelijke waarden te gebruiken. Het is mogelijk om velden te combineren door verschillende soorten joins te gebruiken, zoals:
- inner join: resulteert in alle rijen van meerdere tabellen waarin aan de join-voorwaarde is voldaan
- left join: alle rijen van de linkertabel en de overeenkomende rijen van de rechtertabel
- right join: alle rijen van de rechtertabel en de overeenkomende rijen van de linkertabel
- full join: alle rijen als er een match is in EEN van de tabellen.
Kimball-benadering Een bottom-up-methodologie voor datawarehousing, waarbij de waarde van het data warehouse voor de gebruikers zo snel mogelijk wordt gebruikt. In de visie van Ralph Kimball is een data warehouse de kopie van de transactiesystemen die specifiek gestructureerd zijn voor analytische rapportering in de front-end BI tools. Zijn ontwerpmethodologie heet dimensioneel modelleren. Met behulp van de Kimball-benadering worden dimensionale datamarts eerst gemaakt om rapportage- en analytische mogelijkheden te bieden voor specifieke bedrijfsgebieden. Zoals Verkoop of Productie en vervolgens gecombineerd tot een breder datawarehouse. Het is de meest gebruikte methode ten opzichte van die van Inmon en Data Vault.
Kubus: multidimensionale datasecties die zijn opgebouwd uit tabellen en velden in de database. Kubussen bevatten berekeningen en formules en zijn vaak gegroepeerd rond specifieke bedrijfsfuncties zoals verkoop, financiën, inkoop, voorraad, enz. Elke kubus bevat contextuele, relevante en nuttige metingen voor dat specifieke gebied van de organisatie.
Niveau: een groepering binnen een dimensie. Klanten kunnen bijvoorbeeld worden gegroepeerd op stad of land. Op deze manier gegroepeerd, worden klant, stad en land gecategoriseerd als verschillende niveaus binnen een kubus. Evenzo kunnen datums verschillende niveaus hebben in een BI-kubus. Dag, maand, kwartaal, jaar is een bekend voorbeeld.
Multidimensionale uitdrukkingen (of MDX): een zoektaal voor OLAP- of relationele databases, met syntaxis vergelijkbaar met spreadsheetformules. Vanwege zijn eenvoud en duidelijke syntaxis is het snel de standaard geworden voor OLAP-systemen ten opzichte van de meer complexe SQL.
Metadata: een set data die informatie geeft over andere data. Voorbeelden van metadata van relationele databases zijn:
- Tabellen van alle tabellen in een database, hun namen, maten en aantal rijen in elke tabel
- Tabellen met kolommen in elke database, in welke tabellen ze worden gebruikt en het type data dat in elke kolom is opgeslagen
In databaseterminologie wordt deze set metadata de catalogus genoemd.
Multidimensionale database (MDB): een type database dat is geoptimaliseerd voor datawarehouses en online analytische verwerking. Multidimensionale dataoplossingen maken gebruik van kubusstructuren voor het analyseren van data in verschillende dimensies. Ze zijn samengesteld uit kubussen en dimensies die kunnen worden uitgebreid om complexe queryconstructies te ondersteunen. BI-ontwikkelaars maken kubussen om snelle responstijden te ondersteunen en om een enkele databron voor bedrijfsrapportage te bieden.
Online Analytical Processing (OLAP): een krachtige technologie voor data exploratie, inclusief mogelijkheden voor onbeperkte weergave van rapporten, complexe analytische berekeningen en voorspellende “wat als” -scenario planning. OLAP voert een multidimensionale analyse van de data uit en biedt de mogelijkheid voor complexe berekeningen, trendanalyse en geavanceerde datamodellering. Typische toepassingen van OLAP zijn onder meer rapportage voor verkoop, marketing, managementrapportage, business process management (BPM), budgettering en prognoses, evenals financiële rapportage.
OLAP-kubus: een methode om data in een multidimensionale vorm op te slaan, meestal voor rapportagedoeleinden. In OLAP-kubussen worden de feiten gecategoriseerd op basis van dimensies. OLAP-kubussen worden vaak vooraf samengevat in verschillende dimensies om de zoektijd en nauwkeurigheid van relationele databases drastisch te verbeteren.
Eén versie van de waarheid: een technisch concept dat het ideaal voor analyses beschrijft om ofwel een enkele gecentraliseerde database (datawarehouse) te hebben. Of op zijn minst een gedistribueerde gesynchroniseerde database die alle data opslaat in een consistente en niet-redundante vorm. Een combinatie van software, datakwaliteit en sterk dataleiderschap kan organisaties helpen de ‘single version of the truth’, SVOT te bereiken.
Relationele database: een database die is gestructureerd om relaties tussen opgeslagen informatie-items te herkennen. Microsoft Dynamics NAV, AX en SQL zijn voorbeelden van relationele databases. Relationele databases bevatten tabellen en velden die met elkaar zijn verbonden door middel van sleutels. Ze zijn geoptimaliseerd om informatie op een samenhangende manier in een systeem te krijgen; ze zijn echter niet geoptimaliseerd om de informatie eruit te halen.
Schema: de organisatie van data als een blauwdruk van hoe feiten- en dimensietabellen zijn gerangschikt en geconstrueerd om een relationele database te vormen. Een databaseschema specificeert de feiten die de database kunnen binnenkomen of die van belang zijn voor de mogelijke gebruikers.
Snowflake schema: een rangschikking van tabellen in een multidimensionale database zodat het fysieke model lijkt op een sneeuwvlokvorm. Het Snowflake schema bestaat uit gecentraliseerde feitentabellen die zijn verbonden met meerdere dimensies.
SQL Server Analysis Services (SSAS): Microsoft SQL Server Analysis Services (of SSAS) is een OLAP-datamining- en rapportagetool in Microsoft SQL Server. SSAS wordt gebruikt voor het analyseren en presenteren van informatie verspreid over meerdere databases of in ongelijksoortige tabellen.
SQL Server Integration Services (SSIS): een dataintegratie-, transformatie- en migratietool die is ingebouwd in Microsoft SQL Server. Het wordt gebruikt voor verschillende integratie gerelateerde taken. Zoals het analyseren en opschonen van data of het uitvoeren van ETL-processen om datawarehouses bij te werken. SSIS kan data uit meerdere relationele databases consolideren, evenals bronnen zoals XML-databestanden en platte bestanden.
SQL Server Reporting Services (SSRS): Een servergebaseerd softwaresysteem voor het genereren van rapporten van Microsoft. Reporting Services bevat hulpprogramma’s voor het maken, beheren en leveren van rapporten en API’s waarmee ontwikkelaars data- en rapportverwerking in aangepaste toepassingen kunnen integreren of uitbreiden.
Ster schema: de eenvoudigste stijl van een schema (zie hiervoor) en de meest gebruikelijke benadering voor het ontwikkelen van datawarehouses en dimensionale datamarts. Het sterschema dankt zijn naam aan de gelijkenis van het fysieke model met een stervorm met een feitentabel in het midden en de dimensietabellen eromheen die de punten van de ster voorstellen.
Tabelrelaties: zijn een belangrijk onderdeel bij het samenstellen van datasets door het matchen van gemeenschappelijke velden in gerelateerde tabellen. Om de nauwkeurigheid van de data te garanderen en redundantie te beperken worden de data opgesplitst in op onderwerp gebaseerde tabellen. Zodat elk feit slechts één keer wordt weergegeven. Tabelrelaties worden vervolgens gedefinieerd en gemeenschappelijke velden in kaart gebracht om een compleet beeld te schetsen.
Veel-op-veel-relaties: relatie tussen tabellen in een database wanneer een bovenliggende rij in de ene tabel meerdere onderliggende rijen in de tweede tabel bevat, en vice versa. Veel-op-veel-relaties zijn vaak lastig weer te geven. Een of meer rijen in een tabel kunnen echter gerelateerd zijn aan 0, 1 of veel rijen in een andere tabel. In een veel-op-veel-relatie tussen tabel A en tabel B is elke rij in tabel A gekoppeld aan 0, 1 of veel rijen in tabel B en vice versa. Een derde tabel, een mappingtabel genaamd, is vereist om een dergelijke relatie te implementeren.
Neem gerust contact met ons op
Ons expertteam van BI specialisten, Data Engineers en Data Scientists staat klaar om jullie te helpen.
Neem contact op