Ontdek het potentieel van synthetische HR-data met deze 3 online tools

06.01.2023

Wat als je elke dataset kon hebben die je wilde, of je er nu private gegevens mee wilt anonimiseren of AI-modellen trainen? Wat als je synthetische data zou kunnen genereren met dezelfde distributie als echte gegevens, zonder er veel tijd aan te verliezen? En wat als dit proces herhaalbaar zou zijn, zodat zelfs jouw meest gevoelige en kritische datasets veilig zijn?

Een aannemelijke gedachte, waar we in het verleden zelf al op hamerden, is dat zolang we niet over voldoende volume en kwaliteitsvolle data beschikken, we niet aan de slag kunnen met de data. Om dit te helpen veranderen, zijn hier drie hulpmiddelen die zowel HR-data analisten als HR-software ontwikkelaars helpen het potentieel van synthetische data te ontgrendelen.

Geschreven door Lotte Van der Sijpt

Maar laat ons beginnen bij het begin. Wat zijn synthetische data? Synthetische data zijn data die worden gecreëerd door algoritmen, niet door mensen. De algoritmen creëren deze gegevens wel op een manier die vergelijkbaar is met hoe mensen ze zouden creëren. Met andere woorden, synthetische data zijn een door de computer gegenereerde versie van echte data.

Het belangrijkste om te begrijpen is dat synthetische data en echte data niet uitwisselbaar zijn. Je kan niet zomaar HR-beslissingen nemen op basis van cijfers die nooit echt verzameld zijn binnen jouw organisatie. Synthetische gegevens kunnen echter wel zeer nuttig zijn in bepaalde situaties, bijvoorbeeld wanneer je een mock-up dashboard wilt uitwerken, gevoelige datasets wilt delen of zelfs een AI-model wilt testen zonder de echte gegevens te gebruiken. Het is vooral ook handig in domeinen waar de toegang tot goede, relevante data beperkt is, zoals in de wereld van HR-analytics al eens durft voor te komen.

1. Begin vanaf nul met Mockaroo

Mockaroo is een online tool waarmee je synthetische datasets helemaal zelf uit het niets kunt creëren. Het is een geweldige optie als je meteen wil beginnen met het genereren van testdata, zonder enige voorkennis van programmeertalen. Één van de grootste troeven van Mockaroo is namelijk het enorme gebruiksgemak, waardoor het zeer geschikt is voor geïnteresseerde HR-professionals zonder dat je eerst een data ingenieur diploma moet behalen.

Via het Mockaroo platform, kan je onmiddellijk gratis aan de slag gaan. Je hebt zelfs geen profiel nodig. Hier kan je kolommen aanmaken en kiezen uit een ruim assortiment van datatypes. Van fake app namen en marketing slogans, tot nummers en lijstjes die je kan invullen alsof het mogelijke antwoorden op een survey zijn.

Mockaroo1

Mockaroo, LLC. (2022). Schermafbeelding van Mockaroo.com. Mockaroo - Random Data Generator and API mocking tool. https://www.mockaroo.com/

Mockaroo2

Mockaroo, LLC. (2022). Schermafbeelding van Mockaroo.com. Mockaroo - Random Data Generator and API mocking tool. https://www.mockaroo.com/

Wat Mockaroo vooral onderscheidt van andere gratis generators, is de mogelijkheid om je eigen regels toe te voegen aan de data met formules (gelijkaardig aan Excel). Zo kan je nieuwe kolommen aanmaken die de som zijn van een paar vorige, je kan correlaties tussen variabelen instellen, de verdeling van de waarden kiezen, evenals de hoeveelheid herhaling en willekeurigheid. In een mum van tijd, bezit je meteen duizend rijen testdata die aan jouw specifieke wensen voldoen. Zodra je jouw dataset hebt gemaakt, kan je die ten slotte in verschillende bestandsformaten downloaden (inclusief Excel-formaat).

2. Bouw voort op bestaande data met Tonic.ai

In tegenstelling tot Mockaroo, is Tonic.ai een tool die jou kan helpen om synthetische gegevens te genereren vanuit bestaande gegevens. Het voordeel hiervan is dat je synthetische gegevens kan creëren die consistent dezelfde regels volgen en even betrouwbaar zijn als jouw oorspronkelijke data, zonder dat je deze zelf expliciet moet vastleggen.

Tonic.ai is het best geschikt voor situaties waarin je een beperkte hoeveelheid gegevens hebt, maar er graag meer wilt uithalen. Dit kan zijn omdat veel data verzamelen te duur of te tijdrovend is. Als je bijvoorbeeld een database hebt met training scores van verschillende werknemers of CV’s van verschillende sollicitanten, en je wilt een model opzetten dat automatisch kan voorspellen wie de beste kandidaat zal zijn, dan kan Tonic.ai jou hierbij helpen. Het nadeel aan Tonic.ai is dat een basis programmeertaal beheersen toch aanbevolen is en het dus op het eerste zicht overweldigender kan overkomen voor beginnende data-analisten. Gelukkig voorzien ze wel duidelijke documentatie en video’s op hun Youtube-kanaal.

Voor diegenen die toch graag de uitdaging aangaan, kan je van start gaan met een gratis demo op djinn.tonic.ai. Hier importeer je een dataset, die vervolgens wordt gebruikt om een machine learning model te trainen. Daarna kan je verder aan de slag met het getrainde model en de nieuwe dataset. Een laatste interessant aspect hierbij, is het vergelijkend rapport dat je krijgt over de originele en nieuwe dataset. Zoals hieronder afgebeeld, kan je makkelijk bekijken of de datasets gelijkaardige verdelingen hebben en zelfs of de relaties tussen verschillende variabelen even sterk gebleven zijn!

Djinn1

Kamor, A.;Tonic.ai. (2022). Schermafbeelding van Djinn.tonic.ai. Djinn. http://djinn.tonic.ai/

Djinn2

Kamor, A.; Tonic.ai. (2022). Schermafbeelding van Djinn.tonic.ai. Djinn. http://djinn.tonic.ai/

3. Geniet van het beste van twee werelden met Mostly.ai

We zagen net hoe je synthetische data kan handmatig creëren van nul en hoe je ze kan genereren op basis van bestaande data via machine learning. De laatste tool die we daarom willen voorstellen is Mostly.ai. Deze online tool kan inspelen op beide problemen, waardoor het nog net iets nuttiger wordt voor een hele reeks use cases. Daarbovenop is Mostly.ai ook erg gebruiksvriendelijk en kan je een gratis demo uitproberen, volledig met een onboarding-tour bij. Zeker uitproberen dus!

Mostly ai1

Mostly.ai. (2022). Schermafbeelding van mostly.ai. MOSTLY AI. https://synthetic.mostly.ai/jo...

"De belangrijkste databron die in tijden van hybride werken zal groeien, is digitale communicatie"

Meer weten?

Wil je graag meer weten over het potentieel van synthetische data? Dan kan je jouw zoektocht zeker beginnen bij deze webinar met de oprichters van Mockaroo en Tonic.ai.

Wil je nog meer inspiratie over HR-analytics? Schrijf je dan zeker in voor onze tweemaandelijkse nieuwsbrief met tips en trends over HR-analytics of contacteer ons.