Neurolytics claimt met AI meerdere persoonskenmerken van sollicitanten te kunnen bepalen op basis van (video)gezichtsanalyse: motivatie, betrokkenheid, stressbestendigheid, nervositeit, zelfvertrouwen en cultural fit. En dat dit leidt tot hogere productiviteit en minder personeelsverloop.
In mijn ronde langs diverse AI-oplossingen in recruitment probeer ik de validiteit van de door AI gegenereerde persoonsgegevens te beoordelen. De validiteit van deze gegevens is van essentieel belang om aan het AVG-beginsel van juistheid te voldoen en effectieve, eerlijke matching of selectie toe te kunnen passen.
Meer over deze beoordeling kun je lezen in het artikel AI in recruitment: juistheid van gegevens is het fundament.
In mijn beoordeling van Motiview, een ‘nieuw’ product van Neurolytics, stelde ik de wetenschappelijke onderbouwing van de motivatieclaim ter discussie. Deze is zwak en kent veel kanttekeningen. Wim van den Nobelen, Managing Director van Motiview, had bij doorvragen naar de wetenschappelijke onderbouwing voor het bepalen van de motivatie moeite met een duidelijk antwoord. Hij stelt dat er vier onafhankelijke peer-revieved papers zijn, maar verwijst daarbij naar ander onderzoek, subsidies en eigen informatie van Neurolytics. De motivatiebepaling wordt enkel ondersteund door de zogenaamde Nature publicatie.
Uit deze informatie concludeer ik dat Motiview geen nieuw product is, maar een reeds lang bestaand onderdeel van de Neurolytics productportfolio. Daarin worden nog meer claims gemaakt over persoonlijke eigenschappen die ‘wetenschappelijk’ toegekend worden op basis van AI gezichtsanalyse.
Dat is aanleiding voor een bredere beoordeling: niet alleen van motivatie, maar van alle constructen die Neurolytics meet.
Kortom, in deze (lange) beoordeling: Neurolytics.
Wat doet Neurolytics?
Neurolytics leidt persoonskenmerken af op basis van gezichtsgedrag. Met AI, computer vision en machine learning worden videobeelden van een kandidaat geanalyseerd, waarna persoonlijke kenmerken worden toegekend.
Neurolytics is in 2018 opgericht door Belén Hein en Felix Hermsen, samen met dr. Marnix Naber — universitair docent Experimentele Psychologie aan de Universiteit Utrecht en aandeelhouder van Neurolytics. Naber is de wetenschappelijk verantwoordelijke achter de technologie.
Op de homepage staat de overkoepelende belofte:
“Wetenschappelijk gevalideerde oplossing om de productiviteit te verhogen en het personeelsverloop te verminderen.”
Dit is de zwaarste claim. Niet alleen dat de meting klopt, maar dat de toepassing ervan aantoonbaar leidt tot betere bedrijfsresultaten. Hieronder beoordeel ik per module wat er werkelijk gemeten wordt, en wat de onderbouwing daarvoor is.
Wetenschappelijke claims Neurolytics
Op de technology-pagina staat de centrale wetenschappelijkheidsaanspraak:
“Neurolytics is the only recruitment solution with a published recognition in Nature Science Journal. And the only solution who’s gotten grants from both the EU and NWO for our remarkable science and technology.”
Op de productpagina’s verwijst Neurolytics voor de wetenschappelijke onderbouwing per module niet naar externe publicaties — alleen naar de eigen technology-pagina, met de vermelding dat de componenten gebaseerd zijn op “validated scientific models”.
Er worden dus twee typen bewijs opgevoerd: een publicatie en subsidies. Beide komen hieronder aan bod.
De Nature-claim
Het ‘Nature Science Journal’ bestaat niet. De publicatie waar Neurolytics naar verwijst staat in Scientific Reports — een open-access tijdschrift van de Nature Publishing Group, met open peer review. Dat is een ander tijdschrift dan Nature, en een wezenlijk ander kaliber. De formulering ‘Nature Science Journal’ wekt de indruk van het meest prestigieuze wetenschappelijke tijdschrift ter wereld. Die indruk klopt niet.
De publicatie zelf: Kappen & Naber (2021), Objective and bias-free measures of candidate motivation during job applications, Scientific Reports. Dit is de enige peer-reviewed publicatie die rechtstreeks over het Neurolytics-product gaat. Op de website van Neurolytics is geen directe link naar deze publicatie te vinden.
Module 1: Cultural Fit
Gemeten via videoanalyse
Betrokkenheid
De technologie analyseert videobeelden van de kandidaat terwijl deze een bedrijfsvideo bekijkt, en meet op basis van gezichtsgedrag de betrokkenheid bij de organisatie.
Neurolytics verwijst voor de onderbouwing van deze module naar “validated scientific models”. Een externe peer-reviewed publicatie die de meting van betrokkenheid via gezichtsanalyse van een kandidaat die een bedrijfsvideo bekijkt valideert kan ik nergens vinden.
Gemeten via vragenlijst
Werkomgevingsvoorkeur
Op basis van een vragenlijst wordt bepaald welke werkomgeving bij de kandidaat past, met gebruikmaking van het Competing Values Framework van Quinn en Cameron.
Het Quinn & Cameron-model is een gevalideerd organisatiekundig raamwerk. Het is echter een vragenlijstinstrument, geen videoanalysemethode. De validatie van het model zegt niets over de vraag of gezichtsanalyse een betrouwbare maatstaf is voor dezelfde uitkomst.
Neurolytics stelt dat beide componenten van de scan gebaseerd zijn op gevalideerde wetenschappelijke modellen. De validatie van het vragenlijstmodel en de validatie van de videoanalysemethode zijn echter twee afzonderlijke vraagstukken. Ze worden hier als één gepresenteerd.
De vragenlijstcomponent is, als zelfrapportage op basis van een gevalideerd model, methodologisch verdedigbaar. De videoanalysecomponent is dat niet aantoonbaar.
Module 2: Interview
Gemeten via videoanalyse van een video-antwoord op sollicitatievragen
Algemene motivatie
Of de kandidaat intrinsiek gemotiveerd is om de baan tot een succes te maken.
Dit construct is het meest onderbouwde van alle Neurolytics-claims, en tegelijk het best gedocumenteerde voorbeeld van de beperkingen ervan. De enige relevante peer-reviewed publicatie is Kappen & Naber (2021), Objective and bias-free measures of candidate motivation during job applications, Scientific Reports.
De studie heeft AI en computer vision ingezet om gezichtsspieractiviteit en emotionele expressies te detecteren, teneinde de zelf-gerapporteerde motivatieniveaus van 154 studenten te voorspellen. De studenten deden een gesimuleerd sollicitatiegesprek voor een traineeplaats bij een groot oliebedrijf — een vacature die niet bestond.
Het model voorspelde de zelf-gerapporteerde motivatie beter dan een groep recruiters die de beoordeling omgekeerd uitvoerde: recruiters beoordeelden meer gemotiveerde kandidaten als minder gemotiveerd, en andersom. Dat is de vergelijkingsgroep: recruiters die het tegenovergestelde van de waarheid voorspelden.
De onderzoekers beschrijven de studie expliciet als “the first but modest step” en stellen dat de psychometrische kwaliteit van de motivatiemeting beperkt is. Ze roepen op tot validatie in toekomstig onderzoek. Die validatie is, voor zover ik kan achterhalen, nooit gepubliceerd.
Drie aanvullende kanttekeningen staan in het paper zelf. De data en code zijn eigendom van Neurolytics BV en niet publiek beschikbaar; onafhankelijke reproductie is structureel onmogelijk gemaakt. De studie meet zelf-gerapporteerde motivatie als ‘ground truth’, niet werkelijke motivatie. En Naber declareert in de Competing Interests-verklaring dat hij 5% aandelen heeft ontvangen in Neurolytics in ruil voor de valorisatie van de in dit onderzoek gerapporteerde kennis, ondersteund door de NWO Take Off-subsidie (nummer 17777).
De onderzoeker die analyseert en valideert is aandeelhouder van het bedrijf dat hij valideert.
Nervositeit
Inzicht in de nervositeit van de kandidaat tijdens het video-interview.
Wim van den Nobelen verwijst voor dit construct naar: Kuipers, Kappen & Naber (2023), How nervous am I? How computer vision succeeds and humans fail in interpreting state anxiety from dynamic facial behaviour, Cognition and Emotion, Vol. 37, No. 6, pp. 1105–1115.
Dit is een peer-reviewed publicatie van dezelfde auteurscombinatie als de motivatiestudie, Kappen en Naber, aangevuld met Kuipers. De studie ontwikkelde computervisie-modellen die tijdsvariërende gezichtskenmerken gebruiken om te bepalen of iemand nerveus is in een interviewsetting. De gezichtsveranderingen die een staat van angst weerspiegelen bleken aantoonbaar aanwezig in de videobeelden. Ervaren menselijke beoordelaars slaagden er echter niet in deze veranderingen betrouwbaar op te pikken en mislukten daarmee in het accuraat vaststellen van nervositeitsniveaus.
De studie toont dus aan dat een computermodel menselijke beoordelaars overtreft bij het detecteren van nervositeit uit gezichtsgedrag.
Dezelfde kanttekeningen als bij de motivatiestudie zijn hier van toepassing. De auteurs zijn dezelfde onderzoeksgroep met dezelfde institutionele binding aan Neurolytics. De studie is uitgevoerd in een gecontroleerde interviewsetting, niet in een commercieel recruitmentproces met echte sollicitanten en échte selectiebeslissingen. En de centrale bevinding, het model presteert beter dan mensen die het toch al slecht doen, is opnieuw de vergelijkingsbasis.
Belangrijker is de vraag wat met het meten van nervositeit wordt bedoeld in een recruitmentcontext. Nervositeit is een toestandsemotie: ze fluctueert, is contextafhankelijk en zegt weinig over structurele eigenschappen van een kandidaat. Een sollicitant die nerveus is tijdens een online assessment kan dat zijn vanwege de onbekende technologie, de tijdsdruk of de persoonlijke omstandigheden op dat moment. Of juist omdat ze de baan heel graag willen. Nervositeit als selectiecriterium heeft geen aantoonbare predictieve validiteit voor functievervulling. Die vertaalslag wordt in het onderzoek niet gemaakt.
Algehele zelfverzekerdheid
Welke kandidaten verbaal sterk zijn en representatief overkomen.
Neurolytics draagt voor dit construct geen wetenschappelijke onderbouwing aan. Op de UU-profielpagina van Naber wordt ‘confidence’ wel als meetbaar construct genoemd, maar een publicatie die dit onderbouwt kan ik niet vinden.
Module 3: Cognitie & Stress
Gemeten via videoanalyse tijdens getimede cognitieve taken
Stressbestendigheid
De technologie analyseert gezichtsbeelden van de kandidaat tijdens getimede cognitieve taken om te bepalen of zij tekenen van stress vertonen.
Wim van den Nobelen verwijst voor dit construct naar: Bruin, Stuldreher, Perone, Hogenelst, Naber, Kamphuis & Brouwer (2024), Detection of arousal and valence from facial expressions and physiological responses evoked by different types of stressors, Frontiers in Neuroergonomics.
Dit is een peer-reviewed publicatie. De primaire instelling is TNO Human Factors, de Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek. Naber is medeauteur vanuit de Universiteit Utrecht; hij is niet de eerste auteur en de studie is primair TNO-onderzoek, niet Neurolytics-onderzoek.
De studie blootstelde 51 deelnemers aan drie typen stressoren, cognitief, sociaal-evaluatief en schrik, in een gecontroleerde labsetting, en mat daarbij video (gezichtsuitdrukkingen), ECG, huidgeleidingsvermogen en zelfrapportage. Het doel was te bepalen of arousal en valentie automatisch gedetecteerd kunnen worden uit gezichtsuitdrukkingen en fysiologische signalen.
De voornaamste bevinding: arousal wordt beter gevangen door fysiologische metingen (ECG, huidgeleiding), terwijl valentie beter uit gezichtsuitdrukkingen af te leiden is. Gezichtsanalyse alleen presteerde al redelijk, maar de betrouwbaarste resultaten kwamen uit de combinatie van video én fysiologische sensoren.
Drie zaken zijn hier van belang voor de toepassing in recruitment.
Ten eerste: de studie meet arousal en valentie, de bouwstenen van een stressrespons, niet stressbestendigheid als stabiele persoonseigenschap. Dat zijn fundamenteel verschillende constructen. Iemand die in een lab arousal toont bij een schrikstressor is daarmee niet gekarakteriseerd als iemand met lage stressbestendigheid.
Ten tweede: de betrouwbaarste modellen combineeerden video met fysiologische sensoren. Neurolytics werkt met een webcam alleen, zonder ECG of huidgeleidingsmeting. De validatie-infrastructuur van de studie is daarmee niet één-op-één over te zetten op de Neurolytics-methode.
Ten derde: de studie noemt in de introductie zelf de mogelijke toepassing bij sollicitanten voor hoog-risicobanen, maar maakt die vertaalslag niet. Het onderzoek eindigt bij het detecteren van stressreacties in een labsetting, het valideert geen assessmentinstrument voor arbeidsmarktbeslissingen.
Deze studie is wel onafhankelijk van Neurolytics, wat een ander gewicht geeft dan de publicaties van Kappen en Kuipers. Maar deze valideert de Neurolytics-methode niet en maakt de claim van stressbestendigheid als selectiecriterium niet hard.
Inspanning en omgaan met druk
Of de kandidaat veel inspanning levert en onder druk kan presteren.
Neurolytics draagt voor dit construct geen wetenschappelijke onderbouwing aan. Een peer-reviewed publicatie die dit construct valideert als uitkomst van gezichtsanalyse in een recruitmentcontext heb ik niet kunnen vinden.
Gemeten via de cognitieve taken zelf
Cognitieve vaardigheden
Inzicht in algemeen, numeriek, logisch en verbaal redeneren, gemeten via de prestaties op de taken zelf.
Dit is het enige construct in het Neurolytics-aanbod dat niet afgeleid is uit gezichtsanalyse, maar rechtstreeks gemeten wordt via taakprestatie. Cognitieve tests met directe prestatiescores zijn een methodologisch verdedigbare meetmethode, mits de taken zelf gevalideerd zijn. Ik kan hiervoor geen externe validatiebron vinden.
De overkoepelende claim: productiviteit en personeelsverloop
De homepage-belofte “Wetenschappelijk gevalideerde oplossing om de productiviteit te verhogen en het personeelsverloop te verminderen” gaat nog veel verder dan alle bovenstaande meetclaims.
Om deze claim te kunnen waarmaken, zou Neurolytics moeten aantonen dat:
- elk gemeten construct correct wordt bepaald (constructvaliditeit),
- de scores op die constructen daadwerkelijk voorspellen wie succesvol en duurzaam zal functioneren in een functie (predictieve validiteit),
- dit effect is aangetoond in een representatieve populatie echte sollicitanten bij echte werkgevers (ecologische validiteit).
Geen van de beschikbare publicaties raakt aan punt 2 of 3. De enige productgerelateerde studie, Kappen & Naber (2021), is nadrukkelijk een verkennende eerste stap, gebruikt studenten in een gesimuleerde situatie, en meet zelf-gerapporteerde motivatie, niet baanprestatie of retentie.
Subsidies en samenwerkingen als bewijs
Wim van den Nobelen verwijst bij doorvragen naar NWO-subsidies, EU Horizon 2020-financiering en de onderzoekssamenwerking met de Universiteit Utrecht als onderbouwing voor de wetenschappelijkheid van Neurolytics.
Subsidies en onderzoekssamenwerkingen zijn geen bewijs van validiteit van een commercieel product. Ze bewijzen dat er onderzoek is gedaan, niet dat de claims kloppen.
Subsidieverstrekkers als NWO en de Europese Commissie beoordelen innovatiepotentieel, technologische haalbaarheid en maatschappelijke relevantie. Ze voeren geen psychometrische validatie uit van assessmentinstrumenten. Het zijn verschillende beoordelingskaders.
Daarbij is de NWO Take Off-subsidie die als bewijs van wetenschappelijkheid wordt opgevoerd dezelfde subsidie die Naber aandeelhouder maakte van Neurolytics.
De subsidie die onafhankelijkheid moet uitstralen, financierde het belang dat die onafhankelijkheid ondermijnt.
Beoordeling op de drie vragen
Vraag 1: Zijn de gegevens feitelijk of afgeleid?
Van de acht constructen die Neurolytics via videoanalyse meet, zijn er zeven afgeleid: betrokkenheid, motivatie, nervositeit, zelfverzekerdheid, stressbestendigheid en inspanning zijn geen observeerbare feiten maar conclusies getrokken uit microexpressies en gezichtsspieractiviteit. De werkomgevingsvoorkeur is afgeleid via zelfrapportage in een vragenlijst. Alleen de prestatiescore op de cognitieve taken is een direct gemeten uitkomst.
Vraag 2: Worden afgeleide gegevens geverifieerd door de betrokkene?
Nee. De kandidaat ontvangt een uitkomst op betrokkenheid, motivatie of stresstolerantie, maar heeft geen mogelijkheid om de onderliggende inferentie te betwisten op basis van onjuiste invoerdata. De invoerdata, het gezichtsgedrag, klopt immers; de conclusie is wat ter discussie staat. Verificatie met de kandidaat vindt niet plaats.
Vraag 3: Hoe wordt de juistheid van afgeleide gegevens gevalideerd en hoe onafhankelijk is die validatie?
Er zijn drie peer-reviewed publicaties die Neurolytics aanreikt als onderbouwing. Kappen & Naber (2021) voor motivatie en Kuipers, Kappen & Naber (2023) voor nervositeit zijn beide afkomstig van dezelfde onderzoeksgroep met een institutionele binding aan Neurolytics, uitgevoerd in gecontroleerde gesimuleerde settings, en meten of een AI-model menselijke beoordelaars overtreft die het toch al slecht doen. Data en code zijn in beide gevallen eigendom van Neurolytics en niet publiek beschikbaar.
Bruin et al. (2024) is de enige studie die primair onafhankelijk is, uitgevoerd door TNO met Naber als medeauteur. Deze valideert echter de Neurolytics-methode niet: ze combineert video met fysiologische sensoren die Neurolytics niet inzet, meet arousal en valentie in een labsetting en maakt de vertaalslag naar stressbestendigheid als selectiecriterium niet.
Voor betrokkenheid, zelfverzekerdheid en inspanning draagt Neurolytics geen wetenschappelijke onderbouwing aan en heb ik er ook geen kunnen vinden.
Onafhankelijke replicatie van de productspecifieke studies is structureel onmogelijk gemaakt.
Conclusie
Neurolytics meet zeven persoonskenmerken via gezichtsanalyse en belooft dat dit leidt tot hogere productiviteit en minder personeelsverloop. Elk van de via videoanalyse gemeten constructen is een afgeleid gegeven waarvoor aantoonbare juistheid vereist is onder het AVG-beginsel van artikel 5(1)(d).
De wetenschappelijke onderbouwing die Neurolytics aanreikt bestaat uit drie publicaties. Twee zijn afkomstig van dezelfde Neurolytics-gebonden onderzoeksgroep, voor motivatie en nervositeit, uitgevoerd in gecontroleerde, gesimuleerde settings, met data en code in eigendom van Neurolytics. De derde is onafhankelijk TNO-onderzoek naar stressdetectie via video én fysiologische sensoren, dat de Neurolytics-methode niet valideert en de vertaalslag naar stressbestendigheid als selectiecriterium niet maakt. Aanvullend zijn er subsidies die geen validatiekeurmerk zijn. Voor drie van de zeven via videoanalyse gemeten constructen (betrokkenheid, zelfverzekerdheid en inspanning) wordt geen enkele wetenschappelijke onderbouwing aangedragen.
De overkoepelende claim over productiviteit en personeelsverloop heeft geen enkele publiek toegankelijke wetenschappelijke onderbouwing. Die claim vereist predictieve validiteit; het aantonen dat de scores voorspellen wie succesvol zal functioneren. Daarvoor bestaat geen gepubliceerd bewijs.
Als werkgever moet je dit zelf op waarde schatten als onderbouwing voor toepassing in een selectieproces. De hoeveelheid ‘wetenschappelijke’ validatie en claims lijken vooral marketing te zijn die veel afleiden van de basale vragen over de juistheid van de gegevens die door de AI van Neurolytics worden gegenereerd. Het doet denken aan de medische en wetenschappelijke claims op verzorgingsproducten: ze spelen in op het vertrouwen dat ‘wetenschappelijk’ goed is, en op het gebrek aan tijd en vermogen bij werkgevers om dit te doorgronden — met een flinke vleug ‘wij van wc-eend’.
Misschien kan Neurolytics de juistheid beter onderbouwen dan tot nu toe publiek zichtbaar is. Dan zou ik als werkgever graag zien: onafhankelijk gerepliceerd onderzoek op echte sollicitanten in echte selectieprocedures, met publiek beschikbare data en code, en aantoonbare predictieve validiteit voor elk gemeten construct afzonderlijk. Zonder die onderbouwing zou ik niet vertrouwen op de juistheid van de toegekende persoonskenmerken, en al helemaal niet op de beloofde bedrijfsresultaten. Integendeel. Op basis van de beschikbare informatie zou ik niet weten hoe je het gebruik van deze resultaten kunt uitleggen en verantwoorden naar kandidaten, anders dan: “de black-box AI zegt het.”
