LLM’s horen thuis in de kleuterklas, niet in recruitment

divine interventionWe leven nog altijd in een tijd waarin AI-bomen tot in de imaginaire hemel groeien en iedereen zich moet afvragen of hij/zij/x morgen nog wel een baan heeft. Hiermee overtreft de AI-hype de Internet-hype van het begin van deze eeuw, en ze doet dat met twee vingers in de neus.Ik zie het als mijn weinig benijdenswaardige taak om als party-pooper te waarschuwen voor het ongebreideld bouwen van luchtkastelen die, door gebrek aan inhoud en gewicht, uiteindelijk verdampen en een collectieve kater achterlaten.

Binnen het recruitment domein is de hysterie misschien nog groter dan binnen andere beroepsgroepen vanwege het grotendeels data-gestuurde karakter van recruitment processen. En de populariteit van LLM’s voor bepaalde processtappen kent voorlopig nog geen grenzen. Maar ik wil in deze blog posting graag een ferme engelse sleutel in de raderen gooien door middel van een wetenschappelijk artikel waarin de uitkomsten van een uitzonderlijk eenvoudig experiment worden gerapporteerd: The Strange Behavior of LLMs in Hiring Decisions: Systemic Gender and Positional Biases in Candidate Selection:

In an experiment involving 22 leading LLMs and 70 popular professions, each model was systematically given a job description along with a pair of profession-matched CVs (one including a male first name, and the other a female first name) and asked to select the more suitable candidate for the job.

Duidelijk? Eén cv, één keer met een mannelijke naam aangeboden en één keer met een vrouwelijk naam. Verder exact hetzelfde. Voor visuele denkers:

Opzet experiment
Opzet experiment

En dat heeft de onderzoeker voor 70 verschillende beroepen gedaan, en getest tegen 22 LLM’s. Saai, maar iemand moet het doen. En de uitkomsten maakten alle arbeid dubbel en dwars de moeite waard:
LLM’s gender preferences in hiring decisions
LLM’s gender preferences in hiring decisions (*) indicate statistically significant results

Met daarbij de volgende uitleg:

Despite identical professional qualifications across genders, all LLMs consistently favored female-named candidates when selecting the most qualified candidate for the job. Female candidates were selected in 56.9% of cases, compared to 43.1% for male candidates  asterisks.

Elk enigszins zelfrespecterend LLM bevoordeelt een vrouwelijke naam ten opzichte van een mannelijke naam bij een verder volledig identiek cv. ELK LLM!

Waarbij ik maar meteen de voor de hand liggende vraag stel: op welke andere gronden laat een LLM nog meer een bias zien? En hoe kunnen we een black box vertrouwen in het selecteren van sollicitanten als diezelfde black box zo’n gruwelijk evidente bias laat zien op iets simpels als een expliciet vrouwelijke danwel mannelijk naam?

Voor elk van de 70 gekozen beroepen scoren vrouwelijke namen hoger dan mannelijke namen:
(*) indicate statistically significant results
LLM’s gender preferences in hiring decisions per profession. (*) indicate statistically significant results

Dit doet pijn aan je ogen, nietwaar?

En dan is er ook nog dit:

Follow-up analysis of the first experimental results revealed a marked positional bias with LLMs tending to prefer the candidate appearing first in the prompt: 63.5% selection of first candidate vs 36.5% selections of second candidate

Een volgorde bias… Door een systeem (LLM ) waar miljarden dollars in zijn gepompt; die alle content van het hele Internet heeft opgeslobberd om vervolgens een volgorde bias (de eerste is beter) een naam bias (een vrouwelijke naam is beter) laten zien. En god weet wat voor andere bias vormen nog meer.

Het artikel sluit af met de volgende ‘conclusie’:

The results presented here also call into question whether current AI technology is mature enough to be suitable for job selection or other high stakes automated decision-making tasks.

De vraag stellen, is de vraag beantwoorden. Er bestaan duidelijk geen zichzelf respecterende LLM’s en dat vraagt om actie van afnemers van deze LLM’s. Binnen het recruitment domein zijn dit alle werkgevers en intermediairs die tot dusverre huppelend met AI over straat gaan in blisfull ignorance. Die onwetendheid kan niet langer geclaimed worden. Acteer daarnaar.

Heb je nog niet genoeg gehad? Lees dan deze artikelen:

Een LLM heeft alle kenmerken van een piratennest

AI is bevattelijker voor bias dan haar schepper: forever data

Geef een reactie

1 Comment
  • Marco van Hurne
    says:

    Je artikel is spot on, Marc, zoals gewoonlijk. Mensen die net beginnen in het Machine Learning vak zijn goed op de hoogte van systeem bias. Het is een stuk overzichtelijker dan deep learning en een foutje in de data leidt dan sneller tot outliers. Maar bij die taalmodellen is dat niet zo duidelijk. De dataset is enorm divers, en de kwaliteit is ook onduidelijk. Dus het kan best zo zijn dat op bepaalde onderwerpen je data een afwijking heeft, zoals in dit geval bij man/vrouw. Kennelijk heeft iemand de woke-knop teveel open gedraaid.

    Dus LLMs en recruitment, ik zeg nee, maar met Machine Learning modellen en recruitment op gestructureerde plus ongestructureerde data (face it – een CV is data-technisch een rommeltje) werken is heel goed mogelijk, redelijk transparant en daardoor ook beïnvloedbaar