Blijf van onze data af, 8vance!

 Het beste van AI voor talent en recruitment in een Ik heb al eerder aandacht besteed aan het recent verschenen whitepaper van 8vance (zie: Laten we nou eens stoppen met het misbruiken van de term ‘matchen’). Vandaag wil ik stilstaan bij het volgens 8vance rechtmatige karakter van haar dienstverlening. Een opvallende positie die niet wordt gedeeld door de Autoriteit Persoonsgegevens.

Massa = kassa, maar massa = NIET beter
Op pagina 11 van haar whitepaper stelt het bedrijf:

AI-systemen voor talentmanagement zijn ontworpen om de interne en externe arbeidsmarkt te ontsluiten en eerlijker en objectiever te maken. Deze systemen worden getraind op grote hoeveelheden data: hoe meer data, hoe beter om bias te voorkomen.

Er is voor zover mij bekend geen enkele relatie tussen de hoeveelheid data en de mate waarin die data vrij is van bias. Ik nodig 8vance uit deze “meer = schoner” claim te bewijzen met concrete voorbeelden of anders haar marketingmateriaal drastisch aan te passen. Als deze claim wel correct zou zijn dan betekent het per direct dat 8vance behoorlijk smerige data moet hebben, gezien het relatief kleine datavolume (85+ miljoen persoonsprofielen) in vergelijking met collegascrapers zoals Eightfold, hireEZ, HeroHunt en SeekOut, die tussen de 800 miljoen en 1,1 miljard persoonsprofielen zeggen te bezitten. Ik heb voor alle zekerheid ook nog even de volgende vraag aan het LLM Perplexity gesteld: Is er een correlatie tussen de hoeveelheid data en het voorkomen van bias? en dat gaf dit resultaat:

Er is geen correlatie tussen de hoeveelheid data en het voorkomen van bias. Hoewel een grotere hoeveelheid data in sommige gevallen kan helpen om bepaalde vormen van bias te verminderen, is de relatie tussen datahoeveelheid en bias complexer en afhankelijk van verschillende factoren:

  1. Kwaliteit boven kwantiteit: Een grotere hoeveelheid data garandeert niet automatisch minder bias. De kwaliteit en representativiteit van de data zijn belangrijker dan de hoeveelheid.
  2. Persistentie van bepaalde biases: Sommige vormen van bias, zoals historische bias, kunnen blijven bestaan of zelfs versterkt worden bij grotere datasets als de onderliggende vooroordelen niet worden aangepakt.
  3. Nieuwe biases bij big data: Grote datasets kunnen nieuwe vormen van bias introduceren, bijvoorbeeld als bepaalde groepen oververtegenwoordigd zijn in de data. (MD: denk aan de bias binnen LinkedIn data)
  4. Variantie vs. bias: Hoewel meer data de variantie kan verminderen, betekent dit niet automatisch dat de bias afneemt. In sommige gevallen kan een toename van data zelfs leiden tot een toename van bias als het model overfits op de beschikbare data.
  5. Belang van datakwaliteit: Betrouwbaarheid, representativiteit, consistentie en nauwkeurigheid van de data zijn cruciaal voor het verminderen van bias, ongeacht de hoeveelheid.
  6. Noodzaak van bewuste aanpak: Het verminderen van bias vereist een doelgerichte aanpak, zoals het gebruik van diverse databronnen, het corrigeren van historische vooroordelen, en het regelmatig auditen van data en modellen.

QED

Op basis van deze conclusie staat ook 8vance’s aanname dat “AI-systemen voor talentmanagement de arbeidsmarkt ontsluiten, en eerlijker en objectiever maken” volledig op losse schroeven.

Een maatschappelijk belang? Laar me niet lachen!
In haar privacyverklaring stelt 8vance in het onderdeel Doelen en grondslagen het volgende:

Voor het verzamelen en gebruiken van trainingsdata en openbare matchingdata baseert 8vance zich op haar gerechtvaardigde belangen. Een goede werking van de 8vance matchingtechnologie is noodzakelijk voor bruikbare en economische exploitatie daarvan. Daarbij dienen we ook een maatschappelijk belang. Gebruik van het 8vance platform kan bijdragen aan een betere doorstroming op de arbeidsmarkt en vermindering van discriminatie, nu naam, afkomst, leeftijd en geslacht niet worden meegenomen in de matching. Daarnaast kunnen er wettelijke (administratie) verplichtingen zijn op grond waarvan wij persoonsgegevens verwerken.

In mijn optiek hallucineert 8vance hier een maatschappelijk belang door te suggereren dat haar toepassing kan(!) bijdragen aan een betere doorstroming op de arbeidsmarkt en een vermindering van discriminatie zonder hiervoor ook maar een flinter aan bewijs op te voeren. En de Autoriteit Persoonsgegevens zegt over gerechtvaardigd belangen o.m. het volgende:

Het belang zelf moet wel steeds echt, concreet en rechtstreeks zijn. En dus niet speculatief, toekomstig of afgeleid. Maar dat kan in beginsel ieder materieel of immaterieel belang zijn.

Wat niet als een gerechtvaardigd belang kwalificeert, is een algemeen belang van ‘de samenleving’ of iets dergelijks. Hierbij gaat het namelijk niet om een echt, concreet en rechtstreeks gerechtvaardigd belang van de verwerkingsverantwoordelijke of derde. Het is dan aan de wetgever om daarin te voorzien met concrete wetgeving.

En daarmee is het scrapen van persoonsgegevens van publieke bronnen, zoals 8vance doet, onrechtmatig onder de AVG.

In haar whitepaper doet 8vance een nieuwe poging om een gerechtvaardigd belang te claimen:

Er zijn twee manieren om legaal trainingsdata van profielen te verkrijgen: toestemming vragen aan alle gebruikers (wat in de praktijk lastig is bij grote datasets) of het baseren op een gerechtvaardigd belang. In het laatste geval stel je dat het belang van de verwerker zwaarder weegt dan dat van het individu. Bijvoorbeeld, het belang om mensen inzicht te geven in nieuwe carrièrekansen tegenover het belang van een individu om zijn persoonsgegevens te beschermen.

Hilarisch, niet? 8vance heeft de arrogantie te denken dat zij ongevraagd mensen inzicht kan geven in nieuwe carrièrekansen! Al die mensen die op dit moment handenwringend op zoek zijn naar nieuwe carrièrekansen zullen staan te juichen dat 8vance bestaat en hun persoonsgegevens ongevraagd scrapet. Privacy be damned! Dit is hetzelfde speculatieve en algemene belang waar hierboven aan is gerefereerd als niet-valide en daarmee de toets der kritiek nooit kan overleven.

8vance is zich daar natuurlijk ook van bewust, maar nog niet bereid de handdoek in de ring te gooien. Daarom komt het bedrijf met een tweetal verzachtende omstandigheden. Allereerst de poging persoonsgegevens zijn geen persoonsgegevens:

Door gegevens te minimaliseren (overbodige gegevens te verwijderen) en te anonimiseren (zodat ze niet meer herleidbaar zijn tot personen), zijn het geen persoonsgegevens meer en is er geen schade voor het individu bij het trainen van AI.

Wat een drogredenering! Als je geen persoonsgegevens hoeft te scrapen, doe het dan ook niet. Er is tenslotte geen enkele reden om persoonsgegevens van LinkedIn te scrapen als je er uiteindelijk niets mee doet! Scrape alleen die gegevens die je echt nodig hebt. Dan laad je ook niet de verdenking op jezelf dat je misschien stiekem die persoonsgegevens alsnog bewaart. Wat tot voor enkele maanden geleden in ieder geval wel het geval was… En verder is het niet zo dat met minimalisatie en anonimisering er geen persoonsgegevens meer overblijven. Ik wacht nog altijd op een onderzoek van 8vance data door een onafhankelijk instituut dat aantoont dat werkervaringen en opleidingen niet zijn te herleiden tot natuurlijke personen.

Als laatste zogenaamd verzachtende omstandigheid suggereert 8vance incompetentie bij de Autoriteit Persoonsgegevens:

Een recente publicatie van de Nederlandse Autoriteit Persoonsgegevens (AP) zorgde voor extra verwarring door te stellen dat ‘scraping bijna altijd illegaal is’ bij zuiver commercieel belang. Dit standpunt wijkt af van dat van de Europese Toezichthouder voor Gegevensbescherming (EDPS), die scraping onder bepaalde voorwaarden toestaat. Experts zijn het niet eens met de AP, aangezien scraping het indexeren van publieke informatie is, wat essentieel is voor de toegankelijkheid van het internet. De vraag blijft wanneer er sprake is van een zuiver commercieel belang, aangezien er vaak ook maatschappelijke belangen zijn. Bijvoorbeeld, als een overheidsorganisatie een bedrijf inhuurt voor scraping van publieke data voor AI-training met een maatschappelijk doel, is dit dan toegestaan? In een recente rechtszaak tussen de Autoriteit Persoonsgegevens en de Tennisbond heeft de Amsterdamse rechtbank opheldering gevraagd aan het Europese Hof van Justitie, hoe dit te interpreteren. Kortom, wetgeving en jurisprudentie is op dit onderwerp nog volop in beweging. Voor een volledig juridisch waterdichte beoordeling is het raadzaam om een gespecialiseerde privacyjurist te raadplegen

Nee, 8vance, jullie hebben geen maatschappelijk belang, uitsluitend een commercieel belang die je op een uiterst klungelige wijze probeert te converteren tot een maatschappelijk belang. Doe mij overigens ook meteen even het lijstje experts die het niet eens zijn met AP, en dan alleen diegenen die niet op de loonlijst van 8vance staan of hebben gestaan… 8vance probeert hier een zogenaamd FUDje te maken (Fears, uncertainties & doubts), maar het is bijzonder doorzichtig.

Het is wel duidelijk dat de dreiging van de Autoriteit Persoonsgegevens voor 8vance existentieel is, getuige de reactie van UWV (verreweg de grootste klant van 8vance, hoewel er nog geen toepassing live is) op deze vraag van collega-blogger René Veldwijk: Deze week kwam de Autoriteit Persoonsgegevens met een nagenoeg categorisch verbod op
scrapen van persoonsgegevens door private partijen. Ziet UWV deze en regelgeving als een risico
voor de dienstverlening door 8vance? Graag een toelichting op het antwoord
. Waarop UWV stelt:

Wij hebben kennisgenomen van de handreiking van de AP over scraping en de AVG. Onze
juridische experts zijn de handreiking aan het bestuderen en net zoals bij alle ontwikkelingen
op het gebied van wetgeving of daarbuiten wordt bestudeerd wat de impact ervan is op UWV
en leveranciers van UWV.

Als de juridische experts klaar zijn met bestuderen (wanneer?) en de impact ervan op UWV en haar leveranciers hebben vastgesteld dan is het redelijk te veronderstellen dat het contract tussen UWV en 8vance beeïndigd moet gaan worden. Voor UWV is dat dan onder de noemer: beter ten halve gekeerd dan ten hele gedwaald. Aangezien de handreiking op 1 mei door de Autoriteit Persoonsgegevens is gepubliceerd lijkt het me dat we ieder moment een beslissing van UWV mogen verwachten.

Geef een reactie