Voor diegenen die de dissectie van 8vance hebben gemist, geen nood. Een recente ontwikkeling binnen LinkedIn (hofleverancier van 8vance’s persoonsprofielen) gaat namelijk als knoflook op een vampier werken. Wat is er aan de hand? Mijn gewaarde collega Marcel van der Meer (die ik abusievelijk en onbegrijpelijk verwarde met Irina Shamaeva) heeft bijna 3 maanden geleden een meer dan interessant artikel geplaatst, onder de opbeurende titel LinkedIn X-Ray is soon to be dead.
Het voert ver (te ver) om in detail op het artikel van Van der Meer in te gaan, maar de essentie is dat LinkedIn het publieke profiel van een LinkedIn gebruiker vrijwel volledig achter de betaalmuur trekt. Wereldwijd. Met de huidige actie van LinkedIn verdwijnen de volgende onderdelen van het publieke profiel voortaan achter een betaalmuur:
Het verdwijnen van werkervaringen uit het publieke profiel lijkt me een potentieel fatale wond voor 8vance. Voor de goede orde, 8vance verzameld via (onder meer) LinkedIn persoonsprofielen. Ze kopieert alle beschikbare informatie van alle publieke LinkedIn profielen. Vervolgens slaat zij deze informatie op in een raw data bestand. Dit bestand bestaat volgens 8vance niet langer dan 4 weken, in werkelijkheid kan dit (meer dan) 5 maanden zijn. Het bestand zit tjokvol persoonsgegevens van LinkedIn gebruikers van wie het profiel publiek zichtbaar is (= vindbaar via Google e.a.).
Uit de raw data worden twee bestanden gemaakt/onderhouden:
- Een search/match bestand. Dit bestand is het best te vergelijken met een cv-database van een vacaturesite. Alle gekopieerde profielen van LinkedIn gebruikers worden in dit bestand gestopt, inclusief een groot aantal (maar zeker niet alle) persoonsgegevens. Betalende klanten van 8vance kunnen zoeken in het bestand om geschikte kandidaten te vinden en om contact op te nemen met die kandidaten. Overigens lijkt dit niet alleen op een cv-database van een vacaturesite maar natuurlijk ook op LinkedIn zelf.
- Een trainingsbestand. Dit bestand wordt gebruikt om AI-model(len) mee te trainen, die op hun beurt weer worden gebruikt voor de zoek/filterfunctie waarmee klanten in het search/match bestand kunnen zoeken. Volgens opgave van 8vance wordt hier alleen gebruik gemaakt van werkervaringen en is de data niet meer te herleiden naar de oorspronkelijke profielen. Dit zijn de gegevens die 8vance met betrekking tot werkervaring van een publiek LinkedIn profiel kopieert:
In bovenstaande gegevensset van één werkvaring van mijn LinkedIn profiel zit meer dan voldoende informatie om een werkervaring naar een natuurlijk persoon te herleiden, maar laten we 8vance het voordeel van de twijfel gunnen en er vanuit gaan dat alleen de functietitel en de start- en einddatum worden gebruikt in het trainingsbestand. Dan wordt het minder vanzelfsprekend om vanuit een enkele werkervaring tot een natuurlijk persoon te komen. Maar niet onmogelijk; het hangt af van de mate van uniciteit van de beschikbare velden. En bij meerdere (opeenvolgende) werkervaringen is het redelijk te veronderstellen dat hier wel het risico aanwezig is om de achterliggende natuuurlijke persoon te vinden. De belangrijkste vraag is natuurlijk: heeft 8vance dit kwantitatief onderzocht en wat zijn hiervan de bevindingen?
Maar in de context van de actie van LinkedIn lijkt dit bijna op een achterhoede discussie, want LinkedIn toont in de publieke profielen de werkervaringen niet meer. En daarmee degradeert de waarde van beide bestanden (search/match bestand en trainingsbestand) traag maar gestaag. Ik zie met het huidige business model van 8vance niet hoe ze hiervan kunnen herstellen. Dus misschien is het tijd om met LinkedIn te gaan praten, wat natuurlijk allang had moeten gebeuren. En meteen ook even om toestemming vragen aan alle mensen van vlees en bloed achter die profielen, wat natuurlijk ook allang had moeten gebeuren. Want hoewel de actie van LinkedIn naar mijn mening niet is ingegeven door privacy-overwegingen, lijkt het in de praktijk wel goed uit te pakken voor de privacy van LinkedIn gebruikers.
Hoewel 8vance een zeer zichtbaar slachtoffer is, is zij zeker niet de enige partij die hierdoor (zwaar) geraakt gaat worden. Het wordt interessant om te zien hoe partijen gaan reageren op deze actie van LinkedIn. Ik zou niet eens verbaasd opkijken als er partijen zijn die het publieke profiel een soort verworven recht vinden en daarom gaat procederen.
Interessante tijden.
Ook Glen Cathey doet (op LinkedIn) een duit in het zakje: Here’s my (controversial?) take regarding LinkedIn changes to limit/eliminate X-ray searching/scraping of public profiles
Patrick Boonstra
says:Er zijn (in de VS) inderdaad een aantal rechtszaken geweest om LinkedIn ‘public’ data ook beschikbaar te houden voor scrapers. Deze zaken heeft LI uiteindelijk ook verloren.
https://www.ere.net/articles/the-linkedin-case-was-a-bigger-win-for-scrapers-than-you-realize
Dus in de US mag je inderdaad LI scrapen.
Echter – a) LinkedIn kan altijd zelf bepalen welke delen van de informatie ze publiekelijk beschikbaar stelt en dus ook nu legitiem steeds meer dicht mag zetten, maar bovenal b) omdat het data-eigenaarschap in Europa onder GDPR/AVG altijd bij het datasubject zelf ligt, en in beginsel verbiedt dat verdere verwerking van andere partijen.