Rechtmatig webscrapen, wat is dat eigenlijk?

Op het recente HR & AI congres van Werf& gaf jurist en privacy- en AI-specialist Inge Brattinga een sessie genaamd: Do’s en dont’s van AI in de HR praktijk.

Eén van haar slides ging over scrapen, en deze slide toonde de volgende bullet points.

Veel gebruikt door AI-toepassingen, vooral in recruitment
Risicovolle toepassing
Rechtmatig webscrapen in overeenstemming met privacy-, intellectueel eigendoms-, en contractenrecht
Niet onmogelijk, maar wel moeilijk
Vraag de leverancier om uitleg!

Ik ben het niet met Brattinga eens dat web scraping vooral in recruitment wordt gebruikt, LLM’s zijn volgens mij verreweg de grootste scrapers op dit moment. Ook weet ik niet wat ze bedoeld met de observatie dat webscrapen risicovol is. En ik zou afnemers willen aanraden om niet alleen uitleg te vragen van leveranciers van AI producten en diensten, maar vooral bewijs dat binnen de wet wordt geacteerd. Uitleg is makkelijk te geven, bewijs is een stuk moeilijker.

Maar waar ik vooral door werd getriggerd is de term rechtmatig webscrapen. Is rechtmatig swebcrapen een juridische standaardterm met een nauwkeurige definitie? Nee, dat is het niet. Het concept van rechtmatig webscrapen verwijst echter wel naar het verzamelen van gegevens van websites op een manier die voldoet aan de geldende wet- en regelgeving.

Ik heb aan mijn four horsemen (ChatGPT, Perplexity, Claude, Gemini) gevraagd waar deze term nou precies voor staat. En dit zijn hun antwoorden:

ChatGPT

De term “rechtmatig webscrapen” verwijst naar het verzamelen van gegevens van websites op een manier die voldoet aan de geldende wet- en regelgeving. Webscraping kan legaal zijn, mits het gebeurt binnen de grenzen van de wet en rekening houdt met de volgende aspecten:

Toestemming: Het is belangrijk om te controleren of de website expliciete toestemming biedt voor scraping, bijvoorbeeld via de algemene voorwaarden of een robots.txt-bestand dat aangeeft welke delen van de website wel of niet gescrapet mogen worden.
Auteursrecht en databankenrecht: In de EU en veel andere rechtsgebieden wordt de inhoud van websites beschermd door auteursrecht of databankenrecht. Scraping mag niet leiden tot het schenden van deze rechten, bijvoorbeeld door het kopiëren van grote delen van de inhoud zonder toestemming.
Privacywetgeving: Als bij het scrapen persoonsgegevens worden verzameld, moet dit in overeenstemming zijn met privacywetten zoals de Algemene Verordening Gegevensbescherming (AVG). Dit betekent onder andere dat er een geldige juridische basis moet zijn voor de verwerking van persoonsgegevens en dat gebruikers mogelijk geïnformeerd moeten worden.
Contractbreuk: Websites hebben vaak gebruiksvoorwaarden waarin wordt aangegeven of scraping is toegestaan. Door het scrapen van een website in strijd met deze voorwaarden kun je een contractbreuk plegen, wat juridische gevolgen kan hebben.
Omzeilen van beveiliging: Het is vaak verboden om technische beveiligingen van een website te omzeilen, zoals CAPTCHA’s of inlogsystemen, om aan gegevens te komen.

Perplexity

Rechtmatig webscrapen verwijst naar het geautomatiseerd verzamelen van gegevens van websites op een manier die voldoet aan wettelijke en ethische normen. Hierbij zijn enkele belangrijke aspecten te onderscheiden:

Wettelijke kaders

Het belangrijkste wettelijke kader voor webscraping in Europa is de Algemene Verordening Gegevensbescherming (AVG). Volgens de AVG moet er voor het verzamelen van persoonsgegevens een geldige grondslag zijn, zoals toestemming of een gerechtvaardigd belang.

Persoonsgegevens

Bij het scrapen van persoonsgegevens gelden strenge regels:

Er moet een geldige verwerkingsgrondslag zijn, zoals toestemming of gerechtvaardigd belang.
Bijzondere persoonsgegevens (zoals etniciteit of gezondheid) mogen in principe niet worden gescrapet.
De hoeveelheid verzamelde gegevens moet worden geminimaliseerd.

Openbare gegevens

Het feit dat gegevens openbaar toegankelijk zijn op internet, betekent niet automatisch dat ze vrij zijn om te scrapen. De oorspronkelijke publicatie moet in overeenstemming zijn met de AVG.

Ethische overwegingen

Naast wettelijke vereisten spelen ook ethische aspecten een rol bij rechtmatig webscrapen:

Respecteer de wensen van websitebeheerders, bijvoorbeeld door robots.txt bestanden te volgen.
Overbelast servers niet door overmatig scrapen.
Gebruik de verzamelde gegevens alleen voor het beoogde doel.

Praktische richtlijnen

Om webscraping rechtmatig uit te voeren, kunnen de volgende richtlijnen worden gevolgd:

Beperk het scrapen tot strikt noodzakelijke gegevens.
Vermijd het verzamelen van bijzondere persoonsgegevens.
Wees transparant over het scrapen en het doel ervan.
Implementeer adequate beveiligingsmaatregelen voor de verzamelde gegevens.
Respecteer de intellectuele eigendomsrechten van de gescrapete content.

Conclusie

Hoewel de Autoriteit Persoonsgegevens (AP) stelt dat webscraping “vrijwel nooit toegestaan” is, zijn er situaties waarin het wel degelijk rechtmatig kan zijn. Het is cruciaal om zorgvuldig te werk te gaan, de AVG-principes te respecteren en een gedegen belangenafweging te maken. Bij twijfel is het raadzaam juridisch advies in te winnen om te waarborgen dat de scraping-activiteiten voldoen aan alle relevante wet- en regelgeving.

Claude

Rechtmatig webscrapen is het op een legale en ethische manier verzamelen van gegevens van websites. Laat me de belangrijkste aspecten uitleggen:

Kenmerken van rechtmatig webscrapen:

1. Respecteren van robots.txt

Dit bestand geeft aan welke delen van een website wel/niet gescraped mogen worden
Het naleven van eventuele crawl-snelheidsbeperkingen

2. Identificatie & transparantie

Duidelijk aangeven wie je bent via de user-agent string
Contact informatie beschikbaar stellen voor website eigenaren

3. Redelijk gebruik

Niet onnodig veel serverbelasting veroorzaken
Scrapen op rustige momenten
Rate limiting toepassen

4. Respect voor voorwaarden

Terms of Service van websites naleven
Alleen publiek toegankelijke data verzamelen
Geen omzeiling van beveiligingsmaatregelen

5. Privacy en databescherming

Geen persoonlijke data verzamelen zonder toestemming
Voldoen aan AVG/GDPR regelgeving
Data veilig opslaan en verwerken

6. Commercieel gebruik

Toestemming vragen voor commerciële toepassingen
Eventuele licentiekosten betalen
Attribution waar nodig

Gemini

Webscraping is een techniek waarbij software wordt gebruikt om automatisch informatie van websites te verzamelen. Deze informatie kan vervolgens worden gebruikt voor allerlei doeleinden, zoals marktonderzoek, prijsvergelijkingen en het creëren van databases.

Rechtmatige webscraping betekent dat het verzamelen van deze informatie gebeurt binnen de grenzen van de wet. Hoewel het verzamelen van openbare informatie op het internet verleidelijk lijkt, zijn er bepaalde regels waar je je aan moet houden.

Waarom is het belangrijk om rechtmatig te scrapen?

Privacy: Het verzamelen van persoonsgegevens, zelfs als deze openbaar zijn gemaakt, kan in strijd zijn met privacywetgeving zoals de AVG.
Auteursrecht: Het kopiëren van grote hoeveelheden tekst of afbeeldingen kan inbreuk maken op het auteursrecht van de website-eigenaar.
Gebruiksvoorwaarden: Veel websites hebben specifieke gebruiksvoorwaarden die het scrapen beperken of verbieden.
Robotica-uitsluitingsbestanden: Websites kunnen robots.txt-bestanden gebruiken om te bepalen welke delen van de website door zoekmachines en andere automatische tools mogen worden geïndexeerd.

Wanneer is webscraping rechtmatig?

· Toestemming: Als de website-eigenaar expliciet toestemming heeft gegeven voor scraping.
· Openbare informatie: Het verzamelen van informatie die duidelijk bedoeld is om openbaar te worden gemaakt.
· Gerechtvaardigd belang: In sommige gevallen kan er een gerechtvaardigd belang zijn om te scrapen, zoals het verzamelen van informatie voor wetenschappelijk onderzoek.

Risico’s van onrechtmatig webscraping

· Juridische gevolgen: Onrechtmatig webscraping kan leiden tot juridische procedures en boetes.
· Schade aan je reputatie: Als je betrapt wordt op onrechtmatig webscraping, kan dit je reputatie schaden.
· Blokkering: Websites kunnen maatregelen treffen om te voorkomen dat je hun site scrapt.

Hoe kun je rechtmatig webscrapen?

· Lees de algemene voorwaarden: Maak jezelf altijd bewust van de algemene voorwaarden van de website die je wilt scrapen.
· Respecteer robots.txt: Volg de instructies in het robots.txt-bestand van de website.
· Vermijd het verzamelen van persoonsgegevens: Tenzij je hiervoor expliciete toestemming hebt, vermijd het verzamelen van persoonsgegevens.
· Beperk de frequentie van je verzoeken: Overmatige verzoeken kunnen de website overbelasten.
· Gebruik ethische richtlijnen: Houd je aan ethische richtlijnen voor het verzamelen van data.

Daar kan je je tanden nog maar eens op stukbijten, maar de vier horsemen zijn volstrekt eensgezind waar het het respecteren van privacywetgeving en robot.txt betreft. En dat is goed om te weten.

RecruitmentMattersAlles over online recruitment

Rechtmatig webscrapen, wat is dat eigenlijk?

Geef een reactie Reactie annuleren

Gerard Mulder vertrekt bij Textkernel

8vance probeert garen te spinnen bij uitspraak van Europees Hof van Justitie. En faalt opzichtig

Een AI toepassing die ieder persbericht naar eerlijke taal kan omzetten

Wie zijn billen brandt, moet op de blaren zitten

De wedergeboorte van Jobster!

Randstads demolition team vs Monster

Wie zijn billen brandt, moet op de blaren zitten. Een nabrander

Guus Meijer vertrekt (ook) bij Textkernel

ABU: periode 9, als het regent dan giet het ook

Breaking news: aantal vacatures in oktober 2024

Een AI toepassing die ieder persbericht naar eerlijke taal kan omzetten

Gerard Mulder vertrekt bij Textkernel

Randstads demolition team vs Monster

8vance probeert garen te spinnen bij uitspraak van Europees Hof van Justitie. En faalt opzichtig

Het woord privacy komt 2 keer voor. 2 keer…

ResumeRabbit: een blast from the past met akelige trekjes

Jubelindex* Q3 2024: stabiel en zachtjes jubelen

Werkloosheid in augustus 2024: minimale stijging

Een nieuwe poging van 8vance om rechtmatig over te komen

AmazingHiring, een people aggregator met 600 miljoen profielen

De grote uitzenders vergeleken: Q2 2024

De grote uitzenders vergeleken: Q2 2024

Een AI toepassing die ieder persbericht naar eerlijke taal kan omzetten

Een AI toepassing die ieder persbericht naar eerlijke taal kan omzetten

De grote uitzenders vergeleken: Q2 2024

Randstads demolition team vs Monster

8vance probeert garen te spinnen bij uitspraak van Europees Hof van Justitie. En faalt opzichtig

Gerard Mulder vertrekt bij Textkernel

Gerard Mulder vertrekt bij Textkernel

Rechtmatig webscrapen, wat is dat eigenlijk?

Gerelateerde berichten:

Geef een reactie Reactie annuleren

Gerard Mulder vertrekt bij Textkernel

8vance probeert garen te spinnen bij uitspraak van Europees Hof van Justitie. En faalt opzichtig

Een AI toepassing die ieder persbericht naar eerlijke taal kan omzetten

Wie zijn billen brandt, moet op de blaren zitten

De wedergeboorte van Jobster!

Randstads demolition team vs Monster

Wie zijn billen brandt, moet op de blaren zitten. Een nabrander

Guus Meijer vertrekt (ook) bij Textkernel

ABU: periode 9, als het regent dan giet het ook

Breaking news: aantal vacatures in oktober 2024

Een AI toepassing die ieder persbericht naar eerlijke taal kan omzetten

Gerard Mulder vertrekt bij Textkernel

Randstads demolition team vs Monster

8vance probeert garen te spinnen bij uitspraak van Europees Hof van Justitie. En faalt opzichtig

Het woord privacy komt 2 keer voor. 2 keer…

ResumeRabbit: een blast from the past met akelige trekjes

Jubelindex* Q3 2024: stabiel en zachtjes jubelen

Werkloosheid in augustus 2024: minimale stijging

Een nieuwe poging van 8vance om rechtmatig over te komen

AmazingHiring, een people aggregator met 600 miljoen profielen

De grote uitzenders vergeleken: Q2 2024

De grote uitzenders vergeleken: Q2 2024

Een AI toepassing die ieder persbericht naar eerlijke taal kan omzetten

Een AI toepassing die ieder persbericht naar eerlijke taal kan omzetten

De grote uitzenders vergeleken: Q2 2024

Randstads demolition team vs Monster

8vance probeert garen te spinnen bij uitspraak van Europees Hof van Justitie. En faalt opzichtig

Gerard Mulder vertrekt bij Textkernel

Gerard Mulder vertrekt bij Textkernel