Op het recente HR & AI congres van Werf& gaf jurist en privacy- en AI-specialist Inge Brattinga een sessie genaamd: Do’s en dont’s van AI in de HR praktijk.
Eén van haar slides ging over scrapen, en deze slide toonde de volgende bullet points.
Veel gebruikt door AI-toepassingen, vooral in recruitment
Risicovolle toepassing
Rechtmatig webscrapen in overeenstemming met privacy-, intellectueel eigendoms-, en contractenrecht
Niet onmogelijk, maar wel moeilijk
Vraag de leverancier om uitleg!
Ik ben het niet met Brattinga eens dat web scraping vooral in recruitment wordt gebruikt, LLM’s zijn volgens mij verreweg de grootste scrapers op dit moment. Ook weet ik niet wat ze bedoeld met de observatie dat webscrapen risicovol is. En ik zou afnemers willen aanraden om niet alleen uitleg te vragen van leveranciers van AI producten en diensten, maar vooral bewijs dat binnen de wet wordt geacteerd. Uitleg is makkelijk te geven, bewijs is een stuk moeilijker.
Maar waar ik vooral door werd getriggerd is de term rechtmatig webscrapen. Is rechtmatig swebcrapen een juridische standaardterm met een nauwkeurige definitie? Nee, dat is het niet. Het concept van rechtmatig webscrapen verwijst echter wel naar het verzamelen van gegevens van websites op een manier die voldoet aan de geldende wet- en regelgeving.
Ik heb aan mijn four horsemen (ChatGPT, Perplexity, Claude, Gemini) gevraagd waar deze term nou precies voor staat. En dit zijn hun antwoorden:
ChatGPT
De term “rechtmatig webscrapen” verwijst naar het verzamelen van gegevens van websites op een manier die voldoet aan de geldende wet- en regelgeving. Webscraping kan legaal zijn, mits het gebeurt binnen de grenzen van de wet en rekening houdt met de volgende aspecten:
- Toestemming: Het is belangrijk om te controleren of de website expliciete toestemming biedt voor scraping, bijvoorbeeld via de algemene voorwaarden of een robots.txt-bestand dat aangeeft welke delen van de website wel of niet gescrapet mogen worden.
- Auteursrecht en databankenrecht: In de EU en veel andere rechtsgebieden wordt de inhoud van websites beschermd door auteursrecht of databankenrecht. Scraping mag niet leiden tot het schenden van deze rechten, bijvoorbeeld door het kopiëren van grote delen van de inhoud zonder toestemming.
- Privacywetgeving: Als bij het scrapen persoonsgegevens worden verzameld, moet dit in overeenstemming zijn met privacywetten zoals de Algemene Verordening Gegevensbescherming (AVG). Dit betekent onder andere dat er een geldige juridische basis moet zijn voor de verwerking van persoonsgegevens en dat gebruikers mogelijk geïnformeerd moeten worden.
- Contractbreuk: Websites hebben vaak gebruiksvoorwaarden waarin wordt aangegeven of scraping is toegestaan. Door het scrapen van een website in strijd met deze voorwaarden kun je een contractbreuk plegen, wat juridische gevolgen kan hebben.
- Omzeilen van beveiliging: Het is vaak verboden om technische beveiligingen van een website te omzeilen, zoals CAPTCHA’s of inlogsystemen, om aan gegevens te komen.
Perplexity
Rechtmatig webscrapen verwijst naar het geautomatiseerd verzamelen van gegevens van websites op een manier die voldoet aan wettelijke en ethische normen. Hierbij zijn enkele belangrijke aspecten te onderscheiden:
Wettelijke kaders
Het belangrijkste wettelijke kader voor webscraping in Europa is de Algemene Verordening Gegevensbescherming (AVG). Volgens de AVG moet er voor het verzamelen van persoonsgegevens een geldige grondslag zijn, zoals toestemming of een gerechtvaardigd belang.
Persoonsgegevens
Bij het scrapen van persoonsgegevens gelden strenge regels:
- Er moet een geldige verwerkingsgrondslag zijn, zoals toestemming of gerechtvaardigd belang.
- Bijzondere persoonsgegevens (zoals etniciteit of gezondheid) mogen in principe niet worden gescrapet.
- De hoeveelheid verzamelde gegevens moet worden geminimaliseerd.
Openbare gegevens
Het feit dat gegevens openbaar toegankelijk zijn op internet, betekent niet automatisch dat ze vrij zijn om te scrapen. De oorspronkelijke publicatie moet in overeenstemming zijn met de AVG.
Ethische overwegingen
Naast wettelijke vereisten spelen ook ethische aspecten een rol bij rechtmatig webscrapen:
- Respecteer de wensen van websitebeheerders, bijvoorbeeld door robots.txt bestanden te volgen.
- Overbelast servers niet door overmatig scrapen.
- Gebruik de verzamelde gegevens alleen voor het beoogde doel.
Praktische richtlijnen
Om webscraping rechtmatig uit te voeren, kunnen de volgende richtlijnen worden gevolgd:
- Beperk het scrapen tot strikt noodzakelijke gegevens.
- Vermijd het verzamelen van bijzondere persoonsgegevens.
- Wees transparant over het scrapen en het doel ervan.
- Implementeer adequate beveiligingsmaatregelen voor de verzamelde gegevens.
- Respecteer de intellectuele eigendomsrechten van de gescrapete content.
Conclusie
Hoewel de Autoriteit Persoonsgegevens (AP) stelt dat webscraping “vrijwel nooit toegestaan” is, zijn er situaties waarin het wel degelijk rechtmatig kan zijn. Het is cruciaal om zorgvuldig te werk te gaan, de AVG-principes te respecteren en een gedegen belangenafweging te maken. Bij twijfel is het raadzaam juridisch advies in te winnen om te waarborgen dat de scraping-activiteiten voldoen aan alle relevante wet- en regelgeving.
Claude
Rechtmatig webscrapen is het op een legale en ethische manier verzamelen van gegevens van websites. Laat me de belangrijkste aspecten uitleggen:
Kenmerken van rechtmatig webscrapen:
1. Respecteren van robots.txt
- Dit bestand geeft aan welke delen van een website wel/niet gescraped mogen worden
- Het naleven van eventuele crawl-snelheidsbeperkingen
2. Identificatie & transparantie
- Duidelijk aangeven wie je bent via de user-agent string
- Contact informatie beschikbaar stellen voor website eigenaren
3. Redelijk gebruik
- Niet onnodig veel serverbelasting veroorzaken
- Scrapen op rustige momenten
- Rate limiting toepassen
4. Respect voor voorwaarden
- Terms of Service van websites naleven
- Alleen publiek toegankelijke data verzamelen
- Geen omzeiling van beveiligingsmaatregelen
5. Privacy en databescherming
- Geen persoonlijke data verzamelen zonder toestemming
- Voldoen aan AVG/GDPR regelgeving
- Data veilig opslaan en verwerken
6. Commercieel gebruik
- Toestemming vragen voor commerciële toepassingen
- Eventuele licentiekosten betalen
- Attribution waar nodig
Gemini
Webscraping is een techniek waarbij software wordt gebruikt om automatisch informatie van websites te verzamelen. Deze informatie kan vervolgens worden gebruikt voor allerlei doeleinden, zoals marktonderzoek, prijsvergelijkingen en het creëren van databases.
Rechtmatige webscraping betekent dat het verzamelen van deze informatie gebeurt binnen de grenzen van de wet. Hoewel het verzamelen van openbare informatie op het internet verleidelijk lijkt, zijn er bepaalde regels waar je je aan moet houden.
Waarom is het belangrijk om rechtmatig te scrapen?
- Privacy: Het verzamelen van persoonsgegevens, zelfs als deze openbaar zijn gemaakt, kan in strijd zijn met privacywetgeving zoals de AVG.
- Auteursrecht: Het kopiëren van grote hoeveelheden tekst of afbeeldingen kan inbreuk maken op het auteursrecht van de website-eigenaar.
- Gebruiksvoorwaarden: Veel websites hebben specifieke gebruiksvoorwaarden die het scrapen beperken of verbieden.
- Robotica-uitsluitingsbestanden: Websites kunnen robots.txt-bestanden gebruiken om te bepalen welke delen van de website door zoekmachines en andere automatische tools mogen worden geïndexeerd.
Wanneer is webscraping rechtmatig?
- · Toestemming: Als de website-eigenaar expliciet toestemming heeft gegeven voor scraping.
- · Openbare informatie: Het verzamelen van informatie die duidelijk bedoeld is om openbaar te worden gemaakt.
- · Gerechtvaardigd belang: In sommige gevallen kan er een gerechtvaardigd belang zijn om te scrapen, zoals het verzamelen van informatie voor wetenschappelijk onderzoek.
Risico’s van onrechtmatig webscraping
- · Juridische gevolgen: Onrechtmatig webscraping kan leiden tot juridische procedures en boetes.
- · Schade aan je reputatie: Als je betrapt wordt op onrechtmatig webscraping, kan dit je reputatie schaden.
- · Blokkering: Websites kunnen maatregelen treffen om te voorkomen dat je hun site scrapt.
Hoe kun je rechtmatig webscrapen?
- · Lees de algemene voorwaarden: Maak jezelf altijd bewust van de algemene voorwaarden van de website die je wilt scrapen.
- · Respecteer robots.txt: Volg de instructies in het robots.txt-bestand van de website.
- · Vermijd het verzamelen van persoonsgegevens: Tenzij je hiervoor expliciete toestemming hebt, vermijd het verzamelen van persoonsgegevens.
- · Beperk de frequentie van je verzoeken: Overmatige verzoeken kunnen de website overbelasten.
- · Gebruik ethische richtlijnen: Houd je aan ethische richtlijnen voor het verzamelen van data.
Daar kan je je tanden nog maar eens op stukbijten, maar de vier horsemen zijn volstrekt eensgezind waar het het respecteren van privacywetgeving en robot.txt betreft. En dat is goed om te weten.