Laat gebruikers voor je werken: ongemerkt en gratis…

Logotype reCAPTCHA De wetenschap is bedoeld om onze kennis te verbreden en te verdiepen. En op basis van de kennis praktische toepassingen te verzinnen. Die in het algemeen ons leven aangenamer dienen te maken.

Maar soms gaat dat helemaal mis. En nee, ik ga het niet over wapentuig of global warming hebben. Maar over een toepassing die gebruik maakt van de verspilde energie bij het invullen van captcha’s.

Korte historie
De term CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) is ooit bedacht door wetenschappers van de Carnegie Mellon University en IBM. Yahoo! was overigens de eerste site die captcha’s van hun hand implementeerde.

Captcha’s zijn van die buitengewoon irritante en vaak onleesbare woordjes die je moet invullen om te bewijzen dat je een mens bent.

En captcha’s zijn buitengewoon populair bij luie website eigenaren die hun gebruikers een slechte ervaring willen bieden. En dat tikt ondertussen lekker aan. Want dagelijks worden er tegenwoordig zo’n 100 miljoen captcha’s ingevuld.

Recent zijn twee van de wetenschappers van Carnegie Mellon (Luis von Ahn en Manuel Blum) op het onzalige idee gekomen de captcha te ‘verbeteren’. En om de energie die wordt verspild voor andere doeleinden te gebruiken: reCAPTCHA!

Wat is reCAPTCHA?
reCAPTCHA biedt namelijk niet zomaar een willekeurige serie vrijwel onleesbare letters en cijfers aan. Nee, reCAPTCHA biedt woorden aan die afkomstig zijn van een gescand boek. En dankzij de collectieve inspanning van alle gebruikers worden zo boeken gedigitaliseerd. Jawel!

Dus als je een captcha invult ben je niet slechts bezig energie te verspillen; je bent ook nog eens bezig een boek te digitaliseren! Em dat ziet er zo uit:

reCAPTCHA voorbeeld

Ik weet niet hoeveel gebruikers weten dat hun vermijdbare inspanning om te bewijzen dat ze van vlees en bloed zijn ook nog eens wordt misbruikt voor andere doeleinden.

En door die enorme aantallen captcha’s die ingevuld worden kunnen heel wat boeken worden gedigitaliseerd. ReadWriteWeb geeft aan dat met die 100 miljoen captcha’s die dagelijks worden ingevuld er zo’n 160 boeken per dag kunnen worden omgezet. Ik hoor ergens kassa’s rinkelen.

Recapitulatie
Eerst verzin je een idiote functie die gebruikers dwingt tot een overbodige extra inspanning om aan de website eigenaar te tonen dat zij toch echt een mens zijn.

En vervolgens verzin je een ‘verbeterde’ versie van die idiote functie die nog steeds dezelfde gebruikers dwingt tot een overbodige extra inspanning. Maar nu digitaliseren ze ook nog even boeken voor je!

Nee; die Luis von Ahn en Manuel Blum zijn fijne wetenschappers. Ze hebben het leven van miljarden mensen echt ‘verrijkt’. Of misschien alleen zichzelf, binnen afzienbare termijn?

Geef een reactie

15 Comments
  • Kura
    says:

    @Marc
    Uit o.a. deze opmerking maak ik op dat grote bedrijven het gebruik van captchas niet als een serieus probleem zien volgens jou. Dit is echter niet zo, want het kosts ze nog steeds veel geld. Maar ik denk niet dat ik je kan overtuigen of andersom tenzij je een goed idee/concrete oplossing hebt natuurlijk. 
     
    @Michel
    Honeypots zijn truukjes om te detecteren of een bezoeker een bot is, dit kan op verschillende niveaus (webserver, mail server). Je moet ze wel zelf schrijven maar het is wel een standaardoplossing. Een van de simpelste voorbeelden is door b.v. een veld te maken in een formulier waar een bot wat in zet terwijl een normale gebruiker er niets in kan zetten (lokken dus), waarmee je dan direct weet dat je met een bot te maken hebt en maatregelen kan nemen, tot op veel hoger niveau (het met opzet bepaalde functies open zetten waardoor een bot denkt een security gat gevonden te hebben terwijl het een detectie tool is). We gebruiken ook checks hoeveel keer er van 1 ip formulieren gesubmit worden, de frequentie, pogingen om headers aan te passen, op woorden checken etc. ben nu voor de grap wat aan het schrijven wat bepaalde woord patronen uit teksten kan halen. Redelijk effectief maar het is niet echt een oplossing imo. Maarja, alle webdevs zijn lui hoorde ik, ik dus ook, vandaar dat het nog niet waterdicht is 😉
     
    @Pascal
    Een Honeypot/Spoof heeft bij ons eventjes goed gewerkt maar ze komen er toch op een gegeven moment doorheen. Ik gebruik ze nog steeds en het gaat redelijk maar zo waterdicht als een captchas is het niet. Een mail formulier in flash werkt best goed maar dan heb je weer een redelijke groep (mobiele) gebruikers waar deze niet werkt, vooral iPhone’s die ondertussen in rap tempo het grootste mobiele platform aan het worden is op onze sites. 

  • Michel Rijnders
    says:

    @Marc: ik vraag mij af of men dit goed genoeg vindt. Captchas worden ook weer gekraakt. Het is wel een boeiend vraagstuk (vind ik): hoe onderscheid je in de digitale wereld of iets een persoon of een bot is? Volgens mij is dat alleen mogelijk door een handeling van mensen te vragen die je probeert onmogelijk te maken voor een bot. Er zal in deze redenering in de oplossing dan dus altijd een menselijke handeling gevraagd worden voor dat onderscheid.

    Een captcha zou in mijn ogen wel makkelijker kunnen door er multiple choice van te maken waardoor je als gebruiker alleen maar een klik hoeft te investeren. Dat zal alleen wel weer moeilijker botproof te maken zijn.

  • Pascal
    says:

    Ze gaan er vanuit dat als je de captcha goed hebt, het andere woord ook goed hebt ingetikt en de woorden worden meerdere keren aangeboden om de antwoorden verifieren.

    Over alternatieven voor captcha: een zgn honeypot met verborgen formuliervelden en een simpele spoofcheck levert bij tot nu toe goede resultaten op. Goed in de zin van geen spam…

  • Chris Stapper
    says:

    @Michel
    Precies, of ze hebben een algoritme om de afwijkingen op te lossen (bv elk woord 4x laten doen, welke spelling komt het vaakst voor, dat is het woord)..
    Maar het klinkt zo ongelooflijk omslachtig.

    @Pascal
    En als het woord fout is ingevoerd staat het dus fout in het boek?

    In ieder geval ben ik ook niet zo te spreken over captcha’s in het algemeen. Maar als ze leesbaar zijn is het geen probleem. Ik heb er ooit een gehad die dacht dat ik een bot was. Omdat hij gewoon onleesbaar was.

  • Marc Drees
    says:

    @Michel:
    Of het makkelijk of moeilijk is kan ik in onvoldoende mate inschatten. Maar ik ben er redelijk van overtuigd dat bij voldoende bereidheid en inspanning er betere oplossingen kunnen worden gevonden dan captcha’s. Het is echter niet zelden zo dat de kudde vrolijk en zonder al teveel nadenken doorwandelt. Want er is toch een ‘oplossing’?

  • Michel Rijnders
    says:

    @Chris: Ik vermoed dat ze eerst de tekst door OCR software laten lezen. Die heeft dat voor 80% goed; ter verificatie en verbetering laat je mensen de reCaptcha als controle uitvoeren.

    Maar dan betekent het wel dat reCaptcha afwijkingen zou moeten toestaan. Of ze zijn slimmer dan wij 🙂

    @Marc: zoals Kura al aangeeft is het wel makkelijk te stellen dat ze maar met een andere oplossing moeten komen. Er zijn dagelijks knappe koppen die zich hierover buigen. Dat er nog geen betere oplossing is heeft weinig met luiheid te maken. 

  • Kura
    says:

    100 miljoen capcha’s per dag. Dat zijn veel luie webeigenaren zeg, je zou toch zeggen dat er wel ééntje tussenzit die niet lui is en eventjes het perfecte alternatief uit gaat vinden. Tot die tijd moeten we maar aannemen dat 100% van alle webdevs van Google, Yahoo, Microsoft, Apple etc. etc. zeer lui zijn.

  • Marc Drees
    says:

    @Michel:
    Ik denk dat de heren een tweede ‘eureka’ moment hebben gehad en bedachten om al die verpilde energie met hun eerste uitvinding te benutten voor een totaal ander project.

    De heren hadden er beter aan gedaan om te komen met een oplossing die mensen van vlees en bloed vrijwaart van dergelijke onzin.

  • Michel Rijnders
    says:

    Is je redenatie nu dat de onderzoekers de CAPTCHA eerst ontwikkeld hebben om daar vervolgens geld mee te verdienen door middel van reCAPTCHA?

    Ik als gebruiker zie slechts dat daar waar ik toch al een Captcha invoer er door middel van een reCaptcha tenminste iets nuttigs gedaan wordt met energie die je er in stopt. Daarin vind ik reCaptcha juist een mooie vinding die volop bijdraagt aan de digitalisering van het Internet Archive; dat overigens non-profit is en ‘concurreert’ met Google in het openbaar maken van informatie (zonder reclame er omheen).

    In die zin een mooi initiatief vind ik en zo zijn er gelukkig velen die dat beter (of in ieder geval niet erger) vinden dan een normale Captcha.

  • Chris Stapper
    says:

    Het idee van een captcha is toch dat je intypt wat er staat. En als wat je intypt niet klopt, dan kun je niet verder.
    Dus moet de pc al weten wat er staat. Dus heeft het geen zin om op deze manier boeken te digitaliseren, want de computer weet het al.

    Of gaan ze dit met een of ander leuk algoritme doen?

    Captcha’s zijn een ramp. De enige goede is deze:
    https://xkcd.com/233/