Unieke online vacatures tellen

vergrootglas In Marc Drees’ postings van 1 en 6 november op RecruitmentMatters.nl wordt de vraag gesteld hoe het kan dat het volume unieke vacatures volgens Jobfeed toeneemt in september en oktober 2011, terwijl de kranten toch zo vol staan met Europese economische ellende. Nu zijn hier natuurlijk een heel aantal voor de hand liggende oorzaken voor te bedenken. Bijvoorbeeld dat het vacaturevolume niet zo snel reageert als andere economische indicatoren, dat het herstel van de zomerdip door een vrij late zomervakantieperiode later was dan vorig jaar, etc.

Wat Marc echter ook laat zien is dat er waarschijnlijk een effect in zit van de opkomst van de gratis vacaturesites, waar vaak nog niet echt heel veel nieuwe unieke vacatures op staan, maar duplicaten van vacatures die ook op andere sites staan. Waarom immers niet nog een keer gratis adverteren, als je toch al vacatures online hebt staan?

Als het Jobfeed ontdubbelingsalgoritme perfect zou werken, dan zou dit op de aantallen unieke vacatures geen effect hebben. Maar dat is niet zo, zoals Marc treffend laat zien aan de hand van de gratis sites.

Jobfeed verzamelt zoveel mogelijk online vacatures, en maakt deze in gestructureerde vorm beschikbaar ter ondersteuning van sales, arbeidsmarktanalyse, en matching. Om het de gebruiker makkelijker te maken, worden dubbele vacaturepostings zo goed mogelijk herkend en niet als aparte vacatures te gepresenteerd. Aangezien dit met een automatisch classificatiealgoritme gebeurt, is dit zeker niet perfect. Dat is het nooit geweest, en de resultaten bevatten dus ruis. Jobfeed claimt geen perfectie, en claimt niet het totaal aantal unieke vacatures te kennen, maar wordt door velen gezien als een van de beste informatiebronnen om inzicht te krijgen in de vraagkant van de arbeidsmarkt. Dit komt vooral door het grote aantal vacatures, de vele bronnen, en de goede analyseerbaarheid van de data.

Hoe ontdubbelt Jobfeed?
Om deze zaken goed te begrijpen is het nodig om uit te leggen hoe Jobfeed ontdubbelt. Dit gebeurt in een aantal stappen, grofweg als volgt:

  1. Een vacature URL die al bekend is wordt nooit als nieuwe vacature gezien
  2. Alle nieuw gespiderde vacatures worden beoordeeld op tekstoverlap met alle vacatures in een periode van de afgelopen drie weken. Als deze overlap boven een eerste drempel A komt, dan is de vacature een kandidaat-dubbele.
  3. Kandidaat dubbelen worden vergeleken op de inhoud van de ge-extraheerde velden (functie, bedrijf, standplaats, etc.). Als deze velden matchen dan wordt de vacature als dubbele gezien, indien de tekstoverlap boven een drempel B komt.
  4. Als de inhoudsvelden niet matchen, maar de tekstoverlap komt boven een drempel C (die veel hoger is dan B), dan wordt de vacature alsnog als dubbele gezien.

 

De belangrijkste techniek hierbij is het vergelijken van een vacature op tekstoverlap met alle andere vacatures uit de afgelopen drie weken. Dit eist veel rekenkracht en geheugen, vandaar de beperking tot drie weken. Een gevolg hiervan is dat als een vacature die ouder is dan drie weken opnieuw wordt gespiderd van een nieuwe site, dat deze dan per definitie als nieuw wordt gezien. Een ander nadeel is dat als de tekstuele weergave van de vacature (door herschrijven, of door een sterk andere layout) onder de drempel A komt, we de dubbelen niet bij elkaar kunnen brengen. In het voorbeeld hieronder zien we zo een dubbele met weinig tekstoverlap:

image

Wat Jobfeed probeert te minimaliseren is de kans dat twee unieke vacatures als dubbelen worden gezien. Deze zouden dan namelijk voor onze klanten niet goed meer terugvindbaar zijn.

De cijfers van Jobfeed bevatten dus ruis, met name niet gevonden dubbelen. Het Jobfeed algoritme is in staat naar schatting 75% van alle dubbelen te vinden. Dat percentage hoeft op zich niet tot verkeerde conclusies te leiden. Het belangrijkste argument hiervoor is dat dit algoritme in de loop van 2011 niet veranderd is. Als er dus een bepaald percentage fout wordt ontdubbeld, dan blijft de relatieve hoeveelheid vergelijkbaar om de trend te kunnen monitoren.

Opkomst gratis vacaturesites
Maar zijn er dan andere factoren die de cijfers kunnen beïnvloeden? Ja. De opkomst van de gratis sites, die in de volgende grafiek goed te zien is. Hierbij zijn de top 25 vacaturesites van oktober 2011 ingedeeld op gratis of betaald.

clip_image004

Het percentage plaatsingen op de grote gratis jobboards is in 2011 snel gestegen van 48% in januari naar 67% in oktober. Gedragen deze sites zich anders dan de rest van Jobfeed? Hebben ze impact op het percentage dubbelen?

Ja, met name als we kijken wie erop adverteren. Verschillende adverteerders genereren namelijk verschillende aantallen dubbelen. In de grafiek hieronder zie je aantal postings per unieke vacature, van januari 2011 tot nu, met aparte lijnen voor intermediairs en directe werkgevers.

image

Daar waar bij directe werkgevers het aantal dubbelen over 2011 nagenoeg niet gewijzigd is (1.40 in januari 2011, tegen 1.44 in oktober), zien we dat het bij de intermediairs, en dan met name de grootste (Start, Randstad, Tempo-team, Vitae, etc) sterk toeneemt. De trend loopt gelijk op met de groei van de gratis sites. Dit is ook logisch, omdat de grote intermediairs veel gebruik maken van multiposting software. Zodra de extra gratis advertentieplatforms beschikbaar komen in multiposters worden met gemak alle vacatures erop geplaatst. Zo zien we voor de drie snelst opgekomen gratis sites:

% directe werkgevers
jobselectie.nl 2.9
jobbird.com 9.7
banenmatch.nl 7.5

Terwijl in heel Jobfeed het aandeel directe werkgevers ongeveer 35% is. Dit heeft twee interessante effecten die de ontdubbeling parten spelen.

Ten eerste de ontdubbelperiode van drie weken. Op het moment dat een grote uitzender met vele duizenden vacatures besluit deze op een gratis site te zetten, is de kans erg groot date en meerderheid ervan ouder dan drie weken is. Deze zullen dus via het nieuwe gratis kanaal door Jobfeed ten onrechte als nieuw worden opgemerkt. Dit komt overeen met ongeveer 30% van de gemiste dubbelen.

De overige gemiste dubbelen zijn toe te schrijven aan inhoudelijke aspecten van het Jobfeed ontdubbelalgoritme. De gratis sites leggen deze problemen duidelijk bloot. Op de lijst van sites in Marc’s artikel is het foutpercentage inderdaad erg hoog.

Site # postings # uniq in JF % uniq in JF est. error est. # real uniqs est. % real uniqs
vacatureboard.com 4055 3652 90% 42% 2,114 52%
Jobbird.com 4876 2801 57% 92% 233 5%
banenmatch.nl 4534 1620 36% 75% 405 9%
joof.nl 1608 1349 84% 67% 450 28%
jobselectie.nl 3495 1233 35% 73% 329 9%
12jobs.nl 988 381 39% 76% 90 9%
vacaturevijver.nl 1046 211 20% 85% 32 3%
vacaturebase.nl 1573 167 11% 73% 46 3%

We zien dat bij de meeste van deze sites het aantal unieke vacatures op deze sites in werkelijkheid heel erg laag is. Dit heeft het effect dat de foutpercentages enorm omhoog gaan ten opzichte van het gemiddelde in Jobfeed. Dat zit zo:

Een vacature in Jobfeed heeft gemiddeld 1.6 postings. Als een site 1000 vacatures bevat, dan zal ongeveer 40% hiervan uniek zijn en dus 60% met een dubbele op een andere site. Als we nu een algoritme toepassen dat 75% van de dubbelen vindt dan vinden we op deze site 0.75 * 0.6 = 450 dubbelen. We missen er dus 150, en dit betekent dat we van de 550 als uniek geziene vacatures, er 27% fout hebben.


Als een site echter maar 5% unieke bevat, dan vinden we 0.75 * 0.95 = 712 dubbelen, terwijl het er eigenlijk 950 zijn, en dit betekent dat we van de 288 als uniek geziene vacatures maar liefst 83% fout hebben. Dit is precies het effect dat we zien in de bovenstaande tabel.

Conclusies
De opkomst van de gratis vacaturesites heeft dus een effect dat de trend vertekent, en wanneer we in detail inzoomen op de grootste van deze sites, oogt het heel slecht. Op de totale cijfers van Jobfeed is dit effect echter kleiner, en kunnen we voor dit effect corrigeren met een factor die de opkomst van de gratis sites als percentage van het totale volume modelleert. Begin 2011 maakten deze gratis sites 24% van het totale advertentievolume uit, en in oktober 2011 was dit 36%. Stel dat dit betekent dat we voor 12% van het advertentievolume een ontdubbelfout van 83% in plaats van 27% zien, dan zou er op jaarbasis een 5-10% fictieve uptrend overblijven.

Het effect heeft ook vooral betrekking op de cijfers van intermediairs, en niet op die van directe werkgevers. Het gebruiken van Jobfeed cijfers als economische indicator functioneert beter op de cijfers over directe werkgevers. We zien dat de trendanalyse op directe werkgevers stabieler is, en voorlopig nagenoeg niet beïnvloed wordt door de geringe ontdubbeling op de gratis vacaturesites.

Dit alles neemt niet weg, dat naar mate het gebruik van Jobfeedcijfers als arbeidsmarkt-analyse instrument toeneemt, en de proliferatie van sites met veel dubbelen doorzet, Jobfeed wel degelijk het probleem van dubbele tellingen sterker aan zal moeten pakken. 75% is niet goed genoeg. Wij verwachten hierin in de loop van de komende maanden geleidelijk verbeteringen aan te brengen richting 90%. Enerzijds door de ontdubbel termijn van drie weken uit te breiden, anderzijds door de methodes voor tekstvergelijking verder te tunen.

Het ironische hiervan is dat ook dat een lichte trendbreuk tot gevolg kan hebben. Ik hoop dat we de mogelijke recessie hiermee niet somberder in gaan schatten. After all, Jobfeed cijfers zijn niet de hele arbeidsmarkt, ze zijn wel een van de minst slechte monitoring-instrumenten ervan.

Dit gastblog is geschreven door Jakub, oprichter van Textkernel. Textkernel levert onder meer Jobfeed.

Geef een reactie

6 Comments