Hoogleraar Max Welling kende ik al van het onderhoudende marathoninterview dat Jelle Brandt Corstius vorig jaar met hem afnam. Machine learning is zijn vakgebied. Ter voorbereiding heb ik een eerdere lezing van Welling over machine learning op Youtube bekeken.
Waar ik natuurlijk benieuwd naar ben is welke toepassingen we voor deep learning kunnen bedenken in de recruitment. En welke vragen zouden we er mee willen oplossen? Is de data die we voor handen hebben eigenlijk wel complex genoeg?
Voor onderzoeken zoals dat van Colin Lee, dat vandaag ook besproken wordt, bleek een minder geavanceerde analysetechniek (synthetic validity) in elk geval meer dan afdoende.
Hee Max, wat doe jij met je Ferrari op onze ijsbaan? Goed, Welling gaat van start, we zullen zien.
Het blijkt een heel globale kennismaking met kunstmatige intelligentie (AI). Het gaat erg snel en ik vraag mij af wat er bij het gehoor is blijven kleven. Dat loopt dan mooi parallel aan de AI, door Welling herhaaldelijk als een roller coaster gekwalificeerd.
Er wordt ongelofelijk veel data opgebouwd, en dat wordt alleen maar meer.
Dat we zo veel data aankunnen hebben we te danken aan Moore’s Law: elke twee jaar verdubbelt de rekenkracht van onze computers. Dat zijn de twee bekendste groeiwetten in de AI. Welling noemt nog een derde groeiwet: een die ten grondslag ligt aan ons toenemende vermogen om om te gaan met die exponentiële groei van data en rekenkracht. Om dat uit te leggen wijdt Welling ons in in de wereld van Deep Learning en Neurale Netwerken.
Toen de wetenschap begon met het bestuderen van kunstmatige intelligentie dachten ze dat ze gewoon de hersenen met neuronen moesten nabouwen en dan zou het inzicht in intelligentie vanzelf wel tevoorschijn komen. De studie naar deze neurale netwerken leverde echter niet veel op en raakte in de vergetelheid. Pas de laatste jaren is dit weer opgepakt, en nu met spectaculaire resultaten.
Welling laat zien hoe beelden herkend kunnen worden. Bijvoorbeeld bosstructuren. Of microscopische fouten in staalconstructies. Hoe herkent een computer een gezicht of een stoel in een afbeelding? Met behulp van kunstmatige neurale netwerken. Als eerste laat je de computer de afbeelding scannen op allerlei patronen in de afbeelding, bijvoorbeeld verticale streepjes. Het resultaat is een hele stapel afbeeldingen, waarvan er een alleen die streepjes weergeeft, en weer een ander een ander patroon dat ook in die afbeelding voorkwam. Die hele stapel afbeeldingen worden vervolgens ingedikt tot iets kleiners, en daar gaat weer een hele stapel filters overheen. Dat procédé wordt een paar keer herhaald, totdat er een dataset uitkomt waar de computer een algoritme overheen haalt. Dat algoritme probeert te voorspellen of een herkend datapatroon een stoel is, of een gezicht. Deze aanpak van patroonherkenning kunnen we toepassen op afbeeldingen, maar bijvoorbeeld ook op spraakherkenning. Dat je iPhone tegenwoordig verstaat wat je zegt hebben we aan deze technologie te danken.
Deze aanpak van patroonherkenning is inmiddels succesvol en gemeengoed geworden, mede doordat de rekenkracht van computers zo hard is gegroeid. Het aantal parameters dat een neuraal netwerk aankan is daardoor ook exponentieel gegroeid: van een handjevol in de jaren ’40 tot enkele miljarden bij partijen als Yahoo en Google. Microsoft heeft inmiddels in de visual object classification de menselijke capaciteit bereikt in objectherkenning. Maar met de 152 lagen die we daarvoor gebruiken zijn we er nog steeds niet.
Een groot probleem is bijvoorbeeld de betrouwbaarheid. Neurale netwerken kunnen er soms flink naast zitten en dat kan best lastig zijn als de computer beslissingen neemt die over leven en dood kunnen gaan. Welling vindt dat de algoritmes zelf moeten aangeven het percentage dat ze zeker zijn dat ze de juiste interpretatie geven. Mensen (of algoritmes) kunnen vervolgens beslissen of ze de uitkomst genoeg vertrouwen om er een actie op te laten volgen. Bijvoorbeeld een chemische fabriek te laten bombarderen of die pees door te snijden.
Voor recruitment en met name matching is reinforcement learning waarschijnlijk de belangrijkste learning strategie. Deze speelt bijvoorbeeld ook een belangrijke rol in recruitment. De machine leert zichzelf kennis op basis van interacties die in de hele wereld plaatsvinden. Netflix is hier bijvoorbeeld beroemd om, door hun uitstekende aanbevelingen engine op basis van gedrag.
Waar ik wel meer over had willen horen is dat AI ook steeds beter wordt in het bepalen van causaliteit. Een bekend probleem is dat data vaak wel in staat is om causale verbanden aan te tonen, maar dat het veel lastiger is om de correlatie daartussen te bepalen. Met AI lukt het volgens Welling steeds beter om interventies er uit te filteren, waardoor de voorspellende kracht veel sterker wordt. Dat kan bijvoorbeeld handig zijn als je een vliegtuig moet onderhouden en moet voorspellen welk onderdeel de oorzaak kan zijn van een storing.
Tot slot staat Welling stil bij de duistere kanten van machine learning, namelijk privacyaspecten en het risico dat de technologie misbruikt wordt.
Voor privacy heeft hij een tamelijk simpele technologische oplossing, namelijk door het bewust toevoegen van ruis aan de data. Zodoende wordt het lastiger om individuele gegevens uit datasets te herleiden.
Voor misbruik kan hij alleen maar een paar voorbeelden geven hoe machine learning op de grens kan balanceren. Bijvoorbeeld bij het inregelen van autonome wapens (drones bijvoorbeeld) die kunnen gaan opereren op basis van algoritmes. Foute interpretatie en misbruik van data kunnen dan letterlijk over leven en dood gaan.
Dit gastblog is geschreven door Kaj Jalving