En dan nu de derde en laatste presentatie van vanmiddag; gegeven door het technische brein van Coosto, CT Frank Scheelen. Die het dus blijkbaar over de sentimentanalyse van Coosto gaat hebben; een moeilijk punt omdat (onder meer) het herkennen van ironie en sarcasme bepaald niet eenvoudig is.
Sentimentanalyse is het proberen te duiden van sentiment in menselijke tekst. Maar sentiment kent meerdere incarnaties. Zo is er bijvoorbeeld de uiting van de gemoedstoestand van de schrijver van een berichtje. Een andere categorie is een waarde-oordeel over een product, dienst of persoon. En dan zijn er nog felicitaties aan danwel negatieve feedback op een ander.
Hoe werkt sentimentanalyse? Scheelen begint met verschillende manieren waarop dit kan worden aangepakt (handmatig versus automatisch, zelflerend versus beheersbaar (supervised learning?), hoge precisie versus hoge opbrengst (precision versus recall)). En dan zijn er natuurlijk nog vele soorten emoties. Maar wat doet Coosto?
Coosto analyseert vanzelfsprekend sentiment op een automatische manier, tenslotte krijgt het systeem drie miljoen berichtjes per dag te verwerken. Er worden slechts onderscheid gemaakt in een tweetal emoties (positief en negatief) en de restgroep: neutraal. En die laatste groep is dus waar Coosto geen emotie aan kan toekennen. Daarnaast gebruikt Coosto een beheersbaar systeem voor sentimentanalyse; dus geen zelflerend systeem. Feitelijk een enorme rule-based systeem, als ik het goed begrijp. En als laatste heeft Coosto gekozen om zo goed mogelijk het juiste sentiment te bepalen (high precision).
Sentimentanalyse zal volgens Scheelen nooit perfect kunnen zijn. Zelfs mensen kunnen berichtjes nooit voor 100% perfect determineren als positief of negatief. En een systeem zal dat niveau nooit kunnen halen. Sarcasme is voor een computer nou eenmaal niet te snappen, tenzij een computer zou kunnen redeneren. En hoe om te gaan met gemengde gevoelens die in een berichtje worden uitgesproken? Daarnaast kunnen bepaalde woorden, afhankelijk van de context, zowel een positieve als een negatieve lading hebben. Dan zijn er nog grammaticale problemen en taal uit subculturen. En niet te vergeten, spelfouten. Volgens Scheelen bevatten 15% van alle tweets spelfouten. Als laatste is er dan ook nog Internetslang (afkortingen, emoticons, hastags).
O ja en Scheelen heeft ook nog een hele bijzondere categorie, hysterische meisjes. Met als voorbeeld een hilarische tweet met heel veel uitroeptekens en OOOOMMMMGGGGG woorden…
Afijn, het is wel duidelijk dat het bepalen van sentiment bepaald geen sinecure is. En dat is misschien wel het understatement van het jaar. Desondanks zal Coosto blijven werken aan het verbeteren van de bepaling van sentiment. Ik heb bepaald medelijden met de mensen die deze functionaliteit en content moeten onderhouden.
O, en Coosto wil in de (nabije?) toekomst meer sentimenten gaan onderscheiden; dus meer dan alleen positief of negatief sentiment. Ik ben benieuwd.
Reynold Zuil
says:Het lijkt me toch niet zo heel moeilijk om rekening te houden met spelfouten. Dat zou toch een zelflerend algoritme moeten kunnen zijn, die de (meest)voorkomende spelfouten ook gewoon meeneemt. Ik vind het vreemd dat Coosto dat niet al heeft. Google herkent toch ook gewoon spelfouten?
Maartje (webcare Coosto)
says:Hoi Reynold,
Coosto houdt zeker rekening met spelfouten. Vaak voorkomende fouten worden hetzelfde geclassificeerd als de juist gespelde termen. Omdat er steeds nieuwe woorden bij komen vanuit opkomende subculturen en de tijdsgeest (denk aan Project X-feest) blijven we onze sentimentclassificatie overigens doorontwikkelen.