LLM inteelt is destructief. Voor LLM’s

Logo Zeta AlphaIk heb besloten om regelmatig actuele artikelen mbt AI en HR de wereld in te slingeren. Het is nauwelijks een inspanning die ik hoef te verrichten; al het werk is door Zeta Alpha gedaan.
Vandaag behandel ik het artikel “AI models collapse when trained on recursively generated data” dat medio 2024 is verschenen in Nature:

Het document onderzoekt wat er gebeurt als taalmodellen herhaaldelijk worden bijgetraind op data die door andere modellen is gegenereerd, in plaats van op door mensen samengestelde data. De belangrijkste bevindingen zijn:

  • Wanneer modellen herhaaldelijk worden getraind op door modellen gegenereerde data (en dus niet op originele, echte data), treedt een fenomeen op dat “model collapse” wordt genoemd. Dit is een degeneratief proces waarbij modellen na verloop van tijd onwaarschijnlijke gebeurtenissen vergeten, omdat de trainingsdata steeds meer wordt gedomineerd door de eigen projectie van de werkelijkheid van het model. Hierdoor worden waarschijnlijke gebeurtenissen overschat, onwaarschijnlijke gebeurtenissen onderschat, en neemt de diversiteit van de data met elke generatie af: “Model collapse refers to a degenerative learning process in which models start forgetting improbable events over time, as the model becomes poisoned with its own projection of reality
  • Experimenten met het OPT-125m taalmodel laten zien dat trainen op alleen gegenereerde data leidt tot een aanzienlijk verlies aan prestaties (gemeten in perplexity), maar dat het model nog wel iets van de onderliggende taak kan leren. Het behouden van zelfs een klein deel (bijvoorbeeld 10%) van de originele data tijdens elke trainingscyclus helpt om de prestaties beter te behouden en vertraagt de collapse

  • De studie benadrukt het belang van toegang tot originele, door mensen gegenereerde data voor het behoud van de prestaties van modellen op de lange termijn. Naarmate meer online content door taalmodellen wordt gegenereerd, wordt het steeds moeilijker om onderscheid te maken tussen door mensen en door machines gegenereerde data, wat vragen oproept over de herkomst van trainingsdata voor toekomstige modellen: “We note that access to the original data distribution is crucial: in learning tasks in which the tails of the underlying distribution matter, one needs access to real human-produced data
  • De auteurs suggereren dat coördinatie op gemeenschapsniveau nodig kan zijn om informatie over de herkomst van data te volgen en te delen, zodat modellen in de toekomst effectief getraind kunnen blijven worden..

Samengevat waarschuwt het artikel dat recursieve training op door modellen gegenereerde data leidt tot een geleidelijk verlies van diversiteit en prestaties in AI-modellen, en benadrukt het de noodzaak om originele, door mensen gegenereerde data te behouden en te traceren voor duurzame AI-ontwikkeling.

Tot zover Zeta Alpha. Er is maar één klein probleem, en dat is dat de LLM-eigenaars grote overeenkomst vertonen met de slavendrijvers van enkele honderden jaren geleden: verover zoveel als je kunt, steel alle mens(elijke content), verwerk/vervoer en verkoop. En onze hedendaagse slavendrijvers hebben zo’n beetje alle menselijke content al geroofd. Er is eenvoudig weg niets meer om te roven. En kunstmatige content werkt dus niet (goed). Wat nu?

Geef een reactie