De CEO van Meta, Mark Zuckerberg, krijgt de afgelopen dagen veel kritiek te verduren. Het gaat dit keer om het illegaal gebruiken van boeken voor het trainen van kunstmatige intelligentie (AI) modellen.
Volgens een groep Amerikaanse auteurs heeft het techbedrijf van Zuckerberg gebruikgemaakt van de zogenoemde LibGen dataset, een illegaal online bibliotheek met miljoenen auteursrechtelijk beschermde boeken. Om die reden hebben deze schrijvers een rechtszaak aangespannen tegen Meta wegens inbreuk op hun auteursrechten.
Uit interne communicatie van Meta blijkt dat Zuckerberg persoonlijk goedkeuring gaf voor het gebruik van de LibGen dataset, ondanks waarschuwingen van het AI team dat deze database “illegaal gedownloade” content bevatte. De interne memo’s geven aan dat medewerkers bij Meta zich zorgen maakten over de mogelijke gevolgen hiervan. Het gene waar ze bang voor waren blijkt nu werkelijkheid te worden. “Media aandacht over het gebruik van datasets waarvan we weten dat ze illegaal zijn, kan onze positie bij regelgevende instanties verzwakken,” aldus een bericht binnen het bedrijf.
LibGen, oftewel Library Genesis, is een illegaal schaduwarchief dat afkomstig is uit Rusland. De database bevat miljoenen romans, non-fictie boeken en wetenschappelijke artikelen. In 2022 oordeelde een rechtbank in New York dat de anonieme beheerders van LibGen $30 miljoen aan schadevergoeding moesten betalen aan een groep uitgevers vanwege schending van het auteursrecht.
Auteurs krijgen nieuwe kans
De schrijvers die Meta aanklagen, stellen dat hun werk zonder toestemming is gebruikt om de AI modellen van Meta, zoals Llama, te trainen. Deze modellen worden ingezet in chatbots en andere AI tools van het bedrijf. Hoewel een Amerikaanse rechter eerder een deel van de aanklacht verwierp, kregen de auteurs onlangs toestemming om hun claims te herzien en nieuwe beschuldigingen toe te voegen, waaronder computerfraude.
Het gebruik van data en auteursrechtelijk beschermde content om AI-systemen te trainen is al langer onderwerp van discussie. Toch lijken techbedrijven de tactiek te hanteren van “don’t ask for permission, ask for forgiveness”. Zo zouden bedrijven zoals OpenAI mogelijk ook miljoenen video’s en films hebben getranscribeerd en deze zonder toestemming als inputdata voor hun modellen hebben gebruikt.