Metas AI -huskede bøger ordret – der kunne koste det milliarder

Mange AI -modeller blev trænet i bøgernes tekst, men en ny test fandt, at mindst en model direkte har husket næsten hele bøgerne, inklusive Harry Potter og filosofens stensom kunne komplicere løbende juridiske kampe om krænkelse af ophavsret

I april protesterede bogforfattere og udgivere Metas brug af ophavsretligt beskyttede bøger til at træne AI

Milliarder af dollars står på spil, da domstole i USA og UK beslutter, om tech -virksomheder lovligt kan træne deres kunstige efterretningsmodeller på copyrightbøger. Forfattere og udgivere har anlagt flere retssager om dette nummer, og i en ny vri har forskere vist, at mindst en AI -model ikke kun har brugt populære bøger i sine træningsdata, men også husket deres indhold verbatim.

Mange af de igangværende tvister drejer sig om, hvorvidt AI -udviklere har den lovlige ret til at bruge ophavsretligt beskyttede værker uden først at spørge tilladelse. Tidligere forskning fandt, at mange af de store sprogmodeller (LLM’er) bag populære AI -chatbots og andre generative AI -programmer blev trænet i “Books3” -datasættet, der indeholder næsten 200.000 copyright -bøger, inklusive mange piratkopierede. AI -udviklerne, der trænede deres modeller på dette materiale, har hævdet, at de ikke overtrådte loven, fordi en LLM lægger friske kombinationer af ord baseret på dets træning, hvilket transformerer snarere end at gentage det ophavsretligt beskyttede værk.

Men nu har forskere testet flere modeller for at se, hvor meget af disse træningsdata de kan spytte tilbage ordret. De fandt, at mange modeller ikke bevarer den nøjagtige tekst til bøgerne i deres træningsdata – men en af ​​Metas modeller har næsten husket hele bøgerne. Hvis dommere hersker mod virksomheden, estimerer forskerne, at dette kan gøre meta ansvarlig for mindst 1 milliard dollars i erstatning.

”Det betyder på den ene side, at AI -modeller ikke kun er” plagieringsmaskiner ”, som nogle har påstået, men det betyder også, at de gør mere end bare at lære generelle forhold mellem ord,” siger Mark Lemley ved Stanford University i Californien. “Og det faktum, at svaret adskiller sig mod model til model og bog til bog, betyder, at det er meget svært at indstille en klar juridisk regel, der fungerer på tværs af alle sager.”

Lemley forsvarede tidligere meta i en generativ AI -copyright -sag kaldet Kadrey V Meta Platforms. Forfattere, hvis bøger var blevet brugt til at uddanne Metas AI-modeller, indgav en klassesag mod tech-giganten for overtrædelse af copyright. Sagen høres stadig i det nordlige distrikt i Californien.

I januar 2025 meddelte Lemley, at han havde droppet meta som klient, skønt han sagde, at han stadig troede, at virksomheden skulle vinde sagen. Emil Vazquez, en talsperson for meta, siger, at ”fair brug af ophavsretligt beskyttede materiale er afgørende” for at udvikle virksomhedens AI -modeller. ”Vi er uenige med sagsøgernes påstande, og den fulde rekord fortæller en anden historie,” siger han.

I denne seneste forskning testede Lemley og hans kolleger AI -memorisering af bøger ved at opdele små boguddrag i to dele – et præfiks og et suffikssektion – og se, om en model, der blev bedt om med præfikset, ville svare med suffikset. For eksempel delte de et citat fra F. Scott Fitzgerald’s Den store Gatsby I præfikset “De var skødesløse mennesker, Tom og Daisy – de smadrede ting og væsener og trak sig derefter tilbage” og suffikset “tilbage i deres penge eller deres enorme skødesløshed, eller hvad det var, der holdt dem sammen, og lod andre mennesker rydde op i rodet.”

Baseret på deres fund estimerede forskerne sandsynligheden for, at hver AI -model ville afslutte uddragene ordret. Derefter sammenlignede de disse sandsynligheder med oddsene for, at modeller gjorde det ved en tilfældig chance.

Uddragene omfattede bunker af tekst fra 36 ophavsretligt beskyttede bøger, inklusive populære titler som George RR Martins Et spil troner og Sheryl Sandbergs Lean In. Forskerne testede også uddrag fra bøger skrevet af sagsøgere i Kadrey V Meta Platforms -sagen.

Forskerne kørte disse eksperimenter på 13 open source AI-modeller, herunder modeller udviklet og frigivet af Meta, Google, Deepseek, Eleutherai og Microsoft. De fleste virksomheder udover Meta svarede ikke på anmodninger om kommentar, og Microsoft afviste at kommentere.

En sådan test afslørede, at Metas LLAMA 3.1 70B -model har husket det meste af den første bog i JK Rowlings Harry Potter serie såvel som Den store Gatsby og George Orwells dystopiske roman 1984. De fleste af de andre modeller havde husket meget lidt af bøgerne, herunder prøvebøger skrevet af retssagene. Meta afviste at kommentere disse resultater.

Forskerne estimerer, at en AI -model, der viste sig at have krænket ophavsretten på kun 3 procent af Books3 -datasættet, kunne føre til en lovpligtig erstatningspris på næsten 1 milliard dollar – og muligvis endnu større priser baseret på AI -udviklernes overskud i forbindelse med denne overtrædelse.

Denne teknik kan være et “godt retsmedicinsk værktøj” til at identificere omfanget af AI -memorisering, siger Randy McCarthy i Hall Estill advokatfirma i Oklahoma. Men det løser ikke, om virksomheder lovligt kan uddanne deres AI -modeller i ophavsretligt beskyttede værker gennem den amerikanske “fair brug” -regel, en juridisk doktrin, der tillader ulovlig brug af ophavsretligt beskyttede værker under nogle omstændigheder.

McCarthy bemærker, at AI -virksomheder normalt anerkender at uddanne deres modeller om ophavsretligt beskyttede materialer. ”Spørgsmålet er, havde de ret til at gøre det?” spørger han.

I Storbritannien kunne der på den anden side memoriseringsfundet være “meget markant fra et copyright -perspektiv”, siger Robert lander på Howard Kennedy advokatfirma i London. UK Copyright Law følger konceptet “Fair Dealing”, der giver en meget smalere undtagelse fra krænkelse af ophavsret end den amerikanske fair brugslære. Så AI -modeller, der huskede piratkopierede bøger, er usandsynlige at kvalificere sig til denne undtagelse, siger han.