Viser DeepSeek en måde at skære energikravene til AI på?

Succesen for det kinesiske firma Deepseek antyder, at tech -virksomheder kan træne og køre magtfulde AIS uden at forbruge store mængder magt

Deepseeks chatbot sendte chokbølger gennem tech -branchen

Siden boomet i kunstig intelligens var i gang, har amerikanske tech -chefer krævet en enorm udvidelse af datacentre og energiinfrastruktur til støtte for yderligere fremskridt og udbredt optagelse af teknologien. Nu udfordrer chokbølgen, der blev udløst af det kinesiske firma Deepseek. Nogle i branchen mener, at Deepseeks algoritmiske fremskridt kan føre til at feje ændringer i den måde, AI -modeller udvikles og bruges, såvel som betydelige energibesparelser og en lavere klimabyrde. Har de ret?

Deepseeks R1 -model var et chok for os AI -virksomheder og et mysterium. Hvordan producerede et team af et par hundrede forskere og et rapporteret budget i de forskellige millioner af dollars en model så dygtig som Openai og Googles bedste, med deres flere tusinde stærke hold og milliarder dollars budgetter? Hemmeligheden var ikke nede på en enkelt magisk ingrediens, siger Artur Garcez i City St George’s, University of London, men en kombination af smarte tekniske tricks, der var individuelt allerede kendt om.

En af de mest succesrige metoder i AI er det, der kaldes forstærkningslæring, hvor forskere viser en AI, hvordan succes ser ud og lader det finde ud af reglerne ved hjælp af en form for prøve og fejl. Dette var nøglen til Google Deepminds resultater med dets skak og proteinfoldede AI-systemer, da succes i et skakspil eller at forudsige et proteins form let kan defineres. Imidlertid fandt forskere det vanskeligere at oversætte denne metode til store sprogmodeller, hvor succes er mindre konkret.

Mens Openais GPT -modeller bruger en form for forstærkningslæring, hvor de får feedback om, hvilke svar folk foretrækker, er dette ikke forstærkende læring på den måde, som folk traditionelt har brugt det på. Deepseeks R1 blev først trænet på store mængder tekst fra Internettet, som GPT -modellerne, men det blev derefter overladt til at finde ud af, hvordan man resonnerer i sig selv ved hjælp af forstærkningslæring uden at have brug for menneskelig feedback, siger Garcez.

For at gøre dette fokuserede Deepseek -ingeniører på at anvende forstærkningslæring på problemer, hvor de kunne definere klare svar, såsom i matematik og kodning, og fik også modellen til at producere mange svar på én gang, at den kunne sammenligne side om side. Først da blev modellen vist menneskelig-mærket eksempler for at finjustere dens muligheder på andre domæner.

Efter at modellen var blevet trænet på denne måde, fandt Deepseek-forskere en måde at transplantere sine ræsonnementsevne til mindre, open source-modeller, der allerede var blevet trænet, i et skridt, de kalder destillation. Dette destillationstrin er en stor grund til, at så mange mennesker begynder at tvivle på, at de amerikanske tech -virksomheder har brug for så meget computerkraft, som de siger, at de gør, siger Garcez.

”Openai og nogle af dens konkurrenter gik lidt vanvittige i skala. Der var denne mantra – skala er alt hvad du har brug for – og de skalerede op hvert år, ”siger Garcez. ”Det, vi ser med destillationen og de gevinster, de viser, er, at du ikke rigtig har så meget af en grund til at opskalere.”

Hvis tech -virksomheder har brug for mindre computerkraft til at uddanne modeller, kan det betyde, at AI ikke behøver at være så skadelig for klimaet, som det i øjeblikket er, og at planer som et AI -infrastrukturprojekt på 500 milliarder dollars i USA muligvis ikke behøver at gå videre . Men amerikanske tech -virksomheder har været hurtige til at skubbe tilbage mod dette. Satya Nadella, administrerende direktør for Microsoft, der ejer en stor andel i Openai, udsendte på X, at ”når AI bliver mere effektiv og tilgængelig, vil vi se dets anvendelse skyrocket og omdanne den til en vare, som vi bare ikke kan få nok af. “

”Administrerende direktører, hvis du taler til dem, er de selvfølgelig nødt til at sælge hårdt, og de er nødt til at forudsige, at AI har brug for disse datacentre,” siger Mirella Lapata ved University of Edinburgh, UK. “Men hvis jeg kan køre disse ting på min computer, på en GPU (grafikbehandlingsenhed), hvorfor skulle jeg faktisk betale Openai for at gøre noget?”

Imidlertid kan et andet aspekt af Deepseeks R1 -model faktisk øge AI’s energibehov. Ligesom Openais O1 -resonnementsmodeller bruger den en metode kaldet Chain of Thought, hvor AI “tænker højt” og viser, at det fungerer, når de bliver bedt om at svare på en prompt, som forskere har fundet kan forbedre sin præstation på nogle matematik og kodende opgaver . Hvis mange flere mennesker begynder at bruge AI -værktøjer, der skal tænkes på denne måde, kan det føre til et større beregningsmæssigt behov og omkostninger, som Nadella forudsiger.

Men Deepseeks tænkningstid er opdelt mellem flere delsystemer, der er ekspert inden for forskellige felter, såsom matematik eller kodning, i det, der kaldes en blanding af ekspertermodel. Dette vil føre til, at der er behov for mindre beregningskraft end at bruge hele modellen, siger Nikos Aletras ved University of Sheffield, UK. Langt de fleste anmodninger har muligvis ikke brug for de mest beregningsmæssigt intensive “tænkning” -modeller, siger Aletras, hvilket fører til lavere samlede energiomkostninger.

”Hvis jeg skulle forklare hvert eneste svar på dig, ville vi aldrig afslutte dette møde,” siger Aletras. ”Nogle gange er (tankekæde) nyttig… men hvis jeg stiller et spørgsmål, der er meget ligetil, så har jeg ikke brug for det der.”

I sidste ende, hvor meget af en effekt Deepseeks innovationer vil have på AI -industrien, og dens energiforbrug, afhænger af, om amerikanske tech -virksomheder kan vise, at deres tilgang giver overlegne resultater. Men med kunder, der er i stand til at bruge Deepseeks R1 til mindre end en tyvende af omkostningerne ved modeller som Openais O1, ville forskellen i kvalitet være nødt til at være betydelig. ”Hvis vi ikke behøver at betale, hvorfor skulle vi? Og det betyder, at energiforbruget ville være effektivt lavere, ”siger Lapata.