Den nye AI -model fra Kinas Deepseek optræder på et niveau med førende amerikanske modeller uden

Deepseeks R1 -model er tilgængelig gratis
Det Kina-baserede AI-selskab Deepseek sendte chokbølger gennem både Silicon Valley og Wall Street ved at frigive en AI-model, der konkurrerer med de bedste amerikanske, men blev lavet til en brøkdel af omkostningerne. Selvom nyheden har givet anledning til en salg af tech-aktier og fået venturekapitalist Marc Andreessen til at beskrive resultaterne som “AI’s Sputnik-øjeblik”, er denne open source AI ikke så revolutionær, som det ser ud til.
I løbet af det sidste år er AI -modeller fra virksomheder som Openai, Google og Meta blevet i stand til stadig mere komplekse opgaver. For at opnå dette har tech -virksomheder brugt titusinder af milliarder dollars på AI -udvikling. Men den 20. januar, tilsyneladende ud af intetsteds, gjorde Deepseek sin R1 -model frit tilgængelig og offentliggjorde et papir, der demonstrerede AI’s imponerende præstation.
Deepseeks model udførte sammenligneligt med Openais O1 -model på flere matematik og kodende benchmarks. Det er ikke noget rigtigt chok, men det opnåede dette, mens det var 20 til 50 gange billigere at træne og bruge markant mindre computerkraft. Ligesom Openais O1 er det en såkaldt tidlig ræsonnementsmodel, ifølge Miles Brundage, en AI-politikforsker, der tidligere var på Openai. Disse systemer kan tackle mere komplekse opgaver end andre store sprogmodeller, fordi de bryder problemer ned i bidder og tackle hvert stykke separat. Dette betyder også, at de forbruger mere computerkraft og energi, hvilket gør praktiske anvendelser dyre.
En mere effektiv måde at opnå de samme resultater – nemlig Deepseeks model – kan hjælpe flere organisationer ud over de rigeste virksomheder drager fordel af AI -tjenester. Og det faktum, at det er open source og frit tilgængeligt, kunne tvinge amerikanske konkurrenter til at nedbringe deres egne priser.
Men det er stadig uklart nøjagtigt, hvor godt Deepseeks model stabler op mod de førende os. Deepseek har været temmelig gennemsigtig med at offentliggøre sine resultater på forskellige benchmarktest. I mellemtiden ved vi ikke, om amerikanske tech -virksomheder har opnået endnu mere imponerende resultater med andre førende systemer – såsom Openais seneste O3 -model – mens de holder dem hemmelige og upublicerede. Desuden repræsenterer benchmarks, der er testet indtil videre, ikke det fulde potentielle interval for en AI -modellens kapacitet.
”Folk læser for meget i det faktum, at dette er et tidligt skridt i et nyt paradigme snarere end slutningen af paradigmet,” sagde Brundage.
Der kan også være andre begrænsninger for Deepseeks model. Det har visse indbyggede partier fra sin uddannelse, der er beregnet til at overholde kinesiske regeringsbegrænsninger, såsom at undgå diskussion af behandlingen af det uighur etniske mindretal og tåe den kinesiske kommunistpartilinje på Taiwans politiske status.
Og selvom det var effektivt trænet, havde Deepseek stadig en betydelig computerkraft, der kunne have givet modellens udvikling, Lennart Heim i Rand Corporation, en tænketank med base i Californien, og Sihao Huang på University of Oxford skrev i et blogindlæg.
De påpeger, at Deepseek har adgang til en af Asiens største klynger af AI -chips samt kinesiske og udenlandske computerressourcer, der er gemt i skyen – som ikke er underlagt den amerikanske eksportkontrol, der har forsøgt at begrænse os chips fra at blive brugt i Kina. Sådanne ressourcer hjalp sandsynligvis dybseek med at opdage mere effektive teknikker ved først at generere syntetiske træningsdata og derefter give mulighed for rigelig prøve-og-fejl-eksperimentering.
På trods af disse amerikanske eksportkontroller havde virksomheden også adgang til en nylig generation af AI -chips. De seneste eksportbegrænsninger blev implementeret i oktober 2023, så de har endnu ikke haft deres fulde indflydelse på den kinesiske AI -udviklingsindsats, sagde Heim og Huang. Deepseek har trænet sine AI -modeller på NVIDIA H800 -chips, der var designet til at omgå ældre og mindre effektive amerikanske eksportkontroller, påpegede de.
”Kina kører stadig datacentre før restriktion med titusinder af chips, mens amerikanske virksomheder konstruerer datacentre med hundreder af tusinder,” skrev parret. “Den virkelige test kommer, når disse datacentre har brug for opgradering eller udvidelse – en proces, der vil være lettere for amerikanske virksomheder, men udfordrende for kinesiske virksomheder under amerikanske eksportkontrol.”
Hvis Deepseek ikke vil forstyrre den USA-baserede AI-verden, hvorfor har det det amerikanske tech-marked og investorer, der er panik? Det er ikke så meget, at det har ændret AI -løbet for godt, men det har bestemt punkteret urealistiske forventninger i branchen. En AI-hype-boble har opbygget i de senere år, hvilket har ført til skyhøje værdiansættelser for tech-virksomheder. Skiftet i aktiekurserne kunne afspejle mere realistiske estimater af AIs monetære værdi.
Det originale Sputnik -øjeblik var et, hvor Sovjetunionen overraskede USA ved at køre foran for at lancere den første kunstige satellit i rummet; Imidlertid var USA faktisk på niveau med USSR i rumteknologi og var klar over sovjetiske fremskridt. Det var kun offentligheden, der ikke var klar over den amerikanske regeringshemmelighed.
Der er en måde, hvorpå dette øjeblik afspejler Sputnik -æraen: dette kan være en situation, hvor en sensationaliseret historie vil forårsage offentlig overreaktion og anspore flere amerikanske udgifter til AI.