Er Superintelligent AI lige rundt om hjørnet, eller bare en sci-fi-drøm?

Tekniske administrerende direktører lover stadig mere udlandske visioner i 2030’erne, drevet af “superintelligence”, men virkeligheden er, at selv de mest avancerede AI -modeller stadig kan kæmpe med enkle gåder

Er maskiner ved at blive smartere end mennesker?

Hvis du tager lederne af kunstige efterretningsfirmaer på deres ord, betyder deres produkter, at det kommende årti vil være helt i modsætning til nogen i menneskets historie: en gylden æra med “radikal overflod”, hvor fysik med høj energi er “løst”, og vi ser begyndelsen på rumkolonisering. Men forskere, der arbejder med dagens mest kraftfulde AI -systemer, finder en anden virkelighed, hvor selv de bedste modeller ikke undlader at løse grundlæggende gåder, som de fleste mennesker finder trivielt, mens løftet om AI, der kan “grund” synes at være overdreven. Så hvem skal du tro?

Sam Altman og Demis Hassabis, administrerende direktører i henholdsvis Openai og Google Deepmind, har begge fremsat de nylige påstande om, at magtfulde, verdensændrende AI-systemer er lige rundt om hjørnet. I et blogindlæg skriver Altman, at “2030’erne sandsynligvis vil være vildt forskellig fra enhver tid, der er kommet før”, og spekulerer i, at vi måske går “fra et større materialevidenskabeligt gennembrud et år til ægte højbåndbredde hjerne-computergrænseflader det næste år”.

Hassabis, i et interview med Kabletsagde også, at i 2030’erne vil kunstig generel intelligens (AGI) begynde at løse problemer som at “helbrede forfærdelige sygdomme”, hvilket fører til “meget sundere og længere levetid” samt at finde nye energikilder. ”Hvis det hele sker,” sagde Hassabis i interviewet, ”så skulle det være en æra med maksimal menneskelig blomstring, hvor vi rejser til stjernerne og koloniserer galaksen.”

Denne vision er stærkt afhængig af antagelsen om, at store sprogmodeller (LLM’er) som ChatGPT får mere i stand, jo flere træningsdata og computerkraft, vi kaster på dem. Denne “skaleringslov” ser ud til at have holdt sig i de sidste par år, men der har været antydninger til det, der vakler. For eksempel opnåede Openais nylige GPT-4.5-model, der sandsynligvis koster hundreder af millioner af dollars at træne, kun beskedne forbedringer i forhold til sin forgænger GPT-4. Og disse omkostninger er intet sammenlignet med fremtidige udgifter, med rapporter, der antyder, at Meta er ved at annoncere en investering på 15 milliarder dollars i et forsøg på at opnå ”superintelligens”.

Penge er dog ikke den eneste forsøgte løsning på dette problem – AI -firmaer har også henvendt sig til “ræsonnement” -modeller, som Openais O1, som blev frigivet sidste år. Disse modeller bruger mere computertid og tager derfor længere tid at producere et svar og fodrer deres egne output tilbage i sig selv. Denne iterative proces er blevet mærket “kæde-af-tanker” i et forsøg på at sammenligne sammenligninger med den måde, en person måske tænker gennem problemer trin for trin. ”Der var legitime grunde til at være bekymret for AI -plateauing,” fortalte Noam Brown ved Openai til Ny videnskabsmand Sidste år, men O1 og modeller som det betød, at “skaleringsloven” kunne fortsætte, argumenterede han.

Alligevel har nyere forskning fundet, at disse ræsonnementsmodeller kan snuble over endda enkle logiske gåder. For eksempel testede forskere hos Apple Chinese AI Company Deepseeks ræsonnementsmodeller og Anthropics Claude-tænkningsmodeller, der fungerer som Openais O1-familie af modeller. Forskerne fandt, at de har “begrænsninger i nøjagtig beregning: De bruger ikke eksplicitte algoritmer og fornuft uoverensstemmende på tværs af gåder”, skrev forskerne.

Holdet testede AI på flere gåder, såsom et scenarie, hvor en person skal transportere genstande over en flod i det færrest antal trin, og Tower of Hanoi, et spil, hvor du skal flytte ringer en efter en mellem tre poler uden at placere en større ring på toppen af ​​en mindre. Selvom modellerne kunne løse gåderne ved deres letteste omgivelser, kæmpede de med at øge antallet af ringe eller genstande til transport. Mens vi ville bruge længere tid på at tænke på et mere komplekst problem, fandt forskerne, at AI -modellerne brugte færre “tokens” – informationstykker – da kompleksiteten af ​​problemerne steg, hvilket antyder, at “tænkning” -tiden modellerne viste er en illusion.

”Den skadelige del er, at dette er opgaver, der let kan løses,” siger Artur Garcez ved City, University of London. ”Vi vidste allerede for 50 år siden, hvordan man bruger symbolsk AI -ræsonnement til at løse disse.” Det er muligt, at disse nyere systemer kan rettes og forbedres til i sidste ende at være i stand til at resonnere gennem komplekse problemer, men denne forskning viser, at det usandsynligt vil ske rent ved at øge størrelsen på modellerne eller de beregningsressourcer, der er givet dem, siger Garcez.

Det er også en påmindelse om, at disse modeller stadig kæmper for at løse scenarier, de ikke har set uden for deres træningsdata, siger Nikos Aletras på University of Sheffield. ”De fungerer faktisk godt i mange tilfælde, som at finde, indsamle information og derefter opsummere dem, men disse modeller er blevet trænet til at gøre disse slags ting, og det ser ud til at være magi, men det er ikke – de er blevet trænet til at gøre dette,” siger Aletras. ”Nu tror jeg, at Apple Research har fundet en blind plet.”

I mellemtiden viser anden forskning, at øget “tænkning” -tid faktisk kan skade en AI -model. Soumya Suvra Ghosal og hans kolleger ved University of Maryland testede Deepseeks modeller og fandt, at længere “tankekæde” -processer førte til en nedsat nøjagtighed på test af matematisk ræsonnement. For et matematisk benchmark fandt de for eksempel, at tredobling af mængden af ​​tokens, der bruges af en model, kan øge dens ydelse med ca. 5 procent. Men ved hjælp af 10 til 15 gange så mange tokens faldt igen benchmark -score med omkring 17 procent.

I nogle tilfælde ser det ud til, at “tanketankekæden” produceret af en AI bærer lidt relation til det eventuelle svar, den giver. Når man tester Deepseeks modeller om evnen til at navigere på enkle labyrinter, fandt Subbarao Kambhampati ved Arizona State University og hans kolleger, at selv når AI løste problemet, indeholdt dens ”tankekæde” -produktion, der ikke afspejles i den endelige løsning. Hvad mere er, at fodre AI en meningsløs “tankekæde” faktisk kunne give bedre svar.

”Vores resultater udfordrer den fremherskende antagelse om, at mellemliggende tokens eller” tankekæder ”kan tolkes semantisk som sporene for intern ræsonnement for AI -modellerne og forsigtighed mod at antropomorfisere dem på den måde,” siger Kambhampati.

Faktisk antyder alle undersøgelserne, at “tænkning” eller “ræsonnement” -etiketter til disse AI -modeller er en fejlnummer, siger Anna Rogers ved IT University of Copenhagen i Danmark. “Så længe jeg har været på dette felt, er enhver populær teknik, jeg kan tænke på, først hypet op med nogle vage kognitivt lydende analogi, som (var) derefter til sidst viste sig forkert.”

Andreas Vlachos ved University of Cambridge påpeger, at LLM’er stadig har klare anvendelser i tekstgenerering og andre opgaver, men siger, at den seneste forskning antyder, at vi måske kæmper for nogensinde at få dem til at tackle den slags komplekse problemer, altman og hassabis har lovet, vil blive løst på bare et par år.

”Grundlæggende er der et misforhold mellem, hvad disse modeller er trænet til at gøre, hvilket er næste ord forudsigelse, i modsætning til hvad vi prøver at få dem til at gøre, hvilket er at producere ræsonnement,” siger Vlachos.

Openai er dog uenig. ”Vores arbejde viser, at ræsonnemetoder som kæde-af-tanker kan forbedre ydeevnen markant på komplekse problemer, og vi arbejder aktivt for at udvide disse muligheder gennem bedre træning, evaluering og modeldesign,” siger en talsmand. Deepseek svarede ikke på en anmodning om kommentar.