Ledende AI -modeller mislykkes ny test af kunstig generel intelligens

En ny test af AI -kapaciteter består af gåder, som mennesker er i stand til at løse uden for mange problemer, men som alle fører AI -modeller kæmper med. For at forbedre og bestå testen er AI-virksomheder nødt til at afbalancere evner til problemløsning med omkostninger.

ARC-AGI-2-benchmark er designet til at være en vanskelig test for AI-modeller

De mest sofistikerede AI-modeller, der eksisterer i dag, har scoret dårligt på et nyt benchmark designet til at måle deres fremskridt hen imod kunstig generel intelligens (AGI)-og brute-force computingkraft vil ikke være nok til at forbedre sig, da evaluatorer nu tager højde for omkostningerne ved at køre modellen.

Der er mange konkurrerende definitioner af AGI, men det tages generelt for at henvise til en AI, der kan udføre enhver kognitiv opgave, som mennesker kan udføre. For at måle dette lancerede ARC Prize Foundation tidligere en test af ræsonnementsevner kaldet ARC-AGI-1. Sidste december annoncerede Openai, at dens O3 -model havde scoret meget på testen, hvilket førte til, at nogle spurgte, om virksomheden var tæt på at opnå AGI.

Men nu har en ny test, Arc-Agi-2, hævet baren. Det er vanskeligt nok, at intet nuværende AI-system på markedet kan opnå mere end en enkeltcifret score ud af 100 på testen, mens hvert spørgsmål er blevet løst af mindst to mennesker i færre end to forsøg.

I et blogindlæg, der annoncerede ARC-AGI-2, sagde ARC-præsident Greg Kamradt, at det nye benchmark var påkrævet for at teste forskellige færdigheder fra den foregående iteration. ”For at slå det, skal du demonstrere både et højt niveau af tilpasningsevne og høj effektivitet,” skrev han.

Bu-Agi-2-benchmark adskiller sig fra andre AI-benchmark-tests, idet den fokuserer på AI-modellernes evner til at udføre forenklede opgaver-såsom replikering af ændringer i et nyt billede baseret på tidligere eksempler på symbolsk fortolkning-snarere end deres evne til at matche verdensledende ph.d.-præstationer. Nuværende modeller er gode til “dyb læring”, som ARC-AGI-1 målte, men ikke er så gode til de tilsyneladende enklere opgaver, som kræver mere udfordrende tænkning og interaktion, i ARC-AGI-2. Openais O3-Low-model scorer for eksempel 75,7 procent på ARC-AGI-1, men kun 4 procent på ARC-AGI-2.

Benchmark tilføjer også en ny dimension til at måle en AI’s evner ved at se på dens effektivitet i problemløsning, målt ved de omkostninger, der kræves for at udføre en opgave. Selvom ARC for eksempel betalte sine menneskelige testere $ 17 pr. Opgave, estimerer den, at O3-Low koster Openai $ 200 i gebyrer for det samme arbejde.

”Jeg tror, ​​at den nye iteration af ARC-AGI, der nu fokuserer på at afbalancere ydeevne med effektivitet, er et stort skridt hen imod en mere realistisk evaluering af AI-modeller,” siger Joseph Imperial på University of Bath, UK. ”Dette er et tegn på, at vi bevæger os fra en-dimensionel evalueringstest, der udelukkende fokuserer på ydeevne, men også overvejer mindre beregnet magt.”

Enhver model, der er i stand til at videregive ARC-AGI-2, behøver ikke bare at være meget kompetent, men også mindre og let, siger Imperial-med effektiviteten af ​​modellen er en nøglekomponent i det nye benchmark. Dette kan hjælpe med at tackle bekymringer om, at AI-modeller bliver mere energikrævende Nogle gange til det punkt, der er spildt-for at opnå stadig større resultater.

Imidlertid er ikke alle overbeviste om, at den nye foranstaltning er fordelagtig. ”Hele indramningen af ​​dette, da det tester intelligens, er ikke den rigtige indramning,” siger Catherine Flick på University of Staffordshire, UK. I stedet siger hun, at disse benchmarks blot vurderer en AI’s evne til at udføre en enkelt opgave eller et sæt opgaver godt, som derefter ekstrapoleres til at betyde generelle evner på tværs af en række opgaver.

At optræde godt på disse benchmarks bør ikke ses som et stort øjeblik mod Agi, siger flick: “Du ser medierne hente, at disse modeller består disse menneskelige efterretningstest, hvor de faktisk ikke er; hvad de gør er virkelig bare at svare på en bestemt hurtig nøjagtigt.”

Og nøjagtigt hvad sker der, hvis eller når ARC-AGI-2 er vedtaget, er et andet spørgsmål-har vi brug for endnu et benchmark? ”Hvis de skulle udvikle ARC-AGI-3, gætter jeg på, at de ville tilføje en anden akse i grafen, der angiver (det) minimum antal mennesker-hvad enten det er ekspert eller ej-det vil tage at løse opgaverne ud over ydeevne og effektivitet,” siger Imperial. Med andre ord er det usandsynligt, at debatten om AGI snart vil blive afgjort.