Ai hallucinationer bliver værre – og de er her for at blive

En AI -leaderboard antyder, at de nyeste ræsonnementsmodeller, der bruges i chatbots, producerer mindre nøjagtige resultater på grund af højere hallucinationshastigheder. Eksperter siger, at problemet er større end det

Ny videnskabsmand. Science News og Long læser fra ekspertjournalister, der dækker udviklingen inden for videnskab, teknologi, sundhed og miljøet på webstedet og magasinet.

Fejl har en tendens til at vokse op i AI-genereret indhold

AI-chatbots fra tech-virksomheder som Openai og Google har fået såkaldte ræsonnementopgraderinger i de sidste måneder-ideelt set for at gøre dem bedre til at give os svar, vi kan stole på, men den nylige test antyder, at de undertiden gør det dårligere end tidligere modeller. Fejlene foretaget af chatbots, kendt som ”hallucinationer”, har været et problem fra starten, og det bliver klart, at vi måske aldrig slipper af med dem.

Hallucination er en tæppebegivenhed for visse slags fejl, der er foretaget af de store sprogmodeller (LLM’er), der elsystemer som Openais Chatgpt eller Googles Gemini. Det er bedst kendt som en beskrivelse af den måde, de undertiden præsenterer falske oplysninger på som sande. Men det kan også henvise til et AI-genereret svar, der er faktisk nøjagtigt, men ikke faktisk relevant for det spørgsmål, det blev stillet eller undlader at følge instruktionerne på en anden måde.

En Openai-teknisk rapport, der vurderede sine seneste LLM’er, viste, at dens O3- og O4-mini-modeller, som blev frigivet i april, havde signifikant højere hallucinationsgrad end selskabets tidligere O1-model, der kom ud i slutningen af ​​2024. For eksempel, da de opsummerede offentligt tilgængelige kendsgerninger om mennesker, O3 Hallucinated 33 procent af tiden, mens O4-Mini gjorde det 48 pr. Cult for tiden. Til sammenligning havde O1 en hallucinationsgrad på 16 procent.

Problemet er ikke begrænset til Openai. Et populært leaderboard fra virksomheden Vectara, der vurderer hallucinationshastigheder, viser nogle “ræsonnement” -modeller-inklusive Deepseek-R1-modellen fra udvikleren Deepseek-så dobbeltcifrede stiger i hallucinationsgrader sammenlignet med tidligere modeller fra deres udviklere. Denne type model gennemgår flere trin for at demonstrere en ræsonnementslinje, inden du reagerer.

Openai siger, at begrundelsesprocessen ikke er skylden. ”Hallucinationer er ikke iboende mere udbredt i ræsonnementsmodeller, skønt vi aktivt arbejder for at reducere de højere hallucination, vi så i O3 og O4-mini,” siger en openai-talsmand. ”Vi fortsætter vores forskning på hallucinationer på tværs af alle modeller for at forbedre nøjagtigheden og pålideligheden.”

Nogle potentielle anvendelser til LLM’er kunne afspores ved hallucination. En model, der konsekvent angiver usandheder og kræver, at faktakontrol ikke vil være en nyttig forskningsassistent; En paralegal-bot, der citerer imaginære sager, får advokater i problemer; En kundeserviceagent, der hævder forældede politikker, er stadig aktive, skaber hovedpine for virksomheden.

AI -virksomheder hævdede imidlertid oprindeligt, at dette problem ville rydde op over tid. Faktisk, efter at de først blev lanceret, havde modellerne en tendens til at hallucinere mindre med hver opdatering. Men de høje hallucinationshastigheder for de nylige versioner komplicerer denne fortælling – uanset om det er skyld i skyld.

Vectaras leaderboard rangerer modeller baseret på deres faktiske konsistens i at opsummere dokumenter, de får. Dette viste, at “hallucinationsgrader er næsten de samme for at resonnere kontra ikke-rasningsmodeller”, i det mindste for systemer fra Openai og Google, siger Forrest Sheng Bao på Vectara. Google gav ikke yderligere kommentarer. Til leaderboards formål er de specifikke hallucinationshastighedsnumre mindre vigtige end den samlede rangering af hver model, siger Bao.

Men denne placering er muligvis ikke den bedste måde at sammenligne AI -modeller på.

For det første er det i konflikt med forskellige typer hallucinationer. Vectara-teamet påpegede, at selv om DeepSeek-R1-modellen hallucinerede 14,3 procent af tiden, var de fleste af disse “godartede”: svar, der faktisk understøttes af logisk ræsonnement eller verdenskendskab, men ikke faktisk til stede i den originale tekst, som botten blev bedt om at opsummere. Deepseek gav ikke yderligere kommentarer.

Et andet problem med denne form for placering er, at test baseret på tekstmarkering “siger intet om hastigheden for forkerte output, når (LLMS) bruges til andre opgaver”, siger Emily Bender ved University of Washington. Hun siger, at leaderboard -resultaterne muligvis ikke er den bedste måde at bedømme denne teknologi på, fordi LLM’er ikke er designet specifikt til at opsummere tekster.

Disse modeller fungerer ved gentagne gange at besvare spørgsmålet om “hvad der er et sandsynligt næste ord” til at formulere svar på prompter, og derfor behandler de ikke oplysninger i den sædvanlige forstand at prøve at forstå, hvilke oplysninger der er tilgængelige i en tekstkrop, siger Bender. Men mange tech -virksomheder bruger stadig ofte udtrykket “hallucinationer”, når de beskriver outputfejl.

“‘Hallucination’ som et udtryk er dobbelt problematisk,” siger Bender. “På den ene side antyder det, at forkerte output er en afvigelse, måske en, der kan afbødes, mens resten af ​​tiden er systemerne jordet, pålidelige og pålidelige. På den anden side fungerer det ikke noget.”

Arvind Narayanan ved Princeton University siger, at spørgsmålet går ud over hallucination. Modeller begår også undertiden andre fejl, såsom at trække på upålidelige kilder eller bruge forældede oplysninger. Og blot at kaste flere træningsdata og computerkraft på AI har ikke nødvendigvis hjulpet.

Resultatet er, vi er muligvis nødt til at leve med fejlagtigt AI. Narayanan sagde i et socialt medieindlæg, at det i nogle tilfælde kun er bedst at bruge sådanne modeller til opgaver, når faktakontrol af AI-svaret stadig ville være hurtigere end at udføre forskningen selv. Men det bedste træk kan være at undgå fuldstændigt at stole på AI -chatbots for at give faktuelle oplysninger, siger Bender.