Et team af AI -forskere og matematikere tilknyttet flere institutioner i USA, og Storbritannien har udviklet et matematisk benchmark, der giver forskere mulighed for at teste AI -systemers evne til at løse usædvanligt vanskelige matematikproblemer. Deres papir er placeret på arxiv Preprint Server.
I løbet af de sidste par år er LLM’er som Chatgpt vokset stadig mere sofistikeret og kan derfor til tider se ud til at have et højt intelligensniveau. Men der er et område, hvor de kommer til kort – løs vanskelige matematikproblemer.
Da udviklere af AI -systemer arbejder for at forbedre deres modeller i matematikfærdigheder, har de udviklet benchmarks til at tjene som et middel til at teste deres fremskridt. To af de mest populære er matematik og GSM8K. Over tid er flere LLM’er forbedret i det omfang, de er i stand til at score op til 90% på disse test. Men som teamet om denne nye indsats bemærkede, er vanskelighedsniveauet for sådanne benchmarks ikke så højt. De besluttede, at der var behov for en ny benchmark, og derfor skabte de en, de kaldte Frontiermath.
Til at begynde med dykkede forskerteamet dybt ind i matematikverdenen og nåede ud til nogle af de lyseste sind i marken. De bad dem om at give nogle virkelig vanskelige matematikproblemer og fik hundreder af dem tilbage som svar. Sådanne problemer, bemærker forskerne, er ikke kun unikke (de er ikke blevet offentliggjort før), men de kræver også et dybt niveau af forståelse af matematik. Nogle tager mennesker flere dage at løse.
De dækker også en lang række emner, fra antal teori til algebraisk geometri. På grund af denne bredde fungerer brute force ikke. Hverken vil gøre uddannede gæt. For at score godt på Frontiermath -benchmarket, skulle et AI -system have kreativitet, indsigt og hvad forskerteamet beskriver som “dyb domænekspertise.”
Hidtil testning har vist den vanskelighed, der findes i Frontiermath. AIS, der har scoret godt på traditionelle benchmarks, har ikke været i stand til at score højere end 2%.