Turing Award, ofte betragtet som Nobelprisen for computing, er gået til to computerforskere for deres arbejde med forstærkningslæring, en nøgleteknik til at uddanne kunstige intelligensmodeller

Richard Sutton og Andrew Barto lavede vigtige gennembrud i forstærkningslæring
Andrew Barto og Richard Sutton har vundet Turing Award fra 2024, der ofte kaldes Nobelprisen for computing, for deres grundlæggende arbejde med ideer inden for maskinlæring, der senere viste sig at være afgørende for succesen med kunstige intelligensmodeller som Google Deepminds Alphago.
Barto, der nu er pensioneret og bor i Cape Cod, Massachusetts, vidste ikke engang, at han blev nomineret til prisen. ”Jeg sluttede mig til en zoom med nogle mennesker og fik at vide, og jeg var bare flabbergasted,” siger Barto. ”Jeg var helt overrasket. Jeg var helt uforberedt, glad for æren, men jeg havde ingen idé om, at dette kom. ”
Parret vil dele prisen på 1 million dollars for deres arbejde med forstærkningslæring, hvor en AI “belønnes” og “straffes” gennem prøve og fejl for at nå et mål. Dette er blevet undersøgt siden AIs start-for eksempel i 1948 foreslog Alan Turing først et “fornøjelses-sidesystem” til intelligente maskiner, der minder om moderne forstærkningslæringssystemer, men indtil 1980’erne fik lidt opmærksomhed.
Indtil dette tidspunkt var forskning i maskinlæring stort set fokuseret på symbolsk AI, som involverer manuelt at undervise en computer reglerne for, hvordan man lærer. Barto og Sutton, der derefter var Bartos studerende, begyndte at udforske algoritmer og matematiske teorier, der kunne gentage Turings idé ved hjælp af neurale netværk til at lade en AI udarbejde disse regler i sig selv snarere end den symbolske tilgang, der tidligere havde domineret.
”Da jeg startede, var det meget umoden. Jeg var ligeglad, fordi det var interessant for mig, ”siger Barto. ”Ikke kun var det umoderne, det blev betragtet som en blindgyde at se på neurale netværk. Det er virkelig overraskende og glædeligt, at det er nået til det punkt, hvor mange mennesker arbejder i området, forbedrer algoritmerne og udfører applikationer, hvoraf mange virkelig er meget gavnlige. Jeg er forbløffet og glad for at se denne udvikling. ”
”De startede banen (af forstærkningslæring),” siger Chris Watkins ved Royal Holloway, University of London. Nogle af deres første forstærkende læringsalgoritmer, såsom politikgradientmodeller, der giver en plan for AIS til at vælge deres handlinger, når deres miljø ændrer sig, og tidsmæssig forskel, som læring, der sammenligner forudsigelser med, hvordan en situation udspiller sig, stadig bruges i dag, siger Watkins. For eksempel har de drevet AI -gennembrud som Google Deepminds Alphago og Alphazero sammen med avancerede robotsystemer som Openais tidlige arbejde med at løse en Rubiks Cube.
Barto og Suttons tidsmæssige forskelalgoritme, der blev inspireret af teorier om, hvordan dyr lærte, hjalp også uventet forskere med at forstå dopaminbelønningssystemet i hjernen. I 1990’erne indså neurovidenskabsmænd, at neuroner i abehjerner fyrede som svar på uventede belønninger og arbejdede nøjagtigt som de forudsigelser, der var en del af Barto og Suttons algoritmer. ”Det er det bedste eksempel på ideer, der bevæger sig frem og tilbage mellem teknik og naturvidenskab nogensinde,” siger Sutton.
Sutton håber, at den nuværende kunstige intelligensforskning kan tage mere inspiration fra den naturlige verden. ”Vi laver den åbenlyse idé om, at en (AI) skal lære af erfaring, ligesom dyr lærer af erfaringerne, og dette forsømmes stadig,” siger Sutton. ”Moderne AIS lærer ikke af erfaring. De lærer af en masse separate datasæt indsamlet af mennesker … I dag har vi stadig ikke maskiner, der lærer af deres oplevelse og danner en forståelse af verden. Dette er stadig den åbenlyse ting, der forbliver overset. ”