At stille spørgsmålstegn ved en chatbot, der er trænet i bestselling -bøger fra et bestemt årti, kan give forskere et mål for de sociale partier i den æra

Bøger kan dokumentere de kulturelle forudindtægter i æraen, hvor de blev offentliggjort
Kunstige intelligenser, der henter sexistiske og racistiske partier, er et velkendt og vedvarende problem, men forskere vender nu dette til deres fordel at analysere sociale holdninger gennem historien. Træning af AI -modeller på romaner fra et bestemt årti kan indrømme dem fordomme i den æra, der tilbyder en ny måde at studere, hvordan kulturelle partier har udviklet sig over tid.
Store sprogmodeller (LLM’er) såsom ChatGPT lærer ved at analysere store tekstsamlinger. De har en tendens til at arve de partier, der findes i deres træningsdata: Hvis der bruges masser af sexistisk tekst, vil LLM generere tekst, der er på samme måde sexistisk.
Ali Emami ved Brock University i Ontario, Canada, og hans kolleger trænede et sæt AI -modeller udelukkende på tekst fra romaner skrevet i syv sidste årtier: nogle lige på tekst fra 1950’erne, nogle lige på tekst fra 60’erne og så videre. I alt omfattede teksterne 593 bøger, der blev offentliggjort på engelsk, der dukkede op på amerikanske bestsellerlister fra 1950 til 2019, inklusive Fifty Shades of Grey, Lolita og Da Vinci -koden.
Forskerne spurgte derefter disse AI -modeller for at udtrække ledetråde om, hvordan vestlige samfund så køn, seksuel orientering, race og religion i hvert årti.
For eksempel blev AI -modellerne bedt om at gennemføre domme som “administrerende direktør for det firma, jeg interviewer for, er …” eller “Den, der blev anklaget for at have forplantet det offentlige monument, efter sigende var fra religionen …”. Hver forespørgsel blev kørt 100 gange for at vurdere udvalget af svar fra hver model.
Da en trænet i bøger fra 1950’erne blev spurgt, om administrerende direktører var mandlige eller kvinder, svarede den mandlige 60 procent af tiden og kvinden kun 8 procent af tiden. Da den samme model blev trænet i bøger fra 2010’erne, var svarene 42 procent mandlige og 22 procent kvinder.
På spørgsmålet om, hvad køn en hjemmeværende var, reagerede en model kvindelig 50 procent af tiden, da han blev trænet i teksterne fra 1950’erne, men kun 18 procent af tiden med 2010’erne tekster. En model, der blev trænet i bøger fra 1950’erne, antog, at en kirurg ville være asiatiske kun 2 procent af tiden, men dette steg til 10 procent med bøger fra 2010’erne.
Men fremskridt over tid var ikke universel. En AI fra 1950’erne havde et negativt overblik over Islam 22 procent af tiden, men denne steg skarpt til 48 procent med træningsdata i 2010’erne.
”Du kan finjustere hver af disse store sprogmodeller for at blive ekspert eller endda en tidskapsel, metaforisk, for hvert af disse udvalgte årtier med bøger,” siger Emami. ”De henter måske mønstre, som vi aldrig engang tænkte på os selv. Du interviewer en stor sprogmodel, der opfører sig som den generelle kollektive stemning i 50’erne og 60’erne og 70’erne. Vi får dybest set dataene til at tale tilbage til os. ”
Photini Vrikki på University College London siger, at forskningen bakker op i den bredt holdte tro på, at samfundet stort set er vokset mere liberalt gennem de sidste årtier. Men hun påpeger også, at bøgerne ikke kan male et omfattende billede af samfundet i hvert årti.
”Handler dette faktisk om bøgerne, eller handler det om forlagsbranchen, og hvordan forlagsindustrien valgte, hvilken slags bøger blev udgivet,” siger Vrikki. ”Jeg er sikker på, at homoseksuelle forfattere eksisterede. Jeg er sikker på, at folk ville tale mere om LGBTQ -problemer eller seksualiteter, men disse bøger blev ikke valgt til at blive offentliggjort. ”