Da AI-udviklere høster Wikipedia-indhold for at træne deres modeller, kører den resulterende stigning i automatiseret trafik omkostningerne til den non-profit, der kører de populære crowdsourced encyklopædi

Wikipedia er truet af AI -boom
Wikipedia er en af de største videnressourcer, der nogensinde er samlet, der indeholder crowddsourced bidrag fra millioner af mennesker over hele verden – og det står over for en voksende trussel fra kunstige intelligensudviklere.
Non-profit Wikimedia Foundation, der driver Wikipedia, siger siden januar 2024, at den har set en stigning på 50 procent i netværkstrafik, der anmoder om billed- og video-downloads fra dets katalog. Denne bølge stammer for det meste fra automatiserede datakraberprogrammer, som udviklere bruger til at indsamle træningsdata til deres AI -modeller. Denne hidtil uset stigning i internettrafik betyder, at Wikimedia skal brænde gennem flere penge for at tjene Wikipedia -sider og andet indhold fra dets lejede datacentre.
”Der har været forskellige rapporter om andre indholdssteder, der lider på samme måde, men når nogen er så synlige og så kritisk vigtige som Wikimedia bliver offentlig med en sådan erklæring, er folk opmærksomme,” siger Elena Simperl ved King’s College London. ”Det spørgsmål, de diskuterer, er meget, meget bekymrende, og jeg taler som videnskabsmand, der har arbejdet i AI og i ansvarlig AI (forskning) i mere end 15 år.”
Fonden siger, at 65 procent af sin dyreste internettrafik stammer fra data, der skraber bots. De anmoder ofte om mindre populære artikler, og disse forespørgsler skal rejse hele vejen til et centralt datacenter i stedet for at være i stand til at bruge cacher fra mere populære artikler, der er gemt i lokale datacentre.
”Denne høje anvendelse forårsager også konstant forstyrrelse for vores team på webstedets pålidelighed, der skal blokere overvældende trafik fra sådanne crawlere, før det forårsager problemer for vores læsere,” skrev Wikimedia Foundation i sit blogindlæg.
Birgit Müller, produktdirektør ved Wikimedia Foundation, fortalte Ny videnskabsmand Organisationen “ser på måder at styre bottrafik på” og beder også kommercielle brugere som AI -udviklere “om direkte at støtte bæredygtigheden af Wikimedia -projekterne”.
”En ting, der ofte overses for offentligt indhold eller åbent licenseret indhold, er, at indholdet er gratis at få adgang til, men infrastrukturen er ikke fri til at køre,” siger Simperl. ”Infrastrukturen koster en masse penge, og de ressourcer og de mennesker, der kræves for at køre det, skal komme fra et eller andet sted.”
Wikimedia Foundation har offentliggjort udkast til planer for at identificere udviklerne bag data, der skraber bots, med det mål at reducere automatiseret trafik fra skrabere med 30 procent med hensyn til båndbredde.
Wikimedia står også over for direkte konkurrence fra AI -chatbots, der kan svare på spørgsmål om forskellige emner – selvom AI -svarene ikke altid er faktiske. Selvom Wikimedia-websteder ikke har set dråber i trafik, der direkte kan henføres til de nylige AI-udviklinger, udtrykte Müller bekymring for, hvordan AI-tjenester, der “bruger Wikimedia-indhold til at give hurtige maskine-genererede resume og svar”, giver typisk ikke ordentlige citater og “blokerer veje for folk at få adgang til de originale kilder til information”.
Flere undersøgelser har endda fundet tegn på, at AI-genereret indhold kan krybe ind i Wikipedia-poster. Men Wikimedia Foundation er ikke nødvendigvis imod denne teknologi. Den bruger allerede AI -værktøjer til at hjælpe menneskelige redaktører med at opdage vandalisme af Wikipedia -websteder, forudsige artikelkvalitet, måle artikellæsbarhed og foreslå redigeringer.