Et britisk bioteknologisk firma brugte år på at indsamle genetiske data, der har afsløret 1 million tidligere ukendte mikrobielle arter og milliarder af nyligt identificerede gener – men selv denne trove af data er muligvis ikke nok til at træne en AI -biolog

Basecamp -forskere indsamler genetiske data på Malta
Et britisk biotek -firma kaldet Basecamp Research har brugt de sidste par år på at indsamle troves af genetiske data fra mikrober, der lever i ekstreme miljøer rundt om i verden, idet de identificerede mere end en million arter og næsten 10 milliarder gener, der er nye inden for videnskab. Den hævder, at denne massive database over planetens biodiversitet vil hjælpe med at træne et “chatgpt af biologi”, der vil besvare spørgsmål om livet på jorden – men der er ingen garanti for, at dette vil fungere.
Jörg Overmann ved Leibniz Institute DSMZ i Tyskland, der huser en af verdens mest forskellige samlinger af mikrobielle kulturer, siger stigende kendte genetiske sekvenser er værdifulde, men muligvis ikke resulterer i nyttige fund til ting som lægemiddelopdagelse eller kemi uden mere information om de organismer, hvorfra de blev samlet. ”Jeg er ikke overbevist om, at forståelsen af virkelig nye funktioner til sidst vil blive fremskyndet af denne brute-force-stigning i sekvensrummet,” siger han.
I de seneste år har forskere udvikle en række maskinlæringsmodeller, der er uddannet til at identificere mønstre og forudsige forhold midt i store mængder biologiske data. Den mest berømte af disse er Alphafold, som kan forudsige 3D -strukturen af et protein, der kun er baseret på genetiske data, og tjente sine skabere hos Google Deepmind 2024 Nobelprisen i kemi.
Mens sådanne “generative biologi” -modeller er vokset stadig mere komplekse siden, er de ikke blevet meget bedre, siger Frances Ding på University of California, Berkeley. En af grundene kan være en mangel på biodiverse -data. ”Aktuelle modeller i biologi trænes på datasæt, der uforholdsmæssigt repræsenterer godt studerede arter (f.eks. E. colimus, mennesker), og disse modeller er værre til at forudsige egenskaber omkring sekvenser fra andre dele af livets træ, ”siger hun.
Forskere ved Basecamp begyndte at tackle dette biodiversitetsgap. Virksomhedens voksende database indeholder nu prøver fra mere end 120 steder i 26 lande, ifølge en rapport, som virksomheden har sendt. Jonathan Finn, selskabets chefvidenskabsansvarlig, siger, at indsamlingsindsatsen fokuserede på ekstreme miljøer, der endnu ikke var blevet udtaget i vid udstrækning, lige fra det frise vand under arktisk havis til Jungle Hot Springs. ”De fleste af de prøver, vi har gået efter, er prokaryote prøver: bakterier, mikrober og deres vira,” siger Finn. ”Jeg ved, at vi har nogle svampe derinde.”
Genetisk analyse af disse prøver afslørede forskelle i gener, der delte næsten universelt på tværs af livstræet – baseret på dette estimerer virksomheden, at dataene indeholder oplysninger fra mere end 1 million arter, der ikke forekommer i offentlige genomiske datasæt, der bruges til at uddanne AI -biologimodeller. Disse indeholder kollektivt omkring 9,8 milliarder nyligt identificerede gener, en 10 gange stigning i det samlede antal kendte gener, som hver koder for et potentielt nyttigt protein, siger forskerne.
”Ved at vise disse modeller et stort stykke natur, bør de have en bedre forståelse af, hvordan biologi fungerer,” siger Finn. ”Vi prøver at opbygge en chatgpt biologi.”
Efter nogle estimater er Earth er vært for så mange som en billion mikrobiel art, hvoraf næsten ingen er godt karakteriseret. Så det er ikke enormt overraskende, at virksomheden identificerede så meget nyt liv. ”Det er næsten uundgåeligt, at hvis du udforsker mere, får du flere forskellige genvarianter,” siger Leopold -dele på Wellcome Sanger Institute, UK.
Men Basecamp banker på ideen om, at alt det nye materiale kunne være værdifuldt – og det er ikke alene. ”Dette er en af de mest spændende ting, jeg har set i lang tid,” siger Nathan Frey, en forsker i Machine Learning hos Genentech, et bioteknologi i USA. Generelt siger han, at arbejde på AI -modeller til biologi har fokuseret på at forbedre algoritmer eller generere flere data i laboratorier snarere end faktisk at gå ud i verden og indsamle prøver.
Der er dog grund til at være skeptisk for, at databasen vil føre til de radikalt forbedrede modeller, som virksomheden ønsker. For det første forbliver det uklart, i hvilken udstrækning denne nye mangfoldighed af proteiner repræsenterer værdifulde nye funktioner, såsom plastspisende enzymer eller proteiner, der kan genanvendes til genredigering. ”De er nødt til at vise, at denne nyhed er nyttig på en eller anden måde,” siger dele.
Yderligere, hvis de nye gener virkelig er væsentligt forskellige fra dem, vi allerede kender, ser Overmann ikke, hvordan eksisterende værktøjer let kan forudsige deres funktioner, eller hvordan dataene kan bruges til træning af en ny model. ”Du har ikke nogen anelse om, hvad størstedelen af generne gør,” siger han. Virksomheden kunne godt have samlet en skattekiste af ny biologi, men uden mere gammeldags laboratoriearbejde for at forstå, hvad der er der, kan det forblive mystisk, selv til den mest magtfulde AI.