AI wchodzi w ludzkie DNA. Evo 2 rozszyfruje tajemnice najbardziej skomplikowanych genomów

Pod koniec ubiegłego roku świat nauki żył premierą sztucznej inteligencji Evo, która potrafiła bezbłędnie analizować DNA bakterii i projektować dla nich nowe białka.

Sceptycy twierdzili, że system ten polegnie przy bardziej złożonych, ludzkich komórkach. Twórcy potraktowali to jednak jako wyzwanie. Właśnie udostępniono Evo 2 – potężny, otwartoźródłowy model AI wytrenowany na bilionach par zasad DNA wszystkich form życia.

Genetyka i sztuczna inteligencja to mariaż, który na naszych oczach zmienia medycynę i biologię. Zrozumienie zapisu DNA to jednak tylko połowa sukcesu. Prawdziwym wyzwaniem jest rozszyfrowanie, w jaki sposób z tego kodu powstają konkretne, funkcjonujące organizmy.

Dlaczego ludzkie DNA to koszmar dla algorytmów?

Pierwsza generacja modelu Evo odniosła sukces z prostej przyczyny: genomy bakterii są bardzo uporządkowane. Geny odpowiedzialne za pokrewne funkcje (np. trawienie konkretnego cukru) są zazwyczaj zgrupowane obok siebie i mają jeden, prosty układ sterujący. To sprawia, że są one stosunkowo łatwe do odczytania.

W przypadku tzw. eukariontów (czyli organizmów o komórkach zawierających jądro – od drożdży aż po człowieka) sprawa się komplikuje. Nasze geny są przerywane przez tzw. introny (fragmenty kodu, które niczego nie kodują), a ich systemy regulacyjne mogą być rozsiane po całym łańcuchu DNA, w setkach tysięcy par zasad stąd. Co gorsza, ogromna część ludzkiego genomu to tzw. „śmieciowe DNA” – nieaktywne wirusy i uszkodzone geny, które potęgują chaos informacyjny.

Wychwycenie wzorców w tym gąszczu, nawet przy użyciu specjalistycznego oprogramowania bioinformatycznego, jest obarczone dużym ryzykiem błędu (pamiętajmy, że ludzki genom to 3 miliardy par zasad!). I właśnie tutaj do gry wchodzą ogromne sieci neuronowe.

Trening na 8 bilionach znaków życia

Podstawą systemu Evo 2 jest sieć neuronowa o nazwie StripedHyena 2. Twórcy przeprowadzili jej dwuetapowy trening. Najpierw uczono ją rozpoznawania kluczowych cech na krótkich, 8-tysięcznych fragmentach, a następnie „karmiono” ją sekwencjami długimi na milion zasad, aby mogła dostrzec makro-wzorce.

Do szkolenia wykorzystano bazę OpenGenome2, zawierającą aż 8,8 biliona zasad DNA pochodzących ze wszystkich trzech domen życia (bakterii, archeonów i eukariontów). Co ważne, z powodów bezpieczeństwa badacze wykluczyli z bazy wirusy atakujące ludzi – istniała bowiem obawa, że system mógłby zostać wykorzystany do zaprojektowania nowych, groźnych patogenów.

Finalnie powstały dwie wersje modelu: mniejsza z 7 miliardami parametrów oraz potężna, flagowa wersja posiadająca aż 40 miliardów parametrów.

AI znajduje raka i rozpoznaje intruzy

Możliwości nowej sztucznej inteligencji są imponujące. Badacze udowodnili, że model potrafi bezbłędnie zlokalizować błędy i mutacje, nawet jeśli badacze zmienili tylko jedną, pojedynczą zasadę w całym łańcuchu. Evo 2 ocenia również wagę problemu – potrafi określić, czy dana mutacja jest nieszkodliwa, czy też drastycznie przerwie proces tworzenia białka.

W niektórych testach model przebijał dokładnością specjalistyczne oprogramowanie – świetnie radził sobie na przykład z analizą mutacji w genie BRCA2 (których obecność jest ściśle powiązana z ryzykiem wystąpienia raka piersi). System potrafił również samodzielnie zidentyfikować „pasożyty” na poziomie DNA (mobilne elementy genetyczne). Co najważniejsze – cały proces odbywa się bez utraty wydajności w analizie prostszych, bakteryjnych komórek.

Cały projekt Evo 2 (w tym parametry modelu, kod uczący oraz potężna baza danych OpenGenome2) został w pełni otwarty dla społeczności naukowej (Open Source). Badacze mają nadzieję, że udostępnienie tego potężnego narzędzia pozwoli w niedalekiej przyszłości nie tylko analizować komórki nowotworowe, ale być może również odkryć w naszym genomie funkcje i procesy, o których istnieniu do tej pory nie mieliśmy pojęcia.

Sztuczna inteligencja przyczyniła się do samobójstwa? Rodzina pozywa Google za działanie Gemini

#AIWGenetyce #analizaGenomuAI #bioinformatyka #Evo2ModelDNA #genBRCA2 #mutacjeDNA #OpenGenome2 #sekwencjonowanieDNA #sieciNeuronoweWBiologii #sztucznaInteligencjaWMedycynie
Introducing Evo 2, a predictive and generative genomic AI for all domains of life

Researchers at the Arc Institute, Stanford University, and NVIDIA have developed Evo 2, an advanced AI model capable of predicting genetic variations and generating genomic sequences across all domains of life.

Phys.org