[Перевод] Глубокое обучение в науке вредно без глубокой проверки фактов

Глубокое обучение гламурно и ажиотажно. Если обучить трансформер (современную языковую модель) на датасете из 22 миллионов ферментов, а затем использовать его для прогнозирования функции 450 неизвестных ферментов, то можно опубликовать свои результаты Nature Communications (уважаемом научном издании). Вашу статью прочитают 22 тысяч раз и она будет в верхних 5% из всех результатов исследований по оценке Altmetric (рейтингу внимания к онлайн-статьям). Однако если вы проделаете кропотливую работу по анализу чужой опубликованной работы и обнаружите, что она полна серьёзных ошибок, в том числе сотнями некорректных прогнозов, то можете опубликовать на bioRxiv препринт, который не получит и доли цитат и просмотров исходного исследования. На самом деле, именно это и произошло в случае двух статей: Functional annotation of enzyme-encoding genes using deep learning with transformer layers | Nature Communications Limitations of Current Machine-Learning Models in Predicting Enzymatic Functions for Uncharacterized Proteins | bioRxiv Эта пара статей о функциях ферментов стала прекрасным примером для изучения границ применения ИИ в биологии и неправильно расставленных акцентов в современной публикации результатов. В этом посте я расскажу о некоторых подробностях, однако призываю вас изучить статьи самостоятельно. Этот контраст станет ярким напоминанием о том, как сложно бывает оценить правдивость результатов ИИ без глубокого знания предметной области.

https://habr.com/ru/articles/917656/

#трансформеры #ферменты #биоинформатика #bert #энзимы

Глубокое обучение в науке вредно без глубокой проверки фактов

Глубокое обучение гламурно и ажиотажно. Если обучить трансформер (современную языковую модель) на датасете из 22 миллионов ферментов, а затем использовать его для прогнозирования функции 450...

Хабр

[Перевод] Патоген с дуба рухнул? Спорный препринт биоинформатического исследования, который не будет официально опубликован

Мы нашли некоторые биоинформатические свидетельства того, что фермент липоксигеназа и оксилипиновая сигнализация позволяют бактериям «перепрыгивать» между растениями и человеком. Чтобы подтвердить нашу гипотезу, я провел дата-исследование. Здесь я объясняю, почему я решил оставить эту статью официально неопубликованным препринтом. В 2020 году мы с соавторами опубликовали биоинформатическое исследование [1], целью которого было подтверждение статистической и филогенетической связи между липоксигеназами и возникновением многоклеточности. Мы не только нашли такую связь, но и обнаружили еще одну подгруппу видов - носителей липоксигеназ. Они отличались необычной экологической универсальностью, широким спектром хозяев, статусом «новых патогенов» и устойчивостью к противомикробным препаратам. Было очевидно, что эти бактерии заслуживают приоритета в дальнейшем анализе. Я рассказал о них в статье в журнале "Природа" [2] и начал вести «черный список патогенов», состоящий из липоксигеназо-положительных возбудителей заболеваний человека.

https://habr.com/ru/articles/876184/

#бактерии #оксилипины #растения #патогены #биоинформатика #графы #филогенетика #статистика #биохимия #медицина

Патоген с дуба рухнул? Спорный препринт биоинформатического исследования, который не будет официально опубликован

Мы нашли некоторые биоинформатические свидетельства того, что фермент липоксигеназа и оксилипиновая сигнализация позволяют бактериям «перепрыгивать» между растениями и человеком. Чтобы подтвердить...

Хабр

Транскриптомный анализ: как посчитать гены?

Вся информация о нас закодирована в ДНК. Но как она реализуется? Как при помощи анализа данных секвенирования ученые находят количественные соотношения между группами генов? Что такое транскриптомика? Давайте разберемся, как находят закономерности в экспрессии генов и построим красочные визуализации.

https://habr.com/ru/articles/874558/

#транскриптом #биоинформатика #анализ_данных #генетика #молекулярная_биология #код

Транскриптомный анализ: как посчитать гены?

Все знают, что наследственная информация закодирована в ДНК. Но мало кто задумывается о том, как эта информация реализуется внутри нас. Как информация с одних молекул передается на другие? Что...

Хабр

Как посчитать биологические данные и не уронить сервер и ноутбук?

Привет, Хабр Наверняка вы слышали о биоинформатике . Звучит перспективно, приятно и полезно. Часто, ввиду всеобщих рассказов о перспективности и возможностях направления, некоторые люди из IT или из «мокрой» биологии (так называют область биологии, где работают в лаборатории с бактериями и прочими возможными объектами живой и не очень природы и реагентами) хотят перейти в биоинформатику. Однако далеко не все понимают, что же это за область такая и почему с ней сложно работать.

https://habr.com/ru/companies/first/articles/866618/

#биология #гены #биоинформатика #алгоритмы_сортировки #биоинформатические_алгоритмы #алгоритмы

Как посчитать биологические данные и не уронить сервер и ноутбук?

Привет, Хабр Наверняка вы слышали о биоинформатике . Звучит перспективно, приятно и полезно. Часто, ввиду всеобщих рассказов о перспективности и возможностях направления, некоторые люди из IT или из...

Хабр

Как победить рецидив: путеводитель по полю битвы с онкологией

Итак, дорогие читатели! Сейчас я обучаюсь на 4 курсе (бакалавр) на программиста (направление: Информатика и вычислительная техника) в семестре столкнулся с очень интересным исследовательским проектом, связанным с биоинформатикой! Вместе с заказчиком мы ему дали научное название: "Снижение рисков развития рецидива злокачественного новообразования" и отправляем в долгое плавание! На примере проекта-исследования мы хотим рассказать: где искать медицинские данные? Какого это с ними работать? Как правильно подходить к исследовательской задаче и многое другое. Вы даже сами сможете повторить наши результаты, и я уверен, что у вас получится даже лучше. Что приходит на ум, когда слышите слово "рецидив"? Правильно, возвращение того, от чего вы уже вроде как избавились. Для заболевших пациентов это слово внушает тревогу, а в онкологии и вовсе звучит как зловещий колокол. Но не бойтесь: сегодня мы не только посмеемся над этим монстром, но и узнаем, как ему дать отпор. Спойлер: с помощью науки и чуточки аналитики.

https://habr.com/ru/articles/866206/

#биоинформатика #биоинженерия #биоинформатические_алгоритмы #биология #генная_инженерия #генная_терапия #генетика #онкология #рак #неизлечимые_болезни

Как победить рецидив: путеводитель по полю битвы с онкологией

Итак, дорогие читатели! Сейчас я обучаюсь на 4 курсе (бакалавр) на программиста (направление: Информатика и вычислительная техника) в семестре столкнулся с очень интересным исследовательским проектом,...

Хабр

Обзор недавно выпущенной модели Evo для анализа геномных данных

Давайте представим, что вы начинающий или опытный биоинформатик, или "простой смертный", который хочет углубиться в анализ биологических данных. Спойлер: биоинформатики тоже смертные! Зачастую, не у каждого хватает ценного времени на проверку огромных последовательностей геномных данных, будь то поиск различных мутаций или прогнозирование структуры белков на основе последовательности аминокислот. Но не переживайте, в этом вам поможет искусственный интеллект ! Да, тот самый ИИ, который чуть ли не через каждую минуту обещает изменить мир и избавить нас от всех проблем — от покупки продуктов до поиска идеальных генетических маркеров для рака. Так вот, давайте разберемся, как ИИ может помочь нам, бедным исследователям, быстро и эффективно работать с данными, которые, казалось бы, невозможно обработать, даже за целую жизнь.

https://habr.com/ru/articles/865024/

#биоинформатика #биология #биотехнологии #генетика #генетические_алгоритмы #модель_данных #машинное_обучение #машинное_обучение_нейросети_python #биотех #анализ_данных

Обзор недавно выпущенной модели Evo для анализа геномных данных

Давайте представим, что вы начинающий или опытный биоинформатик, или "простой смертный", который хочет углубиться в анализ биологических данных. Спойлер: биоинформатики тоже смертные! Зачастую, не у...

Хабр

Биоинформатика и Evo: как искусственный интеллект меняет подходы к анализу геномов

В современном мире каждый из нас сталкивается с генетикой, будь то медицинские анализы, CRISPR-дизайн или изучение наследственных признаков. Но что, если мы могли бы заглянуть глубже, понять тайные механизмы генов и даже создать новые последовательности ДНК, пригодные для науки и медицины? Это больше не фантазия, а реальность благодаря Evo — искусственной нейросети, которая переосмысливает подходы к анализу и проектированию геномов.

https://habr.com/ru/articles/864766/

#биоинформатика #биология #биотехнологии #биохакинг #машинное_обучение #анализ_данных #генетика #гены #днк #рнк

Биоинформатика и Evo: как искусственный интеллект меняет подходы к анализу геномов

В современном мире каждый из нас сталкивается с генетикой, будь то медицинские анализы, CRISPR-дизайн или изучение наследственных признаков. Но что, если мы могли бы заглянуть глубже, понять тайные...

Хабр

Когда «тихая» ДНК громче гена: как избыточная ДНК регулирует экспрессию, ничего не делая

Мир биоинформатики полон загадок: что такое избыточная ДНК, почему она занимает половину генома, и как это вообще работает? Кому-то может показаться, что некодирующая ДНК — это просто лишний "хлам", но на деле это, как если бы в вашем коде было полно комментариев, которые точно знают, как заставить ваш Python работать быстрее. Сегодня мы с вами разберёмся, как эта загадочная избыточная ДНК умудряется контролировать экспрессию генов, совершенно ничего не транскрибируя. А чтобы вы не скучали, покажу примерчик на Python. Ведь кто же мы без кода?

https://habr.com/ru/articles/863780/

#биоинформатика #биология #python #генетика #эпигенетика #днк #транскрипция #биотех #примеры_кода

Когда «тихая» ДНК громче гена: как избыточная ДНК регулирует экспрессию, ничего не делая

Мир биоинформатики полон загадок: что такое избыточная ДНК, почему она занимает половину генома, и как это вообще работает? Кому-то может показаться, что некодирующая ДНК — это просто лишний "хлам",...

Хабр

Нобелевская премия по микроРНК, оксилипины и биохимический плагиат

Будучи постоянным автором издания "Элементы" , недавно получил заказ на статью о Нобелевской премии за открытие микроРНК, вручённой этой осенью. Писал статью с особенным чувством — ведь в истории микроРНК есть параллели с моим биоинформатическим проектом по совсем другой тематике — но тоже связанным с происхождением многоклеточности. Дело в том, что значимость открытия микроРНК определяется не их медицинским применением (его так пока толком и не придумали). МикроРНК — это история про то, что делало и делает наш мир многоклеточным . Потому что у одноклеточных эукариот этих микроРНК — кот наплакал. Экспансия микроРНК в геноме, резкий рост их числа обычно совпадали с появлением многоклеточности — а таких случаев, как мои подписчики наверняка уже знают, было более 20 во всём живом мире. МикроРНК довольно мало меняются в ходе эволюции. И, хоть они короткие, методы биоинформатики вполне позволяют отследить их эволюцию. МикроРНК возникали не только на заре развития зелёных растений и животных. Ими обзаводились бурые водоросли. Их обретали разные группы слизевиков — с их-то простой агрегативной многоклеточностью, обречённой на эволюционный тупик в плане сложности! И каждый раз к идее микроРНК они приходили независимо. Конвергентно. Все многоклеточные эукариоты. Сам по себе этот факт удивляет и, видимо, он ещё ждёт своего детального объяснения. Да и вдумайтесь только — фактически, Нобелевка за микроРНК — это Нобелевка за механизмы многоклеточности. Но есть и другой удивительный факт. Похожий паттерн наблюдается в случае со многими сигнальными веществами, с помощью которых клетки общаются между собой. Например, у простагландинов и лейкотриенов — веществ, запускающих боль и воспаление в нашем организме — также есть аналоги почти у всех многоклеточных эукариот... и даже многоклеточных прокариот типа цианобактерий и миксобактерий. Если до микроРНК — по крайней мере, в их классическом воплощении — додумались только эукариоты, то до оксилипинов (так называется эта группа химических веществ) первыми, по-видимому, додумались ещё цианобактерии, когда опробовали первую в истории Земли многоклеточность. Это было примерно во время Кислородной катастрофы. Ну то есть парочку миллиардов лет назад.

https://habr.com/ru/articles/853636/

#микрорнк #оксилипины #многоклеточность #биоинформатика #эволюция

Нобелевская премия по микроРНК, оксилипины и биохимический плагиат

Будучи постоянным автором издания "Элементы" , недавно получил заказ на статью о Нобелевской премии за открытие микроРНК, вручённой этой осенью. Писал статью с особенным чувством — ведь в истории...

Хабр

Интегрируем pandas с электронными таблицами: три способа

Pandas идеально подходит для работы с табличными данными – он способен открывать файлы Excel и проводить внутри преобразования. Более того, сохранить датафрейм тоже можно в файл Excel. Это делает удобной интеграцию pandas с офисным пакетом: результаты можно сразу красиво оформить для выступления на конференции или передачи коллегам, которые занимаются только “мокрой” биологией и не работают с инструментами data science. Давайте посмотрим, как это делается. Если мы импортировали pandas под именем pd:

https://habr.com/ru/articles/836696/

#python #pandas #pandas_dataframe #excel #google_spreadsheets #csv #биоинформатика

Интегрируем pandas с электронными таблицами: три способа

Открываем и сохраняем файлы Excel в pandas Pandas идеально подходит для работы с табличными данными – он способен открывать файлы Excel и проводить внутри преобразования. Более того, сохранить...

Хабр