Как мы сломали индекс обитаемости экзопланет: Парадокс ESI, Physics-Informed ML и 9600 фейковых «Земель»

В прошлой нашей статье мы рассказывали, как написали программу ExoLogica AI для анализа экзопланет. В комментариях Senior Data Scientist'ы справедливо разнесли нас за то, что наша нейросеть ничего не знала об уравнении состояния вещества (не хватало inductive bias ). Мы признали критику, ушли переписывать архитектуру и внедрили полноценный Physics-Informed ML. Но когда мы запустили гибридную модель v2.0, мы обнаружили нечто пугающее. Оказалось, что главный астрономический Индекс Подобия Земле (ESI) систематически лжет . Рассказываем, как мы открыли «Парадокс ESI», ввели собственный индекс физической реализуемости (PRI) и математически доказали, что 71% так называемых «вторых Земель» — это просто куски раскаленного чугуна. И о том, как пара строк кода на Python сократила каталог из 9600 планет до 37 реальных миров, утерев нос популярным спискам обсерваторий.

https://habr.com/ru/articles/1016666/

#экзопланеты #машинное_обучение #астрофизика #jwst #анализ_данных #xgboost #nasa #физика

Как мы сломали индекс обитаемости экзопланет: Парадокс ESI, Physics-Informed ML и 9600 фейковых «Земель»

В прошлой нашей статье мы рассказывали, как написали программу ExoLogica AI для анализа экзопланет, и неосторожно бросили фразу: «Машинное обучение без законов физики — это просто генератор случайных...

Хабр

Космос из школьного кабинета: Как мы научили ИИ законам Кеплера после «разноса» от ученых

Существует стереотип, что современная наука об экзопланетах — это прерогатива NASA и ученых с миллионными грантами. Мы — команда обычных школьников и наш наставник — решили доказать, что для открытия новых миров достаточно ноутбука, Python и понимания того, что Машинное Обучение (ML) без физики — это просто генератор случайных чисел. Это история проекта ExoLogica AI : путь от сокрушительного провала на конференции до создания гибридного интеллекта, который видит то, что иногда пропускают профессиональные телескопы.

https://habr.com/ru/articles/1016416/

#экзопланеты #Астрофизика #машинное_обучение #Python #XGBoost #ExoLogica_AI #Kepler #NASA #KOI4878_b_масса #KOI4878_b

Космос из школьного кабинета: Как мы научили ИИ законам Кеплера после «разноса» от ученых

Существует стереотип, что современная наука об экзопланетах — это прерогатива NASA, ESA и ученых с миллионными грантами. Мы — команда обычных школьников и наш наставник — решили доказать, что для...

Хабр

How I Built a Machine Learning Tool to Predict Drug Manufacturing Failures

A bioprocess engineer's journey into machine learning and why the pharmaceutical industry desperately needs this bridge When I tell people I work in bioprocess engineering, I usually get blank stares. When I explain that I help manufacture proteins in giant tanks for therapeutic use, the response is often: "Oh, like brewing beer?" Not quite. But close enough. What I don't usually mention is that I've been teaching myself machine learning on nights and weekends. Not because it's trendy, but […]

https://kemal.yaylali.uk/from-bioreactors-to-ai-how-i-built-a-machine-learning-tool-to-predict-drug-manufacturing-failures/

How I Built a Machine Learning Tool to Predict Drug Manufacturing Failures – Kemal's

Improving Forest Loss Mapping In Nepal Using Landtrendr Time-Series And Machine Learning
--
https://doi.org/10.1016/j.rsase.2025.101864 <-- share paper
--
“HIGHLIGHTS:
• ViT-based forest mask, multispectral ensemble LandTrendr and terrain shadow mask.
• District-level RF/XGBoost model training with expert-weighted validation.
• Outperformed GFC and REDD + AI benchmarks in accuracy and F1 performance.
• RF excelled in High Mountains/Himalayas; XGBoost in the lower Mountain regions.
• NBR contributed the most; snow-impacted forest loss uncertainty was observed..."
#Forestdisturbance #forest #disturbance #remotesensing #LandTrendr #workflow #timeseries #ViT #RF #XGBoost #GEE #Nepal #ForestNepal #spatial #GIS #mapping #earthobservation #landsat #Himalayas #mountains #alpine #vegetation #AI #multispectral #monitoring #spatialanalysis #spatiotemporal #loss #change #machinelearning #NDR #conservation #planning #policy #mitagion #ecology #Karnali #Bagmati, #Darchula #Siwalik #GlobalForestChange #Degradation

Quan Nguyen (@qnguyen3)

mlx-boosting은 MLX를 활용해 Gradient Boost Tree 및 XGBoost의 학습·예측을 가속화하는 라이브러리로, Apple M3 Max 환경에서 scikit-learn 대비 최대 3.5배 빠른 성능을 제공한다고 보고했습니다. pip로 설치(uv pip install mlx-boosting)하여 바로 사용해볼 수 있다고 안내합니다.

https://x.com/qnguyen3/status/2009272804324073643

#mlx #xgboost #acceleration #performance

Quan Nguyen (@qnguyen3) on X

A fun project I did yesterday, mlx-boosting. Leveraging MLX to train and predict with Gradient Boost Tree, XGBoost, up to 3.5x faster when compared to scikit-learn on M3 Max. Get Started: uv pip install mlx-boosting

X (formerly Twitter)
I wonder... #xgboost + #neat
#XGBOOST is fun

Борьба с дисбалансом классов. Ансамблевые и комбинированные методы

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это четвертая часть цикла о борьбе с дисбалансом классов. Предыдущие статьи: - В первой статье мы рассказали про суть проблемы дисбаланса классов и стандартные методы борьбы с ним; - Во второй статье обсуждались методы undersampling - удаление данных из распространенного класса; - В третьей статье рассматривались методы oversampling - генерация примеров редкого класса. В данной части мы рассмотрим комбинированные и ансамблевые методы библиотеки Imbalanced Learn .

https://habr.com/ru/companies/kozhindev/articles/975626/

#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #oversampling #баланс_классов

Борьба с дисбалансом классов. Ансамблевые и комбинированные методы

Введение Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Данная статья является четвертой частью цикла статей о борьбе с дисбалансом классов. Предыдущие статьи: В первой статье...

Хабр

Борьба с дисбалансом классов. Oversampling

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это третья статья в цикле публикаций по теме борьбы с проблемой дисбаланса классов в машинном обучении. В первой статье мы обсудили актуальность данной проблемы в машинном обучении, а также сравнили методы борьбы с ним, без внесения изменений в сами данные: изменение весов классов и порога принятия решения моделью. Во второй статье мы сравнивали undersampling-методы, которые удаляли представителей частого класса. В данной части мы протестируем методы балансировки данных методом oversampling из библиотеки imblearn . Суть данного метода заключается в том, что мы пытаемся бороться с дисбалансом классов генерируя данные для редкого класса. Мы рассмотрим разные способы генерации таких данных и протестируем их на синтетических данных.

https://habr.com/ru/companies/kozhindev/articles/968714/

#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #oversampling #баланс_классов

Борьба с дисбалансом классов. Oversampling

Введение Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это третья статья в цикле публикаций по теме борьбы с проблемой дисбаланса классов в машинном обучении. В первой статье...

Хабр

XGBoost альтернатива CatBoost для работы с категориальными данными???

Новый категориальный ре-кодер в XGBoost обещает избавить нас от рутины ручного кодирования и опередит CatBoost по качеству работы с категориальными данными?

https://habr.com/ru/articles/965382/

#xgboost #catboost #boosting #категориальные_данные #категориальные_признаки #сырые_данные

XGBoost альтернатива CatBoost для работы с категориальными данными???

Кратко: 22 сентября 2025г. вышла версия 3.10 XGBoost. Основной фишкой новой версии стал "категориальный ре-кодер( categorical re-coder )". Он сохраняет категории в модели и так же может перекодировать...

Хабр