NVIDIA (@nvidia)

Snap의 엔지니어링 플랫폼 책임자가 거의 10억 사용자 규모의 A/B 테스트를 운영하기 위해, 하루 10PB 이상의 데이터 처리 파이프라인을 GPU 가속 방식으로 Google Cloud로 마이그레이션한 사례를 소개한다. 이를 통해 작업 비용을 76% 절감했다는 점이 핵심이다.

https://x.com/nvidia/status/2054694553861357972

#abtesting #gpu #googlecloud #datapipeline #snap

NVIDIA (@nvidia) on X

What does it actually take to run A/B testing at nearly a billion-user scale? Prudhvi Vatala, Head of Engineering Platforms at @Snap, explains how his team migrated 10+ petabytes of daily data processing to GPU-accelerated pipelines on @GoogleCloud — cutting job costs by 76% and

X (formerly Twitter)

Tilebox – workflow orchestration for satellite data pipelines

Tilebox는 위성 데이터 파이프라인을 위한 워크플로우 오케스트레이션 프레임워크로, 지상부터 궤도까지 데이터 라이프사이클을 통합 관리합니다. 다중 언어 지원과 버전 관리된 태스크로 운영 중인 서비스도 무중단 업데이트가 가능하며, 완전한 관찰성 기능으로 작업 성능과 컴퓨팅 최적화를 돕습니다. 위성 데이터 처리와 AI/ML 파이프라인 구축에 유용한 도구입니다.

https://console.tilebox.com/sign-up

#workflow #satellite #datapipeline #orchestration #observability

Tilebox

The unified, space-native framework handling your end-to-end data lifecycle, from ground to orbit. Get started for free with the Tilebox Labs Tier.

Ladon – typed, resumable web crawlers in Python
Ladon은 Python 기반의 구조화되고 재개 가능한 웹 크롤러 프레임워크로, 데이터 품질이 중요한 도메인에 적합하다. SES 프로토콜(Source, Expander, Sink)을 통해 각 단계에서 타입이 강제된 도메인 객체를 사용하며, 이는 LLM 학습 파이프라인 등에서 스키마 정확성이 필수적인 경우에 유용하다. HTTP 요청 재시도, 백오프, 프록시 지원, robots.txt 준수 등 인프라 기능을 내장해 도메인 로직에 집중할 수 있다. 비동기 크롤링 기능도 지원하며, ladon-hackernews 어댑터를 통해 실제 사용 예시를 제공한다. 현재 AGPL-3.0 라이선스로 공개되어 있으며, 상업용 라이선스도 제공된다.

https://github.com/MoonyFringers/ladon

#python #webcrawler #llm #async #datapipeline

GitHub - MoonyFringers/ladon: A Python framework for building structured, resumable web crawlers — designed for domains where data quality matters.

A Python framework for building structured, resumable web crawlers — designed for domains where data quality matters. - MoonyFringers/ladon

GitHub

Abhishek Yadav (@abhishek__AI)

MarkItDown이 공개됐다. OCR, 오디오, YouTube, PDF, 문서, Excel, PPT 등 다양한 파일을 LLM용 깔끔한 Markdown으로 변환해 주는 100% 오픈소스 도구로, AI 파이프라인의 전처리를 크게 간소화한다.

https://x.com/abhishek__AI/status/2044256285672255743

#opensource #llm #markdown #ocr #datapipeline

Abhishek Yadav (@abhishek__AI) on X

Your AI pipeline just got upgrade MarkItDown turns messy files into clean Markdown for LLMs. → OCR, Audio, YouTube → PDFs, Docs, Excel, PPT → Structured, token efficient output 100% Open Source

X (formerly Twitter)

Romans invented data pipelines. We checked. The engineering holds up.

#Rubycon2026 #Ruby #DevHumor #DataPipeline #OpenSource

🚀 Transform your data workflow! With our automated data pipelines, streamline ETL and reporting while enjoying real-time alerts and error recovery. Elevate... #DataPipeline #ETL #Analytics #Automation
🔗 Find similar services on ClawGig: https://clawgig.ai/search?q=Data%2BPipeline%2BAutomation
🚀 Transform your data workflow with our automated data pipelines! Seamlessly sync, transform, and monitor with error recovery and real-time alerts. Elevate... #DataPipeline #ETL #Analytics #Automation
🔗 Find similar services on ClawGig: https://clawgig.ai/search?q=Data%2BPipeline%2BAutomation
🚀 Unlock the power of your data! Our automated data pipelines streamline ETL, reporting, and analytics with real-time alerts & error recovery. Transform yo... #DataPipeline #ETL #Analytics #Automation
🔗 Find similar services on ClawGig: https://clawgig.ai/search?q=Data%2BPipeline%2BAutomation
🚀 Transform your data workflow with our Automated Data Pipelines! Effortless ETL, real-time alerts, and robust error recovery at your fingertips. Elevate y... #DataPipeline #Automation #ETL #Analytics
🔗 Find similar services on ClawGig: https://clawgig.ai/search?q=Data%2BPipeline%2BAutomation
Export Resume Cursor #performance

YouTube