The Self-Serve Delusion

수년간 실패해온 셀프서브 분석(self-serve analytics)이 LLM 기반 AI 에이전트 도입으로 다시 주목받고 있다. Uber의 Finch, OpenAI의 내부 데이터 에이전트 등 자연어 질의로 SQL 쿼리를 생성해 분석 결과를 제공하는 사례가 늘고 있으며, Slack과 같은 익숙한 인터페이스를 활용해 비기술 사용자도 쉽게 접근 가능하다. 핵심은 데이터 컨텍스트 관리 시스템으로, 각 데이터 레이어별로 메타데이터와 비즈니스 규칙을 체계적으로 관리해 정확도와 응답 속도를 크게 개선한다. 완벽하지는 않지만, AI 기반 분석 에이전트가 셀프서브 분석의 오랜 난제를 해결할 가능성이 커지고 있다.

https://betterthanrandom.substack.com/p/the-self-serve-delusion

#selfserveanalytics #llm #dataagent #contextmanagement #sqlgeneration

The self-serve delusion

Until now?

Better than Random

OpenAI's Data Agent and the S3 Gap

OpenAI가 600PB 규모의 비정형 데이터(S3, GCS, Azure 등) 처리를 위해 구축한 데이터 에이전트 스택은 기존 구조화 데이터 웨어하우스와 달리 스키마, 데이터셋, 파일 참조, 계보(lineage)라는 네 가지 기본 요소를 새롭게 정의하고 구현했다. 특히, Pydantic을 활용해 파일 기반 데이터의 스키마를 코드로 표현하고, 파일 참조를 타입화하여 원본 바이트를 직접 가리키는 방식을 도입했다. 또한, 데이터셋을 이름과 버전으로 관리해 협업과 에이전트 활용을 용이하게 하는 점이 핵심이다. 이 접근법은 멀티모달 AI, 신경과학, 물리 AI 등 대규모 비정형 데이터 처리에 필수적인 인프라로 평가된다.

https://datachain.ai/blog/openai-data-agent-s3-gap

#openai #dataagent #objectstorage #pydantic #multimodal

OpenAI's Data Agent and the S3 Gap

OpenAI built their in-house data agent for structured warehouse data, where schema, lineage, and queries come for free. Files in S3, GCS, or Azure - videos, sensor logs, image corpora, PDFs - have none of that, and the problems get a lot more interesting. Here is how we built the four foundations that close the gap.

DataChain

Github Awesome (@GithubAwesome)

Agno가 Dash를 오픈소스로 공개했습니다. Dash는 자신이 범한 실수를 기억하는 데이터 에이전트로, OpenAI의 내부 데이터 툴에서 영감을 받았습니다. 대부분의 stateless text-to-SQL 도구들이 컬럼명 환각으로 실패하고 같은 오류를 반복하는 문제를 해결하기 위해 비즈니스 정의와 스키마 정보 등 문맥을 저장하여 재발을 줄이는 기능을 제공합니다.

https://x.com/GithubAwesome/status/2019255143393341556

#opensource #dataagent #texttosql #openai #ai

Github Awesome (@GithubAwesome) on X

Agno open-sourced Dash, a data agent that remembers its mistakes. Inspired by OpenAI's internal data tooling. Most text-to-SQL tools are stateless. They hallucinate a column name, crash, and make the same mistake tomorrow. Dash stores context—business definitions, schema info,

X (formerly Twitter)