Michael Stonebraker was right about CODASYL. Right about NoSQL. Now he's run text-to-SQL on a real enterprise warehouse and got 10% accuracy against an 80% benchmark.

The pattern is hard to ignore.

https://blog.reccehq.com/benchmarks-lie-what-a-turing-award-winner-found-when-he-tested-text-to-sql-on-real-data

#DataEngineering #TextToSQL #AI

Benchmarks Lie: What a Turing Award Winner Found When He Tested Text-to-SQL on Real Data

Text-to-SQL benchmarks show 80% accuracy. A Turing Award winner tested the same models on a real 1,400-table warehouse and got 10%. Here is why.

「自然言語からSQL」、精度100%の魔法はない。だから「運用」の話をしよう - Qiita

はじめに 自然言語からのSQL生成(以下NL2SQLと呼びます)について精度検証を日々支援する中で「そもそも話」をする機会は後回しになりやすいのではないでしょうか。そこで整理してみました。なおこの記事は、以下の記事にインスピレーションを受けています。 Qiita記事:自...

Qiita

Akshay (@akshay_pachaar)

오픈소스 기반의 Text-to-SQL 솔루션이 실제로 잘 작동한다고 소개하는 트윗입니다. 많은 경우 Text-to-SQL 실패 원인을 LLM이나 프롬프트 탓으로 돌리지만, 근본 원인은 데이터베이스 스키마 설계인 경우가 많다고 지적하며 스키마 중심 접근으로 정확한 SQL 질의 생성이 가능함을 설명합니다.

https://x.com/akshay_pachaar/status/2028463999474659622

#texttosql #opensource #nlp #llm #sql

Akshay 🚀 (@akshay_pachaar) on X

Finally! A Text-to-SQL solution that actually works! (and it's open-source) When Text-to-SQL doesn’t work, we often blame the LLM or poor prompt engineering. But the real issue is usually the schema. Let me explain: You ask: “Which publishers have received royalty payments

X (formerly Twitter)

Github Awesome (@GithubAwesome)

Agno가 Dash를 오픈소스로 공개했습니다. Dash는 자신이 범한 실수를 기억하는 데이터 에이전트로, OpenAI의 내부 데이터 툴에서 영감을 받았습니다. 대부분의 stateless text-to-SQL 도구들이 컬럼명 환각으로 실패하고 같은 오류를 반복하는 문제를 해결하기 위해 비즈니스 정의와 스키마 정보 등 문맥을 저장하여 재발을 줄이는 기능을 제공합니다.

https://x.com/GithubAwesome/status/2019255143393341556

#opensource #dataagent #texttosql #openai #ai

Github Awesome (@GithubAwesome) on X

Agno open-sourced Dash, a data agent that remembers its mistakes. Inspired by OpenAI's internal data tooling. Most text-to-SQL tools are stateless. They hallucinate a column name, crash, and make the same mistake tomorrow. Dash stores context—business definitions, schema info,

X (formerly Twitter)

Как я заменил BI-дашборд на AI-чат: архитектура RAG-системы для 600K записей

После 10 лет внедрения BI-систем (Qlik Sense, Power BI, Data Lens) я понял одну вещь: дашборд — это не решение. Это данные для решения. А между данными и решением — пропасть, которую преодолевает человек. В этой статье покажу, как построил RAG-систему с чат-интерфейсом для базы из 600 000 записей техники из Федресурса. Без философии — только архитектура, код и грабли.

https://habr.com/ru/articles/984162/

#RAG #LLM #texttoSQL #Claude_API #Qdrant #PostgreSQL #чатбот #embeddings #NLP #FastAPI

Как я заменил BI-дашборд на AI-чат: архитектура RAG-системы для 600K записей

После 10 лет внедрения BI-систем (Qlik Sense, Power BI, Data Lens) я понял одну вещь: дашборд — это не решение. Это данные для решения. А между данными и решением — пропасть, которую преодолевает...

Хабр

Когда ИИ не понимает бизнес-контексты

Сегодня многие компании внедряют ИИ‑ассистентов, которые автоматически пишут SQL‑запросы и помогают менеджерам готовить отчеты. На первый взгляд они отлично справляются с цифрами и синтаксисом, но теряются, когда дело доходит до бизнес-контекста. Почему? Потому что бизнес живет не только данными, но и контекстом: историей компании, внутренними правилами, неформальными договоренностями, культурой. В результате ИИ превращается в «умное автодополнение», а не в стратегический инструмент. В этой статье разберем, что именно мешает алгоритмам учитывать бизнес‑контекст и какие инженерные подходы помогают превратить статистического помощника в полноценного участника управленческих процессов.

https://habr.com/ru/companies/beget/articles/980974/

#llm #texttosql #бизнесметрики #dbt #biсистемы #rag #контекстная_память #бизнеслогика

Когда ИИ не понимает бизнес-контексты

Фотография Сары Пфлуг из Burst. Сегодня многие компании внедряют ИИ‑ассистентов, которые автоматически пишут SQL‑запросы и помогают менеджерам готовить отчеты. На первый взгляд они отлично справляются...

Хабр

Anthropic-Snowflake 2,800억원 파트너십의 진짜 의미

Anthropic과 Snowflake의 2,800억원 파트너십. 90% 정확도 AI 에이전트가 12,600개 기업 환경에서 실전 배치되는 의미를 분석합니다.

https://aisparkup.com/posts/7223

Also, if you know of a good #TextToSQL package in #Node (#Javascript/#Typescript), can you let me know? :)

I'm on the hunt for a #TextToSql package for #Node. That is, an #npm package that takes an #SQL database, analyzes its structure, and can then transform natural language input into a query, run it, and bring me back the results.

Although it's #Python and so not relevant for me, I've found a very impressive solution in the form of VannaAI (https://github.com/vanna-ai/vanna).

Their core is available in PyPI under MIT and the code looks clean and shin!

Топ LLM для задач text‑to‑SQL: результаты теста DeepSeek R1-0528, Gemini 2.5 Pro, o3 (и ещё трёх моделей)

В первой части мы разобрали теорию text‑to‑SQL: как LLM заменяют разработчиков, почему RAG и CoT спасают от галлюцинаций и зачем Scale AI дообучает ChatGPT-4. Но теория неполна без практики! В этом материале — жёсткое тестирование моделей (ChatGPT o3-mini‑high, ChatGPT 4.1, Claude Sonnet 4, ChatGPT o3, Gemini 2.5 Pro, DeepSeek R1–0528) на бенчмарке LiveSQLBench. 6 моделей, 10 задач, сложность от ★★ до ★★★★★★★★★★. Проверим, как они считают лунные помехи, генерируют SQL для криптобирж и ищут артефакты в музеях.

https://habr.com/ru/companies/bothub/articles/925712/

#texttosql #nl2sql #бенчмарк #chatgpt_o3minihigh #chatgpt_41 #claude_sonnet_4 #chatgpt_o3 #gemini_25_pro #deepseek_r10528

Топ LLM для задач text‑to‑SQL: результаты теста DeepSeek R1-0528, Gemini 2.5 Pro, o3 (и ещё трёх моделей)

В первой части мы разобрали теорию text‑to‑SQL: как LLM заменяют разработчиков, почему RAG и CoT спасают от галлюцинаций и зачем Scale AI дообучает ChatGPT-4. Но теория неполна...

Хабр