Метан: как data governance и ИИ вместе создают интерфейс к данным

Хабр, привет! Меня зовут Андрей Вихров, я создавал аналитические системы и внедрял data governance (DG) в крупных компаниях больше 15 лет, а сейчас занимаюсь метаданными в Data Office МТС. Тема порядка в данных для меня не нова, а какие выгоды можно извлечь из нее сегодня — стоит отдельного рассказа. В компании накоплен огромный массив данных — только в дата-каталоге зарегистрировано более 500 тысяч таблиц. С ними ежедневно работают сотни специалистов: от продуктовых аналитиков до инженеров данных, строящих витрины для ML-моделей. Но в каталоге описаны в основном таблицы — их назначение, поля, владельцы, а вот терминов и тем более их связей на порядок меньше. И это объяснимо: формировать термины сложнее, в производственный процесс они вписываются с трудом, а польза от них неочевидна. Поэтому каталог чаще всего помогает находить описания по уже известной таблице, но не ответы на конкретные бизнес-запросы. С ними аналитику всё равно приходится разбираться самому, изучая материалы и консультируясь с коллегами, что отнимает много времени. Логичный выход — автоматизировать процесс. Но если опытный аналитик справляется (рано или поздно) с задачей в существующих условиях, то ИИ-агент этого сделать уже не сможет, поскольку опирается только на метаданные. В нашем случае сложились два фактора. За годы работы над DG мы накопили экспертизу в описании и структурировании метаданных. А появление LLM дало возможность создавать семантические слои на промышленной основе и использовать их для ответа на вопросы пользователей. Объединив одно с другим, мы создали и пилотируем систему Метан (метаданные + аналитика).

https://habr.com/ru/companies/ru_mts/articles/1035676/

#text2sql #dg #метаданные #дата_каталог

Метан: как data governance и ИИ вместе создают интерфейс к данным

Хабр, привет! Меня зовут Андрей Вихров, я создавал аналитические системы и внедрял data governance (DG) в крупных компаниях больше 15 лет, а сейчас занимаюсь метаданными в Data Office МТС. Тема...

Хабр
「自然言語からSQL」、精度100%の魔法はない。だから「運用」の話をしよう - Qiita

はじめに 自然言語からのSQL生成(以下NL2SQLと呼びます)について精度検証を日々支援する中で「そもそも話」をする機会は後回しになりやすいのではないでしょうか。そこで整理してみました。なおこの記事は、以下の記事にインスピレーションを受けています。 Qiita記事:自...

Qiita

Как OpenAI похоронила традиционный BI — и что пришло ему на смену

Зачем OpenAI купила базу данных Rockset за $117M и тут же убила её для всех клиентов. Как устроена архитектура «пять слоёв контекста». Почему принцип «meaning lives in code» меняет подход к документированию данных. И что из этого может взять обычная компания уже сейчас без GPT-5 и без $117M.

https://habr.com/ru/articles/1002254/

#openai #chat_bi #text2sql #ai_agents #кейс #дашборды_в_компании

Как OpenAI похоронила традиционный BI — и что пришло ему на смену

Привет, меня зовут Полоротов Александр, co-founder datanomix.pro последние шесть лет я помогал компаниям внедрять BI. Насмотрелся на ситуации, когда существует десяток дашбордов, которые никто не...

Хабр

Генерируем SQL–запросы на локальных моделях

На связи команда внутренних инициативных сервисов ecom.tech . Мы занимаемся разработкой продуктов для внутренних нужд компании, экспериментируем с внутренними AI-продуктами для сотрудников: от забавных и полезных ботов до автоматизации повседневных задач. Сегодня мы расскажем, как помогли разгрузить аналитиков от их типовых задач с помощью искусственного интеллекта – внутри реальные кейсы, гайды и пошаговые инструкции на примере ecom.tech . Поехали!

https://habr.com/ru/companies/ecom_tech/articles/992238/

#text2sql #nlp #генерация_кода #llm #sql

Генерируем SQL–запросы на локальных моделях

Привет, Хабр! На связи Фёдор Пахуров и Настя Изюмова. Мы команда внутренних инициативных сервисов ecom.tech . Занимаемся разработкой продуктов для внутренних нужд компании, экспериментируем с...

Хабр
Fine‑tune mô hình nhỏ để Text2SQL nhanh hơn! 🚀
Dùng `distil‑cli` + Claude skill: tạo model, chuẩn bị dữ liệu, train, xuất `model.gguf` (2.2 GB) rồi `ollama create/run`. Kết quả: độ chính xác LLM‑as‑a‑Judge tăng từ 36 % → 74 % (gần bằng teacher) và ROUGE ~88 %. Ví dụ: câu hỏi “số ứng viên mỗi vị trí” → SQL chi tiết hơn. Demo: script Python đọc CSV → SQLite, hỏi “trung bình lương mỗi phòng ban”. #AI #MachineLearning #FineTuning #Ollama #Text2SQL #TríTuệNhânTạo #HọcMáy #TinhChỉnhMôHình #CôngNghệ

Выжимаем максимум из опенсорсных моделей и готовим Text2SQL

В любой крупной компании есть повторяющийся сценарий. Аналитик сидит над экспериментом или моделью, строит А/В тесты и дашборды, и в этот момент приходит бизнес и просит быстро посмотреть «продажи жвачки за вчера». Аналитик переключается, пишет запрос, отдаёт результат, а через десять минут прилетает почти такой же вопрос. Потом ещё один и ещё. День заканчивается, а свои задачи стоят и покрываются ржавчиной. Так выглядит ручной доступ к данным. Бизнес понимает, что нужные данные в хранилище есть, но не всегда может их быстро получить. А аналитик становится «бутылочным горлышком», через которое проходит большой поток запросов. Мы хотели упростить работу с данными. Чтобы пользователь задавал вопрос, сервис превращал его в SQL, выполнял в хранилище и возвращал аналитический ответ. Чтобы рутина уходила в инструмент, а аналитик переставал быть «бутылочным горлышком». Вроде ничего нового, но в реальной инфраструктуре вскрывается много интересного: специфическая лексика, свойственная каждому из направлений бизнеса, громоздкие витрины, опыт работы с легаси системами и поведение LLM, которую сначала надо надрессировать.

https://habr.com/ru/companies/oleg-bunin/articles/981494/

#text2sql #large_language_models #open_source_llm #qwen #gpt #аналитика_данных #bird #spider #prompt_engineering #prompt_injection

Выжимаем максимум из опенсорсных моделей и готовим Text2SQL

В любой крупной компании есть повторяющийся сценарий. Аналитик сидит над экспериментом или моделью, строит А/В тесты и дашборды, и в этот момент приходит бизнес и просит быстро посмотреть «продажи...

Хабр
"Text2SQL is dead – or is it? 🤔 Attend our Product Innovation #Summit, where we’ll pretend we invented analytics while throwing #buzzwords like 'Lakehouse Turbo' and 'Sovereign AI' at you. 🚀 Spoiler: It's just SQL with a more expensive hat! 🎩💸"
https://www.exasol.com/blog/text-to-sql-governance/ #Text2SQL #ProductInnovation #LakehouseTurbo #SovereignAI #HackerNews #ngated
Text-to-SQL is Dead - Long Live Text-to-SQL

Text-to-SQL falls short for enterprises that need full data control. Learn how Exasol’s on-premises approach turns Text-to-SQL into Governed SQL.

Exasol
Text-to-SQL is Dead - Long Live Text-to-SQL

Text-to-SQL falls short for enterprises that need full data control. Learn how Exasol’s on-premises approach turns Text-to-SQL into Governed SQL.

Exasol

Text2SQL в аналитике: как мы научили ИИ понимать бизнес-запросы без посредников

Привет! Меня зовут Михаил Куляскин, я инженер по машинному обучению в команде продуктивизации ИИ в X5 Tech. Недавно я выступал с докладом на крупной конференции CodeFest в Новосибирске, по которому и написана данная статья. В ней я расскажу о нашем опыте построения сервиса text2sql — интеллектуального помощника, который позволяет получать доступ к данным из баз по запросу на естественном языке. Такой сервис особенно актуален для крупных компаний с развитой аналитической культурой и большим объемом данных: он позволяет менеджерам и аналитикам запрашивать нужную информацию в виде таблицы, графика или конкретного ответа, не прибегая к помощи специалистов по SQL.

https://habr.com/ru/companies/X5Tech/articles/949694/

#nlp #text2sql #llm #искусственный_интеллект #машинное_обучение #ии #ии_ассистент

Text2SQL в аналитике: как мы научили ИИ понимать бизнес-запросы без посредников

Привет! Меня зовут Михаил Куляскин, я инженер по машинному обучению в команде продуктивизации ИИ в X5 Tech. Недавно я выступал с докладом на крупной конференции CodeFest в Новосибирске,  по...

Хабр

Cập nhật dự án Text2SQL với lớp ngữ nghĩa đồ thị sử dụng FalkorDB: độ chính xác truy vấn cao hơn, Zep AI Graphiti giữ ngữ cảnh trò chuyện mượt mà. Mã nguồn mở, dễ triển khai với Postgres và Aiven.

#opensource #text2sql #FalkorDB #AI #database
#manguonmo #trituenhantao #database

https://www.reddit.com/r/opensource/comments/1nea2sw/update_on_my_txt2sql_with_graph_semantic_layer/