Mastodawn

PGDATA 2026 18h ago

Don’t miss Radim Marek at PG DATA 2026 on June 4!

In “Visualizing PostgreSQL Storage Internals,” Radim explores how PostgreSQL really stores data — from heap pages and MVCC to VACUUM, HOT updates, and index bloat 🐘

With live demos using pg-storage-visualizer, this session is perfect for DBAs and developers who want a deeper understanding of PostgreSQL internals.

Join us: https://2026.pg-data.org/

#PGData #PGData2026 #PostgreSQL #Postgres #DBA #OpenSource #SQL #DataEngineering

42rows 20h ago

AI Data Transformer (coming soon, currently in beta).
Natural-language data ops on CSV or JSON. The differentiator: you get back BOTH the result AND the Polars script that produced it — versionable, reproducible, debuggable. Not a black-box API.
BYOK supported (Groq free tier works for testing). Fallback chain across Groq, Claude, OpenAI, Gemini.
Submitted as our Apify $1M Challenge entry. Will open beta access when we close that loop.
#DataEngineering #Polars

gaby_wald 1d ago

Batch ou Stream : latence, volume, coût, complexité. Cas : rapports (batch), fraudes (stream), hybride. Conseil : commencer par batch. #DataEngineering #Batch #Stream #Tech #Choix ... https://www.linkedin.com/posts/gabriel-chandesris_dataengineering-batch-stream-share-7459524088475185152-PJWL

#dataengineering #batch #stream #tech #choix | Gabriel C.

⚡ "Batch vs. Stream Processing : comment choisir en 2026 ? (Guide pratique)" En **2026**, le choix entre **batch** et **stream processing** dépend de **vos besoins**. Voici comment **faire le bon choix** : --- 🔹 **Batch Processing (Traitement par lots)** | **Critère** | **Batch** | **Quand l’utiliser ?** | |----------------------|------------------------------------|--------------------------------------| | **Latence** | Élevée (heures/jours) | Analyses historiques, rapports. | | **Volume** | Grand (To, Po) | Traitement de données massives. | | **Coût** | Faible | Budget limité. | | **Complexité** | Faible | Équipes petites ou débutantes. | | **Outils** | Spark, Hadoop, Airflow | ETL, data warehousing. | --- 🔹 **Stream Processing (Traitement en temps réel)** | **Critère** | **Stream** | **Quand l’utiliser ?** | |----------------------|------------------------------------|--------------------------------------| | **Latence** | Faible (millisecondes) | Détection de fraudes, monitoring. | | **Volume** | Continu (flux de données) | Données en temps réel. | | **Coût** | Élevé | Budget important. | | **Complexité** | Élevée | Équipes expérimentées. | | **Outils** | Kafka, Flink, Spark Streaming | Applications critiques. | --- 🔹 **Cas concrets** : 1. **Batch** : - **Exemple** : Génération de **rapports mensuels** pour une entreprise. - **Résultat** : **Coût réduit**, **simplicité**. 2. **Stream** : - **Exemple** : **Détection de fraudes** en temps réel pour une banque. - **Résultat** : **Réactivité**, **précision**. 3. **Hybride** : - **Exemple** : **Analyse des logs** (batch) + **alertes en temps réel** (stream). - **Résultat** : **Meilleur des deux mondes**. --- 💡 **Notre conseil** : - **Commencez par le batch** si vous n’êtes pas sûr. - **Passez au stream** si vous avez besoin de **réactivité**. - **Utilisez les deux** pour des **cas complexes**. --- 💬 **Et vous, batch ou stream processing ? Pourquoi ?** *(Partagez votre choix en commentaire !)* #DataEngineering #Batch #Stream #Tech #Choix

gaby_wald 1d ago

5 compétences data engineering 2026 : pipelines ETL/ELT, bases de données, cloud, automatisation, enjeux métiers. Salaires : 45k€-90k€. #DataEngineering #Tech #Compétences #Cloud #Automatisation ... https://www.linkedin.com/posts/gabriel-chandesris_dataengineering-tech-compaeztences-share-7459522795107004416-st8x

#dataengineering #tech #compétences #cloud #automatisation | Gabriel C.

💎 "Data Engineering en 2026 : les 5 compétences qui font la différence (et comment les acquérir)" En **2026**, les **ingénieurs données** sont **très demandés**, mais tous ne se valent pas. Voici **les 5 compétences** qui feront de vous un **profil rare et recherché** : --- 🔹 **Compétence n°1 : Maîtriser les pipelines ETL/ELT** - **Pourquoi ?** C’est le **cœur du métier**. - **Outils** : **Apache Spark**, **Apache Beam**, **Airflow**, **dbt**. - **Exemple** : Un client a **divisé par 3** le temps de traitement de ses données en optimisant ses pipelines Spark. --- 🔹 **Compétence n°2 : Comprendre les bases de données (SQL et NoSQL)** - **Pourquoi ?** 90% des données sont stockées dans des **bases de données**. - **Compétences clés** : - **SQL avancé** (requêtes complexes, optimisation). - **NoSQL** (MongoDB, Cassandra) pour les données non structurées. - **Exemple** : Un client a **réduit ses coûts de 40%** en migrant de MongoDB à PostgreSQL. --- 🔹 **Compétence n°3 : Savoir travailler avec le cloud (AWS, GCP, Azure)** - **Pourquoi ?** **80% des entreprises** utilisent le cloud pour leurs données. - **Compétences clés** : - **Stockage** : S3, BigQuery, Data Lake. - **Calcul** : Lambda, Glue, Databricks. - **Exemple** : Un client a **migré ses pipelines vers AWS** et a **réduit ses coûts de 50%**. --- 🔹 **Compétence n°4 : Automatiser et orchestrer les workflows** - **Pourquoi ?** L’automatisation **économise du temps et réduit les erreurs**. - **Outils** : **Airflow**, **Prefect**, **Luigi**. - **Exemple** : Un client a **automatisé 80% de ses rapports** avec Airflow. --- 🔹 **Compétence n°5 : Comprendre les enjeux métiers** - **Pourquoi ?** Un bon ingénieur données **comprend l’impact de son travail**. - **Exemple** : Un client a **augmenté ses revenus de 10%** en optimisant ses pipelines de données clients. --- 💡 **Salaire moyen en France (2026)** : - **Junior** : 45 000 € – 55 000 €. - **Confirmé** : 55 000 € – 75 000 €. - **Senior** : 75 000 € – 90 000 €. --- 💬 **Quelle compétence en data engineering vous a le plus servi ?** *(Partagez en commentaire !)* #DataEngineering #Tech #Compétences #Cloud #Automatisation

gaby_wald 1d ago

3 erreurs pipelines données : qualité des données, pipelines monolithiques, manque de documentation. Solutions : nettoyage intégré, découpage, README. #DataEngineering #Pipeline #Tech #BonnesPratiques #Erreurs ... https://www.linkedin.com/posts/gabriel-chandesris_dataengineering-pipeline-tech-share-7459521741233651712--cJR

#dataengineering #pipeline #tech #bonnespratiques #erreurs | Gabriel C.

🧨 "Les 3 erreurs qui transforment vos pipelines données en cauchemar (et comment les éviter)" En **2026**, les pipelines de données sont **de plus en plus complexes**… et **de plus en plus fragiles**. Voici **les 3 erreurs les plus fréquentes** (et comment les corriger) : --- 🔹 **Erreur n°1 : Négliger la qualité des données dès le départ** - **Exemple** : *"On nettoiera plus tard."* → **Spoiler** : Ce jour n’arrivera jamais. - **Conséquence** : Des **pipelines qui plantent** en production à cause de données **sales ou incohérentes**. - **Solution** : ✅ **Intégrez le nettoyage dans le pipeline** (ex : suppression des doublons, correction des formats). ✅ **Utilisez des outils** comme **Great Expectations** pour valider les données. --- 🔹 **Erreur n°2 : Tout mettre dans un seul pipeline** - **Exemple** : Un pipeline qui fait **ETL + analyse + visualisation** → **impossible à maintenir**. - **Conséquence** : **Lenteur**, **bugs fréquents**, **difficulté à déboguer**. - **Solution** : ✅ **Découpez vos pipelines par fonction** (ex : 1 pipeline pour l’ETL, 1 autre pour l’analyse). ✅ **Utilisez des outils d’orchestration** comme **Airflow** ou **Prefect**. --- 🔹 **Erreur n°3 : Oublier la documentation** - **Exemple** : *"C’est évident, pas besoin de documenter."* - **Conséquence** : **6 mois plus tard, personne ne comprend** comment fonctionne le pipeline. - **Solution** : ✅ **Un README par pipeline** (avec entrées/sorties, dépendances, responsable). ✅ **Utilisez des outils** comme **dbt docs** pour générer une documentation automatique. --- 💡 **Résultat** : Un client a **réduit ses bugs de 40%** en appliquant ces bonnes pratiques. --- 💬 **Quel est le pire pipeline de données que vous ayez vu ?** *(Partagez votre cauchemar en commentaire !)* #DataEngineering #Pipeline #Tech #BonnesPratiques #Erreurs

gaby_wald 1d ago

IA générative a failli faire rater un candidat parfait : CV éliminé à cause de mots-clés manquants. Solution : vérification manuelle, critères adaptés. #Recrutement #IA #RH #Erreur #DataEngineering ... https://www.linkedin.com/posts/gabriel-chandesris_recrutement-ia-rh-share-7459496571114598400-gsAv

#recrutement #ia #rh #erreur #dataengineering | Gabriel C.

⚠️ "Comment l’IA générative a failli me faire rater le candidat parfait" Il y a **3 mois**, j’ai **presque rejeté** un candidat **excellent** à cause de l’IA. Voici ce qui s’est passé… et **comment éviter la même erreur** : --- 🔹 **Le contexte** : - Nous cherchions un **ingénieur données senior** pour un poste **exigeant**. - **120 CV reçus** → J’ai utilisé un **outil d’IA** (ex : [HireVue](https://www.hirevue.com/), [Pymetrics](https://www.pymetrics.ai/)) pour **pré-filtrer** les candidats. --- 🔹 **L’erreur** : - L’IA a **éliminé** un candidat parce que : - Son CV **n’utilisait pas les "mots-clés"** attendus (ex : "Spark" au lieu de "traitement distribué"). - Il avait **un parcours atypique** (reconversion depuis la physique). - **Réalité** : Ce candidat avait **10 ans d’expérience** en data engineering et **résolu des problèmes complexes** dans son ancien poste. --- 🔹 **La leçon** : 1. **Ne faites pas confiance à 100% à l’IA** : - **Vérifiez manuellement** les CV éliminés par l’IA (surtout les **profils atypiques**). 2. **Adaptez les critères de l’IA** : - **Évitez les mots-clés trop restrictifs** (ex : "Spark" → "traitement de données massives"). 3. **Privilégiez l’humain pour l’évaluation finale** : - L’IA peut **aider à trier**, mais **pas à décider**. --- 💡 **Résultat** : En **relisant manuellement** les CV éliminés, nous avons **embauché ce candidat**… qui a **résolu un problème critique** en 2 semaines. --- 💬 **Et vous, avez-vous déjà failli rater un bon candidat à cause de l’IA ?** *(Partagez votre expérience en commentaire !)* #Recrutement #IA #RH #Erreur #DataEngineering

Andrew Padilla 1d ago

Some thoughts on data formats vs semantics wrt #DataEngineering #knowledgegraphs #semantics #interoperability

https://open.substack.com/pub/datacequia/p/substance-over-formats?r=du68h

Substance Over Formats

The red herring of scale in data integration

Andrew Padilla's Newsletter

Hacker News 1d ago

5x perf increase on writes with FPW disabled in Postgres

https://www.databricks.com/blog/how-lakebase-architecture-delivers-5x-faster-postgres-writes

#HackerNews #Postgres #FPW #Performance #Database #Optimization #DataEngineering

How lakebase architecture delivers 5x faster Postgres writes

In a

Databricks

sayzard 1d ago

Data as a Product Is a Promise

이 글은 데이터 엔지니어링에서 '데이터를 제품으로 취급'하는 개념을 소개하며, 데이터 제품이 단순한 테이블이 아니라 명확한 계약과 소유권, 의미, 신뢰성, 보안, 지원 체계를 갖춘 약속임을 강조한다. 데이터 제품 계약은 스키마와 버전 관리, 의미 정의, 서비스 수준 목표(SLO), 접근 권한 관리, 소유권 및 문제 대응 절차를 포함해야 하며, 이를 통해 데이터 신뢰성과 사용 편의성을 확보할 수 있다. 마이크로서비스의 계약 개념을 데이터에 적용하여 데이터 소비자가 스스로 API를 이해하고 활용할 수 있도록 하는 것이 핵심이다.

https://yusufaytas.com/data-as-a-product-a-new-frontier

#dataasaproduct #dataplatform #dataengineering #dataschema #dataslo

Data as a Product is a Promise | Yusuf Aytas

Stop shipping tables. Build data products with clear contracts, real owners, lifecycle discipline, and observability so teams can trust data.

Yusuf Aytas

Jeffrey | data + history 3d ago

#introduction
Hi! I'm Jeffrey, recently relocated from Seattle to South Surrey. Dual US/Canadian, genuine mutt, settling into BC life.
Data engineer & independent researcher building knowledge graphs — antebellum US politics, and supply chain chokepoints (fertilizer, oranges, cocoa, coffee).
Off the clock: sourdough, smoking meats, pizza, cheesemaking. US & Canadian history. Homelab K8s. Raspberry Pi wildlife cams.
Classics background. Former Mormon. Supertaster.
#DataEngineering #History #BC