If you are a person working on the software development industry, please do yourself a favor and read @andygrove book: "How Query Engines work":

https://howqueryengineswork.com/

The book is free to read on web, but if you like it, I'd suggest to buy the eBook version too.

Andy Groove is the creator of #DataFusion, and has been working with query engines for a big while.

Acknowledgements - How Query Engines Work

Как мы переписали ядро Trino на Rust

CedrusData Engine — это lakehouse-движок, основанный на Trino. На реальных нагрузках наш продукт рутинно превосходит по производительности другие технологии (Trino, Doris, Dremio, StarRocks) в 1.5-3 раза, с еще более значительным отрывом от устаревших Greenplum и Impala. Эти результаты — следствие постоянных вложений в разработку новейших техник обработки больших данных. В этой статье я расскажу про проект Oxide — одну из наших ключевых инициатив прошлого года по переписыванию ядра Trino с Java на Rust.

https://habr.com/ru/companies/cedrusdata/articles/985602/

#trino #rust #datafusion #bigdata #sql

Как мы переписали ядро Trino на Rust

CedrusData Engine — это lakehouse-движок, основанный на Trino . На реальных пользовательских нагрузках наш продукт рутинно превосходит по производительности другие технологии (Trino, Doris, Dremio,...

Хабр

We've been working on something exciting in the Arrow/DataFusion ecosystem, which finally shipped with yesterday's release of DataFusion. You can now use Run-End-Encoded arrays in group by clauses!

#opensource #apache #arrow #datafusion #performance #database

https://github.com/apache/datafusion/issues/16011

Support Aggregating by `RunArray`s · Issue #16011 · apache/datafusion

Is your feature request related to a problem or challenge? It's currently not possible to aggregate by RunArrays. Example code grouping by a `RunArray` use arrow::array::{Array, Int32Array, RunArra...

GitHub

Pakistan überwacht Bevölkerung

… mit deutscher Technologie (Amnesty-Bericht)

Pakistan hat laut Amnesty International eines der umfangreichsten staatlichen Überwachungssysteme außerhalb Chinas aufgebaut. Zulieferer neuester Technologie zur Überwachung und Zensur sind auch europäische und deutsche Unternehmen wie Thales und Utimaco.

Pakistan überwacht Millionen seiner Einwohner*innen auch mit in Deutschland entwickelten Technologien, das geht aus einem am Dienstag veröffentlichten Bericht von Amnesty Internationalhervor. Auch andere europäische und ausländische Unternehmen versorgen die pakistanischen Behörden mit hochentwickelten Werkzeugen zur Massenüberwachung und Internetzensur.

Mit dem Telefonüberwachungssystem Lawful Intercept Management System (LIMS) erfassen die pakistanischen Sicherheitsbehörden Standort, Anrufe, Textnachrichten sowie den Browserverlauf von mindestens vier Millionen Mobiltelefonen gleichzeitig. LIMS erlaubt zu sehen, welche Webseiten Nutzer*innen aufrufen, selbst wenn diese oder ihre Teile verschlüsselt sind. Das System gewährt dem pakistanischen Militär und den Geheimdiensten direkten Zugriff auf die Daten von Telekommunikationskunden, da es in die Telekommunikationsnetze der privaten Anbieter direkt eingebaut ist. zur Identifikation bedarf es lediglich der Handynummer.

Kontrolle von Handys und Internet

Zudem blockieren Geheimdienste mit einer in China entwickelten Firewall-Technologie (WMS 2.0) Virtual Private Networks (VPN), die zur Umgehung von Zensur genutzt werden können, sowie unliebsame Webseiten. Die Behörden können mit der Technologie auch den Internetverkehr drosseln.

Amnesty beschreibt diese Kombination an Technologien als Wachtürme, die ständig das Leben gewöhnlicher Menschen ausspionieren. Sie machen es laut der Menschenrechtsorganisation der Regierung möglich, Dissident*innen zu überwachen, zum Schweigen zu bringen und grundlegende Menschenrechte systematisch zu verletzten.

„Weil es in Pakistan an technischen und rechtlichen Schutzmaßnahmen mangelt, ist LIMS in der Praxis ein Instrument rechtswidriger und unterschiedsloser Überwachung“, heißt es in dem Bericht. Die Geheimdienste nutzen LIMS, ohne dafür einen richterlichen Beschluss eingeholt zu haben – eine gesetzlich vorgeschriebene Mindestanforderung, die von den pakistanischen Behörden jedoch in gewohnter Manier ignoriert wird.

Überwachung made in Aachen

Pakistan hat in den letzten Jahren eine tiefgreifende Überwachungsinfrastruktur aufgebaut und dabei auf eine globale Lieferkette von Überwachungstechnologien zurückgegriffen. Den Großteil der Technologie, die LIMS in Pakistan ermöglicht, kommt von zwei Unternehmen: dem deutschen Utimaco mit Sitz in Aachen und dem emiratischen Datafusion mit Niederlassung in Deutschland. Mit LIMS von Utimaco durchsuchen die Behörden die Daten der Telekommunikationskunden, die dann über Überwachungszentren von Datafusion zugänglich gemacht werden. Mit Hilfe von Handelsdaten konnte Amnesty nachweisen, dass LIMS über das Unternehmen aus den Arabischen Emiraten an Pakistan geliefert wurde. Das System wird in Pakistan schon seit 2007 eingesetzt.

Die Internet-Firewall wurde erstmals in 2018 in Betrieb genommen und stammte von einem kanadischen Unternehmen namens Sandvine (jetzt AppLogic Networks). Fünf Jahre später wurde sie durch eine fortgeschrittene Technologie vom chinesischen Unternehmen Geedge Networks ersetzt, das Verbindungen zu chinesischen Staatsunternehmen unterhält. Die US-amerikanische Firma Niagara Networks und die französische Firma Thales lieferten die unterstützende Infrastruktur.

Laut Amnesty handelt es sich bei der von Geedge Networks entwickelten Technologie um eine kommerzielle Version von Chinas „Großer Firewall“, die nun auch außerhalb des Landes zum Einsatz kommt. Die Große Firewall ist ein umfangreiches staatliches Zensur- und Überwachungssystem, mit dem die chinesische Regierung unerwünschte ausländische Seiten sperrt und die gesamten Aktivitäten der Bevölkerung im Internet kontrolliert.

Verantwortung der Unternehmen und Exportländer

Datafusion erklärte gegenüber Amnesty, dass die Überwachungszentren ausschließlich an gesetzlich legitimierte Behörden verkauft werden und man selbst LIMS nicht herstelle. Utimaco weigerte sich seinerseits, seine Verbindungen zu Datafusion offenzulegen und berief sich auf Geschäftsgeheimnisse. Beide vermieden es, auf die Enthüllungen der Menschenrechtsorganisation einzugehen.

Unklar bleibt, welche Ausfuhrgenehmigungen für den Export von LIMS durch Utimaco beantragt oder erteilt wurden. Das Bundesamt für Wirtschaft und Ausfuhrkontrolle äußerte sich nicht zu dem Fall. Die deutsche Regierung lehnte es ebenfalls ab, Auskunft über Ausfuhrgenehmigungen zu geben.

Amnesty hält fest, dass der Handel mit Überwachungstechnologien in Deutschland, der EU und weltweit weiterhin unzureichend kontrolliert ist.

Überwachung als politische Waffe

Pakistan gilt seit langem als Land mit massiver Internetüberwachung und Informationskontrolle. Laut der Menschenrechtsorganisation hat sich die politische Lage im Land, in dem Meinungsfreiheit stark eingeschränkt, Oppositionelle willkürlich verhaftet und verschleppt werden, mit dem ungebremsten Export von Überwachungstechnologien weiter verschärft.

Seit dem Sturz des ehemaligen Premierministers Imran Khan im Jahr 2022 sind Oppositionelle und Aktivist*innen von Massenverhaftungen betroffen. Am Obersten Gerichtshof in Islamabad wird aktuell der Fall von Khans Frau Bushra Bibi verhandelt, nachdem private Telefongespräche von ihr online geleakt worden waren.

Lokale Mobilfunk- und Internetabschaltungen sind besonders häufig in den Provinzen Belutschistan und Khyber Pakhtunkhwa. In lokalen Bezirken ist das Internet teilweise über Jahre gesperrt. Aktivist*innen in beiden Provinzen berichten, dass diese Abschaltungen oft dazu genutzt werden, Proteste und politische Kundgebungen zu stören und Verschleppungen zu verdecken. Das Militär weist diese Vorwürfe zurück.

Die einjährige Untersuchung hat Amnesty in Zusammenarbeit mit Paper Trail Media, DER STANDARD, Follow the Money, The Globe and Mail, Justice For Myanmar, InterSecLab und dem Tor Project durchgeführt. Die Ergebnisse beruhen einerseits auf öffentlich zugänglichen Handelsdaten internationaler Unternehmen und andererseits auf einem 600 GB großen Datenleak des chinesischen Unternehmens Geedge Networks.

Timur Vorkul ist seit September 2025 Volontär bei netzpolitik.org. Er hat Sozialwissenschaften und Kulturanthropologie studiert und zuletzt für den MDR gearbeitet. Neben seinem Volontariat macht er Beiträge für den Fernsehsender KiKA. Er interessiert sich für staatliche Überwachung, Migrationsregime und Ungleichheit. Kontakt: E-Mail (OpenPGP). Dieser Beitrag ist eine Übernahme von netzpolitik, gemäss Lizenz Creative Commons BY-NC-SA 4.0.

Über Timur Vorkul - netzpolitik:

Unter der Kennung "Gastautor:innen" fassen wir die unterschiedlichsten Beiträge externer Quellen zusammen, die wir dankbar im Beueler-Extradienst (wieder-)veröffentlichen dürfen. Die Autor*innen, Quellen und ggf. Lizenzen sind, soweit bekannt, jeweils im Beitrag vermerkt und/oder verlinkt.

Pakistan überwacht Bevölkerung – Beueler-Extradienst

🌘 德國字串的難題:資料庫應如何選擇最佳編碼
➤ 擺脫預設編碼迷思,擁抱彈性與效能
https://www.polarsignals.com/blog/posts/2025/08/26/das-problem-mit-german-strings
本文探討了在資料庫系統中,Apache Arrow 的 StringView 編碼的優勢與劣勢,並以 Polar Signals 的實際案例說明,低基數(low-cardinality)字串欄位配合字典編碼(dictionary encoding)能在記憶體使用上大幅優化。作者主張,資料庫系統應能根據資料特性和工作負載動態選擇最適合的編碼方式,而非預設單一最佳方案。
+ 寫得太好了!完全點出我們在處理大量字串資料時遇到的瓶頸,尤其是在記憶體限制嚴苛的環境下。
+ Polar Signals 的案例很有啟發性,字典編碼確實是低基數字串的一大福音。期待資料庫能進一步支援動態編碼選擇。
#資料庫 #字串處理 #資料編碼 #Apache Arrow #Datafusion
Das Problem mit German Strings

And why I don't want my database to choose the best encoding for me (yet)

Discover the Performance Engineer in you. | Polar Signals
🌘 Xorq:以 Python 簡潔性實現 SQL 規模的機器學習目錄、組合與部署
➤ 打造具備 Python 簡潔性與 SQL 擴展能力的下一代 ML 管道
https://github.com/xorq-labs/xorq
Xorq 是一個新穎的機器學習框架,旨在簡化並標準化 ML 管道的建置、分享與部署流程。它透過結合 Python 的易用性與 SQL 的強大擴展性,讓開發者能夠以聲明式的方式跨多個計算引擎(如 DuckDB、Snowflake 和 DataFusion)建立可重複使用的 ML 管道。Xorq 的核心技術包括使用 Apache Arrow 進行零拷貝資料傳輸,以及利用 Ibis 和 DataFusion 實現高效運算。其特點包括:支援 pandas 風格語法與 Ibis 的多引擎聲明式表達;將 Python 運算式定義為 YAML 格式,確保可重複性;提供可移植的 UDF 與 UDAF,並支援自動序
#機器學習 #資料工程 #管道 #Python #SQL #Ibis #DuckDB #Snowflake #DataFusion #Apache Arrow
GitHub - xorq-labs/xorq: Catalog, compose, and ship ML—Python simplicity, SQL scale.

Catalog, compose, and ship ML—Python simplicity, SQL scale. - xorq-labs/xorq

GitHub

Digitaler Wochenrückblick 31. KW 2025

„Welcher Religion gehörten Ihre Großeltern an?” stand so in einer Volksbefragung von rund 100 Jahren. Na, was haben die Nazis danach mit diesem Datenschatz gemacht? Ausgeschlachtet, war ja da. Der freundliche Blockwart um die Ecke wusste dann auch, ob die umgezogen sind.

Zweckbindung erhobener Daten wäre sehr hinderlich bei der Endlösung gewesen. Das müssen wir sehen, wenn die tägliche Polizeiarbeit nicht durch Aktenberge und überflüssigen Anträgen zu verschiedenen Datenbankabfragen ersticken soll. Data-Fusion ist der Fachbegriff, wenn alles auf Knopfdruck automatisiert zusammengeführt wird. Das entlastet die Beamtenwelt und ist zudem rasend schnell. Und praktisch.

Im digitalen Niemandsland bei uns ist das Wunschdenken, aber Wünsche lassen sich erfüllen! Wir könnten beispielsweise eine Software selbst entwickeln, die genau diese – mehr oder minder mühselige Polizeiarbeit – rationalisiert. Mit ein bissel Geschick wäre es möglich, länderübergreifend mit einer Software zu arbeiten.

Aber warum denn warten, wenn der Softwarefisselkram hier nicht schnell genug zustande kommt, dann kaufen wir einfach das, was da ist.

Bei sensiblen Daten ist noch darauf zu achten, dass die Dauer-Bedenkenträger zu Sicherheit und Datenschutz die Idee nicht kaputt reden. Gesagt getan, das Ding heißt „Palantir Gotham” und weil das eher einen sehr schlechten Ruf hat, wollen wir es nicht so nennen. Um die Übelkeit zu lindern heißt es in Nordrhein-Westfalen „Datenbankübergreifende Recherche und Analyse” (DAR), in Bayern „Verfahrensübergreifende Recherche und Analyse” (VeRA) und in Hessen einfach „Hessendata” – klingt doch schon richtig deutsch, mehr können wir wirklich nicht tun, um Kriminelle und Terroristen an der Arbeit zu hindern.

Obwohl das alles so schön deutsch tönt, wird auch dagegen geklagt, das Bundesverfassungsgericht hat denn auch festgestellt, der Einsatz von Palantir verstoße gegen das informationelle Selbstbestimmungsrecht, das ist sogar im Grundgesetz verankert, sagen die, erklären den Einsatz für verfassungswidrig. Das nur, weil Bedenkenträger jedwede Innovation verhindern müssen.

Was macht Hessen, Bayern und NRW? Die machen es trotzdem, eine leicht abgespeckte Version: es werden keine aktuellen Daten aus dem Internet dazu gereicht und es kommt auch keine KI zum Einsatz, noch nicht, geht aber.

Der Verfassungsschutz macht für ausgewählte Beamte, die im Sicherheitsbereich arbeiten, eine besondere Prüfung, die als „Ü3″ die höchste Stufe hat. Dabei werden nicht nur Nachbarn, Familie und Bekannte ausgefragt (das lässt sich nicht automatisieren), sondern auch andere Quellen und das Internet durchwühlt. Die könnten mit Sicherheit etwas KI vertragen und mit Data-Fusion hätten sie die Sicherheit schnell überprüft – so dauert das Monate.

Um nicht zu riskieren, dass unberechtigte Abfragen möglich sind, gibt es Zugriffskontrollen, es lässt sich also konkret feststellen, wer zu welchem Anlass Daten abgefragt hat. Naja, gut, auch wenn es unberechtigt war, dann ist es eben passiert, kommt ja nicht alles gleich raus. Vor allem in den östlichen Bundesländern ist das Rechtsbewusstsein besonders ausgeprägt.

Völlig ausgeschlossen ist, dass mit einem Softwareupdate des Herstellers Daten nach Nordamerika abfließen, die in keiner Log-Datei (dort wird alles gespeichert, was die Software macht) auftauchen. Der US Cloud-Act untersagt den Unternehmen, wenn sie es auf behördlich Anordnung tun mussten, überhaupt darüber zu reden. (Haben wir letzte Woche auch von Microsoft gehört).

Die Software „Palantir Gotham” wird im Sicherheitsbereich, das, was Microsoft bereits ist: marktbeherrschend. Je länger wir den Bedenkenträgern Gehör schenken, um so später werden wir mit der Kriminalität fertig. Technologieoffen und innovationsfreundlich müssen wir uns den Herausforderungen stellen.

Als Vorbild und nicht als Gespenst gibt uns – ein guter Deutscher – der Milliardär Peter Thiel (Gewichtsklasse Elon Musk) die Mittel an die Hand! Seine Firma „Palantir Gotham” hat mit nordamerikanischen Geheimdiensten dieses Stück Softwarekultur ermöglicht. Der Dank gebührt ihm!

Viele seiner Ansätze sind höchst bewundernswert, Paypal war ebenfalls seine Idee. Der Erfolg blieb ihm leider verwehrt, denn mit Paypal wollte er die Währungen der Welt abschaffen.

Oder aktuell, er lässt eine alte Urananreicherungsanlage wieder in Betrieb nehmen, dient der US-amerikanischen Souveränität, liest sich spannend bei wkms.org

Spannend auch, was der standard.at zu berichten weiß. Die empfehlen einen sechsteiligen Podcast vom Deutschlandfunk, der es tatsächlich in sich hat. Nach der sechsten Folge muss nicht zwingend ein Vergleich mit dem Teufel gezogen werden, denn was ist schon Freiheit wert, wenn Demokratie alles zertört.

Wenig zu empfehlen ist wildes Aufbegehren, wir sind nicht schutzlos, wenn wir tun, was uns aufgetragen wird, widerspruchslos. Wer es ist nicht lassen kann, sollte hier unterzeichnen.

Die Hoffnung stirbt zuletzt. Mir ist schon ganz übel….

Digitaler Wochenrückblick 31. KW 2025 – Beueler-Extradienst

Embedding User-Defined Indexes in Apache Parquet Files - Apache DataFusion Blog

Improvement of the disk manager configuration on #apache #datafusion by introducing a builder.

https://github.com/apache/datafusion/pull/16191

#rust #rustlang

feat: create builder for disk manager by jdrouet · Pull Request #16191 · apache/datafusion

Which issue does this PR close? Closes Make DiskManagerBuilder to construct DiskManagers #15319 Rationale for this change Proposing a builder pattern for the disk managers. What changes are inc...

GitHub

Со скоростью кометы: ускоряем Spark без переписывания кода

Привет, Хабр! Меня зовут Лев Маковеев. Я младший инженер по обработке данных в компании «Криптонит». В этой статье хочу поделиться с вами результатами небольшого исследования, в ходе которого мы протестировали ускоритель запросов Apache DataFusion Comet и пришли к довольно впечатляющим результатам. Забегая вперёд, отмечу, что в отдельных тестах ускорение было более чем десятикратным!

https://habr.com/ru/companies/kryptonite/articles/902872/

#spark #apache #comet #DataFusion #большие_данные #анализ_данных #data_engineering #data_scientist #big_data #оптимизация

Со скоростью кометы: ускоряем Spark без переписывания кода

Привет, Хабр! Меня зовут Лев Маковеев. Я младший инженер по обработке данных в компании «Криптонит». В этой статье хочу поделиться с вами результатами небольшого исследования, в ходе которого мы...

Хабр