👥 怎樣的人適合這個職位

🧠 系統架構思考者:能從宏觀角度思考資料匯流系統的整體架構,能掌握並學習多種技術棧,建立穩定可靠的部署管道。

🧩 資料解決方案實踐者:對巧妙整合各類資料來源、建置資料管線有興趣,樂於運用專業技術克服資料處理障礙。

💬 跨組織協作者:能參與不同政府部會、AI 研究人員等多方利益相關者有效溝通,理解並整合不同需求。

🌟 使命驅動型人才:認同國家資通安全的重要性,願意投入心力於建構保障國家資料安全的基礎設施。

#資料匯流 #資料科學 #資料工程 #架構設計 #開源工具 #後端開發 #DevOps #CICD #軟體工程師 #資安院 #NICS #GovTech

🌗 GitHub - glassflow/clickhouse-etl:串流資料即時去重與時序合併
➤ 串流資料即時處理與高效管理
https://github.com/glassflow/clickhouse-etl
GlassFlow專為ClickHouse設計的串流ETL工具,提供即時資料去重與時序合併功能,透過直覺介面簡化Kafka至ClickHouse的數據管道建置,支援延遲事件處理與高吞吐量。
+ 「這工具介面直覺,設定流程比預期簡單!」
+ 「開源架構讓企業能自行部署,確實是資料團隊的實用解決方案。」
#資料工程
GitHub - glassflow/clickhouse-etl: Real-time deduplication and temporal joins for streaming data

Real-time deduplication and temporal joins for streaming data - glassflow/clickhouse-etl

GitHub
🌘 Bento|將繁瑣的串流處理變得簡單化
➤ 告別繁瑣,擁抱高效的資料串流處理
https://warpstreamlabs.github.io/bento/
Bento 是一個以 Go 語言編寫、部署為靜態二進位的開源串流處理框架。它提供宣告式配置,可用於處理資料轉換、整合、複用等常見的資料工程任務,並支援豐富的處理器、視窗處理和多種資料來源與匯出的連接。Bento 透過其穩定的訊息處理機制,即使在發生錯誤時也能確保訊息至少傳送一次,並提供可觀察性指標和追蹤事件,方便部署與擴展。此外,它也允許使用者自行擴充元件,以滿足特定需求。
+ 這個框架看起來非常實用,能夠解決許多串流處理中常見的痛點,像是資料整合和可靠性問題。
+ 開源且支援多種資料來源和匯出,這點很吸引人,很適合導入現有基礎架構中。
#開源工具 #資料工程 #串流處理
Bento | Fancy stream processing made operationally mundane

Bento is a stream processor that makes data engineering simple with declarative and unit testable configuration. Connect various sources and sinks with YAML.

Bento
🌗 Netflix使用Psyberg對會員資料工程進行優化
➤ Psyberg:Netflix的增量數據處理框架
https://netflixtechblog.com/1-streamlining-membership-data-engineering-at-netflix-with-psyberg-f68830617dd1
Netflix的會員和財務數據工程團隊使用Psyberg來處理會員資料,解決遲到數據帶來的挑戰。Psyberg是一個增量數據處理框架,它能夠自動檢測和處理遲到數據,提高數據處理的效率和準確性。本文介紹了Psyberg的設計理念和功能,並解釋了在Psyberg實施之前Netflix團隊在數據處理方面面臨的挑戰。
+ Netflix在數據處理方面不斷創新和優化,這有助於提供更好的用戶體驗。
+ Psyberg的自動化功能對提升數據處理效率非常重要,將為Netflix的數據工程帶來更大的變革。
#Netflix #資料工程
🌗 沒有資料工程的路線圖
➤ SQL是進入資料工程的關鍵技能
https://www.alasdairb.com/posts/there-is-no-data-engineering-roadmap/
在Reddit、Twitter、LinkedIn和各種Slack社羣中,我看到很多初學者想要進入資料工程並尋求建議。許多人要求一個“路線圖”或一個能幫助他們找到夢想工作的逐步課程。然而,我不相信這樣的路線圖存在。資料工程並不是一個只適合有經驗的角色,任何人都可以進入資料領域。學習SQL是進入資料工程的第一步,並且沒有統一的標準,但是它是每個資料工程師每天都在使用的技能。其他技能和工具可能因團隊而異,但SQL是必備的。對於新手來說,不需要成為SQL的專家,只需要解決問題。選擇一個數據庫,例如Postgres,開始學習SQL。當你感到自信時,嘗試切換到其他數據庫,並挑戰更複雜的問題和更大的數據集。如果你已經熟悉SQL,那麼你可以開始尋找入門級或初級的資料工程職位。不斷學習並應用所學,進行職涯的進展。其他技能和工具可以在工作中學習,重要的是先獲得第一份資料
#資料工程 #入門 #SQL
There is no Data Engineering roadmap

🌗 使用AVX-512進行動態位元重排 - Daniel Lemire的博客
➤ 使用AVX-512指令集進行動態位元重排的方法
https://lemire.me/blog/2023/06/29/dynamic-bit-shuffle-using-avx-512/
本文介紹了使用AVX-512指令集進行動態位元重排的方法,並提供了相應的程式碼示例。
+ 這是一個很有用的技術,對於處理大量數據的應用非常有幫助。
+ AVX-512指令集的效能真的很強大,能夠大幅提升處理速度。
#軟體效能 #資料工程
Dynamic bit shuffle using AVX-512

Suppose that you want to reorder, arbitrarily, the bits in a 64-bit word. This question was raised on Twitter by @experquisite. Formally, you might want to provide, for each of the 64 bit position, an original bit position you want to copy. Hence, the following code would reverse the bit order in your 64-bit word: … Continue reading Dynamic bit shuffle using AVX-512

Daniel Lemire's blog
🌘 資料建模:資料工程的無名英雄:架構模式、工具和未來(第三部分)
➤ 探討資料建模在資料架構模式中的影響,比較商業和開源工具,以及介紹資料建模框架,如ADAPT™和BEAM。
https://airbyte.com/blog/data-modeling-unsung-hero-data-engineering-architecture-pattern-tools
本文是「資料建模:資料工程的無名英雄」系列的第三部分,探討資料建模在資料架構模式中的影響,比較商業和開源工具,以及介紹資料建模框架,如ADAPT™和BEAM。
+ 這篇文章很有用,對於想要深入了解資料建模和資料架構的人來說是一個很好的資源。
+ 我很喜歡這篇文章,它提供了很多有關資料建模和資料架構的實用信息,讓我更好地了解這個領域。
#資料建模 #資料工程 #資料架構 #商業工具 #開源工具 #AI #資料建模框架
Data Modeling: The Unsung Hero of Data Engineering: Architecture Pattern, Tools and the Future (Part 3) | Airbyte

Uncover the power of data architecture patterns and tools in Part 3. Discover the future of data modeling and engineering.

🌗 從資料工程到提示工程
➤ 使用ChatGPT解決資料準備任務
https://towardsdatascience.com/from-data-engineering-to-prompt-engineering-5debd1c636e0
本文介紹如何使用ChatGPT和Python解決資料工程中的常見問題,並探討資料工程和提示工程之間的聯繫。通過提示工程生成Python代碼,可以自動化資料準備任務,提高效率。
+ 這篇文章介紹的方法非常有趣,使用ChatGPT生成Python代碼可以大大簡化資料準備的過程,提高效率。期待未來提示工程的發展。
+ 這種方法對於初學者來說非常友好,不需要太多的編程知識就可以完成資料準備任務。但是,對於複雜的資料轉換任務,可能需要更多的人工干預。
#資料工程 #提示工程 #ChatGPT #Python #資料準備 #資料轉換