🌗 清理垃圾:大規模物件儲存的垃圾回收
➤ 解決物件儲存中邏輯刪除檔案的挑戰
https://www.warpstream.com/blog/taking-out-the-trash-garbage-collection-of-object-storage-at-massive-scale
WarpStream 是一家提供 Kafka 替代方案的公司,其核心技術建立在物件儲存之上。本文探討了在物件儲存中處理邏輯已刪除檔案(因資料過期或壓縮而產生)的挑戰。作者分析了直接使用物件儲存的垃圾回收策略(如桶策略和同步刪除)的侷限性,並說明瞭這些方法為何無法滿足複雜系統的需求,例如在保留期限差異大的主題時或在進行壓縮時。最終,作者提出使用延遲佇列作為一種更可靠的解決方案,以避免資料遺失和查詢失敗的問題。
+ 這篇文章深入探討了大型分散式系統中常見的物件儲存問題,對於瞭解資料管理和效能優化很有幫助。
+ 我一直對 Kafka 的內部運作方式感到好奇,這篇文章能從另一個角度瞭解其複雜性,以及建立替代方案所面臨的挑戰。
#分散式系統 #物件儲存 #Kafka #資料管理
Taking out the Trash: Garbage Collection of Object Storage at Massive Scale

Distributed systems built on object storage all have one common problem: removing files that have been logically deleted either due to data expiry or compaction. We review the pros and cons of five ways to solve this problem.

アジア経済研究所図書館、ライブラリアン・コラム「資料を守るライブラリアン─省エネしつつ、カビを防ぐ」(記事紹介)
https://current.ndl.go.jp/car/240333

#current_ndl_go_car #カレントアウェアネス_R #日本 #資料保存 #資料管理 #長期保存

アジア経済研究所図書館、ライブラリアン・コラム「資料を守るライブラリアン─省エネしつつ、カビを防ぐ」(記事紹介)

2025年2月17日、アジア経済研究所図書館が、ライブラリアン・コラム「資料を守るライブラリアン─省エネしつつ、カビを防ぐ」をウェブサイト上で公開しました。著者は、アジア経済研究所学術情報センター図書館情報課の能勢美紀氏です。2023年12...

カレントアウェアネス・ポータル
🌘 以S3和Python建立開放且多引擎的Data Lakehouse
➤ 開發中的開放湖屋概念
https://tower.dev/blog/building-an-open-multi-engine-data-lakehouse-with-s3-and-python
在過去六個月裡,開放且多引擎的資料湖屋概念在資料業界中日益受到關注。AWS最近宣佈了基於Iceberg的S3 Tables,Snowflake推出了Iceberg metadata catalogs的Open Catalog服務,各種重要事件接踵而至,顯示了資料管理與處理領域的重要變革。本系列文章介紹瞭如何以最少的元件構建一個實際、開放、多引擎的湖屋。總結: 資料業界逐漸傳開開放且多引擎的Data Lakehouse概念,各大廠商相繼推出相關新功能,顯示行業將向更開放的資料處理模式轉變。
+ 這篇文章詳細闡述了開放資料湖屋的重要性,讓人對資料管理領域的未來有更深入的瞭解。
+ 資訊科技領域的進步快速,瞭解並採納新技術對企業發展非常重要,這篇文章提供了相當有價值的觀點。
#資料管理 #技術趨勢 #開放資料
Building an Open, Multi-Engine Data Lakehouse with S3 and Python - Tower

Run Python data apps reliably in production

【イベント】法政大学資格課程主催シンポジウム「博物館収蔵コレクションの新たな価値創造―公開・活用の可能性を探る―」(3/8・東京都)
https://current.ndl.go.jp/car/239591

#current_ndl_go_car #カレントアウェアネス_R #日本 #博物館 #イベント #文化財 #資料保存 #資料収集 #資料管理

【イベント】法政大学資格課程主催シンポジウム「博物館収蔵コレクションの新たな価値創造―公開・活用の可能性を探る―」(3/8・東京都)

2025年3月8日、法政大学資格課程がシンポジウム「博物館収蔵コレクションの新たな価値創造―公開・活用の可能性を探る―」を、法政大学市ケ谷キャンパス(東京都千代田区)で開催します。参加費は無料で、事前に申込みが必要です。定員は200人です。...

カレントアウェアネス・ポータル
🌘 批次作業系統的資料分支
➤ 資料分支技術在批次作業的應用解析
https://isaacjordan.me/blog/2025/01/data-branching-for-batch-job-systems
本文探討如何在批次作業系統中使用LakeFS和Oxen.ai等工具進行資料分支,以提高資料的安全性和可追蹤性。透過為每個作業創建分支,系統能夠安全地處理資料,並在需要時提供歷史數據回溯,增加數據處理的可調試性。
+ "這種資料分支的概念非常新穎,值得在實際工作中試用!"
+ "資料管理的歷史追蹤功能可以大大提高我們的工作效率,這篇文章很有啟發性。"
#資料管理
Data Branching for Batch Job Systems | Blog Post by Isaac Jordan

🌘 緩存目錄標記規範
➤ 解決應用程式緩存目錄管理問題的簡單方法
https://bford.info/cachedir/
提出了一個簡單的標記方案,讓應用程式能夠輕鬆識別任何創建的緩存目錄,以提高資料管理效率。
+ 這個方法確實能有效解決緩存目錄管理的問題,簡單易行。
+ 這個標記規範將對資料管理產生實質的幫助,減少管理上的困擾。
#資料管理
Cache Directory Tagging Specification – Bryan Ford's Home Page

🌗 Xenon 1.0:資料的新標準
➤ Xenon 1.0:資料呈現的新標準
https://xenondata.org
Xenon 1.0 是資料呈現的最佳方式:簡潔、易讀的多行縮排文字。原生支援陣列、圖形結構,元素可有多個父層。原生支援序列化中使用的類型。明確選擇數據結構,手寫高效。可實現極速或使用無模式的標記器/解析器。Xenon 文件具有命名,目錄內容為物件、陣列和純量。物件包含命名字段。
+ Xenon 1.0 的描述方式看起來很有效率,對於資料管理應該會很實用。
+ 這樣的資料表示方式似乎很直觀,不錯的創新。
#資料管理
Xᴇɴᴏɴ

🌘 NULLS!: 重新檢視現代列格式中的 Null 表示 | 第20屆新硬體數據管理國際研討會
➤ 最佳 Null 壓縮策略因素分析
https://dl.acm.org/doi/10.1145/3662010.3663452
在現代列格式和編碼的研究中,對於 Null 表示缺乏討論,本研究分析並提出了在不同數據分佈、編碼方案和實現中的 Null 壓縮策略,並指出最佳 Null 壓縮取決於解碼速度、數據分佈和 Null 比例等因素。
+ 這篇文章詳細討論瞭如何處理現代數據列中的 Null 表示,有助於瞭解最佳壓縮策略。
+ 對於需要優化資料存儲和處理效率的人來說,這個研究提供了有價值的參考資訊。
#資料管理 #列格式 #Null 表示
NULLS!: Revisiting Null Representation in Modern Columnar Formats | Proceedings of the 20th International Workshop on Data Management on New Hardware

ACM Conferences
🌘 Notion資料目錄的簡史
➤ Notion在資料管理上的演進過程
https://www.notion.so/blog/a-brief-history-of-notions-data-catalog
Notion的資料目錄在過去幾年中逐漸增加,需要建立強大而易於使用的系統。作者分享了Notion資料目錄發展歷程,從早期的混亂無序到建立基礎穩固的系統,再到改善使用者參與度的重整階段。
+ 文章清晰地解釋了Notion在資料管理方面的歷程,讓讀者瞭解到他們如何處理資料的挑戰和解決方案。
+ 這篇文章從技術性的角度深入探討了資料管理的議題,對於需要建立資料目錄或資料管理系統的企業和團隊提供了有價值的參考。
#資料管理
A brief history of Notion’s data catalog

From chaos to clarity: How Notion transformed its data catalog for better efficiency and insights with TypeScript, JSON Schema, and LLMs.

Notion

シダックス大新東ヒューマンサービス株式会社、株式会社サイバーコアと画像解析AIによる図書館蔵書管理システムを共同開発
https://current.ndl.go.jp/car/225289

#current_ndl_go_car #カレントアウェアネス_R #日本 #公共図書館 #公立図書館 #人工知能 #図書館システム #資料管理

シダックス大新東ヒューマンサービス株式会社、株式会社サイバーコアと画像解析AIによる図書館蔵書管理システムを共同開発

2024年9月5日、シダックス大新東ヒューマンサービス株式会社(SDH)が、株式会社サイバーコアと、画像解析AIによる図書館蔵書管理システム「KoKoBo(ココボ)システム」を共同開発したと発表しました。発表によると、「KoKoBoシステム

カレントアウェアネス・ポータル