Unicode Consortium 推出「Unicode Inflection Library」技術預覽版,為多語言文法變化提供標準化解方,邀請開發者與語言學者共同參與!

🌐 在多語言應用程式開發中,文法變化(inflection)一直是國際化的難題。Unicode Consortium 最新釋出的 Unicode Inflection Library 技術預覽版,正是為了解決這個問題而誕生。
🔍 這個函式庫能處理多語言中因文法情境而改變的詞形,包括 #形容詞#名詞#動詞 ,甚至是 #地名#品牌#人名 等專有名詞。特別針對如 #斯拉夫語系#日耳曼語系#羅曼語系#閃米特語系#印度語系#黏著語系 等變化複雜的語言,提供一致且可擴充的支援。

Unicode Consortium 推出「Unicode Inflection Library」技術預覽版,為多語言文法變化提供標準化解方,邀請開發者與語言學者共同參與!

🌐 在多語言應用程式開發中,文法變化(inflection)一直是國際化的難題。Unicode Consortium 最新釋出的 Unicode Inflection Library 技術預覽版,正是為了解決這個問題而誕生。
🔍 這個函式庫能處理多語言中因文法情境而改變的詞形,包括形容詞、名詞、動詞,甚至是地名、品牌、人名等專有名詞。特別針對如斯拉夫語系、日耳曼語系、羅曼語系、閃米特語系、印度語系與黏著語系等變化複雜的語言,提供一致且可擴充的支援。

💡 特色亮點:
。提供 C 與 C++ API,亦可搭配 Message Format 2.0 使用
。結合 Wikidata 的詞彙資料,支援更精準的語言處理
。有助於改善文字生成、搜尋功能與自然語言處理的準確度
🤝 這是一項社群協作計畫,Unicode Consortium 誠摯邀請開發者與語言學者參與測試、回饋與擴充語言支援。

完整資訊可參閱原文:【Introducing the Unicode Inflection Library Technical Preview Release】 https://blog.unicode.org/2025/11/introducing-unicode-inflection-library.html

#Wikidata #維基數據 #維基資料
#lexeme #詞位

臺灣維基數據社群與賽德克族語社群再次攜手合作,將他們的故事帶上更大舞台。本次工作坊是延續自 2024 年的 「WE KEY Seediq!」 計畫,當時我們首次深入探索維基數據詞彙 (Lexeme) 的應用,了解它可以如何幫助並且維護賽德克族的語言: #德鹿谷#Truku )、 #都達#Toda )、 #德固達雅#Tgdaya ),(以及 #督達#Tuda ))。

在工作坊中,參與者們不僅學習了如何在維基數據詞彙中新增詞彙並記錄其詞意,我們也抓緊機會將維基數據的屬性翻譯成三種賽德克族的方言。通過這樣的活動,我們希望能為賽德克族的夥伴們,在數位世界中奠定一個獨屬於自己的空間。

賽德克族也非唯一擁有複數方言群的族群,臺灣的原住民族也常因部落的不同,即便是同一族群在用字或是文法上面會有些許的差異。透過這次的 Wikidata 工作坊的經驗,我們希望可以通過收錄這類多元資訊進入到鏈結化的資料之中,使的更多人都能檢索並看見臺灣豐富的文化資產。

完整報導:https://diff.wikimedia.org/zh-hant/2025/09/29/wikidata-taiwan-x-%e8%b3%bd%e5%be%b7%e5%85%8b%e6%97%8f%ef%bc%9a%e6%90%ad%e8%b5%b7%e8%b7%a8%e9%83%a8%e8%90%bd%e7%9a%84%e7%9f%a5%e8%ad%98%e6%a9%8b%e6%a2%81/

#賽德克
#Wikidata #維基資料 #維基數據 #lexeme
#南島族群 #南島語 #event #活動
#南投縣 #埔里鎮 #埔里數位機會中心

In Taiwan, the Seediq are not the only indigenous people who have multiple languages under one name. The use of language is often different from tribe to tribe, and every language has its own treasure waiting to be discovered. We hope, by introducing such nuance into the knowledge graph, we can improve the representation and visibility of the colorful cultures that Taiwan has to offer.

See also: https://diff.wikimedia.org/2025/09/22/bridging-the-tribes-with-wikidata-taiwan/'

#Wikidata #維基數據 #維基資料
#languages #南島語言 #lexeme
#diff #Seediq #Seejiq #Sediq #Sjiq

噶哈巫社群參與者在輕鬆的環境中認識了 Wikimedia 的理念與 Wikidata 的運作方式,並在後續通過實務操作,學習如何將族語詞彙輸入到 Wikidata Lexeme 之中。這是一個專門保存語言的資料平台,能記錄單字的構造、語意、語法特徵與使用方式。對噶哈巫這樣的瀕危語言來說這個平台提供了非常珍貴的機會。透過這個平台族人能用自己的語言、以自己的方式,記錄並分享自己母語的知識。並且這些資料也將以結構化、機器可讀的數位格式對所有人,任何人開放自由使用。

完整內容:https://diff.wikimedia.org/zh-hant/2025/06/06/%e5%99%b6%e5%93%88%e5%b7%ab-x-wikidata-lexeme%ef%bc%9a%e7%82%ba%e8%aa%9e%e8%a8%80%e4%bf%9d%e5%ad%98%e9%96%8b%e5%95%9f%e6%96%b0%e8%b7%af/

#噶哈巫 #Kaxabu
#Wikidata #維基資料 #維基數據 #lexeme
#南島族群 #南島語 #event #活動
#南投縣 #埔里鎮 #埔里數位機會中心

我們知道 Wikidata 的資料可以用 SPARQL 語法做出各種不同的查詢方式跟資料呈現方式,但是怎麼樣產出對應的 SPARQL 語法一直都是大家困擾的地方,社群與 Wikidata 團隊也不斷在降低 SPARQL 語法上面持續努力。

《Conversational Lexicography: Querying Lexicographic Data on Knowledge Graphs with SPARQL through Natural Language》這篇論文探討如何讓非專業使用者能夠透過自然語言查詢 Wikidata 中的 Lexeme Data,而不需要直接使用 SPARQL 查詢語言。
研究團隊建立了一個多維分類法,解析 Wikidata Lexeme 的複雜性,並創建了一個包含超過 120 萬筆自然語言與 SPARQL 查詢對應的模板數據集。他們測試了 GPT-2、Phi-1.5 和 GPT-3.5-Turbo,發現 GPT-3.5-Turbo 在泛化能力上表現最佳,顯示模型規模與多樣化預訓練對適應能力至關重要。然而,研究也指出,在處理多樣化語言數據與擴展至完整詞典知識表示方面仍有挑戰。

更多完整資訊可參閱論文頁面:https://www.arxiv.org/pdf/2505.19971

#Wikidata #維基資料 #維基數據
#SPQRQL #QueryService #lexeme
#NaturalLanguage #LexicographicData

【Kaxabu x Wikidata Lexeme A New Path Forward for Language Preservation】

It was against this backdrop that the recent Wikidata Lexeme workshop was held, an event born from collaboration between the Kaxabu community and the Wikidata Taiwan Community, marking the start of a new venture in their journey of preserving their stories. Held in the Wugonglun, a quiet corner of the Puli basin, next to the heart of Taiwan and home to the Kahapu people, the workshop marked the community’s first foray into the world of open, structured data.

full version:https://diff.wikimedia.org/2025/06/06/kaxabu-x-wikidata-lexeme-a-new-path-forward-for-language-preservation/

#噶哈巫 #Kaxabu
#Wikidata #維基資料 #維基數據 #lexeme
#南島族群 #南島語 #event #活動
#南投縣 #埔里鎮 #埔里數位機會中心

賽德克社群耆老正在討論屬性翻譯以及各語群翻譯!

在上週的賽德克 Wikidata Lexeme 工作坊中,我們除了進行 Wikidata Lexeme 編輯以外,也借助耆老的族語能力進行了 Wikidata Property (屬性) 的翻譯。

Wikidata 屬性用於呈現整個 Wikidata 的內容,因此對屬性進行翻譯是對於小型語言社群讓語言曝光最大化的一種方式。

在工作坊中,賽德克族人除了針對屬性的內容進行翻譯以外,由於賽德克族屬於多語群,包含有徳鹿谷(Truku)、都達(Toda)以及德固達雅(Tgdaya)等三個語群(尚有正在進行正名的督達語群);因此在屬性翻譯時,如何同步納入三個語群的翻譯相當重要,這也是在考量網站或是數位系統要納入原住民語時需要注意的議題。

Wikidata 無論是屬性或是項目都有 As Know As 的欄位,在共用的語言代碼下可以並列不同的拼寫法或不同的字詞,便能廣納各部落、各族群的不同說法。

翻譯成果摘要可以看當天的共筆文件:https://hackmd.io/@wikidata-tw/202505seediq

#Seediq ( #Tgdaya ) #Sediq ( #Toda )
#Seejiq ( #Truku ) #sjiq ( #Tuda )
#賽德克
#Wikidata #維基資料 #維基數據 #lexeme
#南島族群 #南島語 #event #活動
#南投縣 #埔里鎮 #埔里數位機會中心

賽德克 Wikidata Lexeme 工作坊 - HackMD

時間: 2025 年 5 月 18 日 13:30 - 17:00 地點:埔里數位機會中心(埔里DOC) 545南投縣埔里鎮蜈蚣路 36 號 2 樓

HackMD

噶哈巫 Wikidata 編輯工作坊 開場致詞!

Wikidata Taiwan 與噶哈巫文教協會合作的噶哈巫 Wikidata 編輯工作坊在昨天圓滿落幕,感謝所有夥伴的一同參與。

活動中我們簡介了如何以透過 Wikidata 以及維基媒體運動中的各平台來收錄族群傳統文化以及生活軌跡,同時在下半場也帶夥伴實際操作如果將現有的噶哈巫語辭彙透過 Wikidata Lexeme 的平台將辭彙內容資料庫化,並與世界各種語言互相串連。

本次的噶哈巫工作坊只是噶哈巫社群與維基社群合作的開端,未來會有更多的聚會與工作坊邀請大家共同關注臺灣的多元文化與在地語言;同時也歡迎其他臺灣在地族群的夥伴與我們聯繫一同舉辦各式不同的工作坊,共同為保存族群資料盡一份心力。

別忘了今天下午在同樣的地方一樣有 賽德克 Wikidata Lexeme 編輯工作坊 ,歡迎有興趣的社群夥伴一起過來與我們一起努力。

#Seediq ( #Tgdaya ) #Sediq ( #Toda )
#Seejiq ( #Truku ) #sjiq ( #Tuda )
#賽德克
#噶哈巫 #Kaxabu
#Wikidata #維基資料 #維基數據 #lexeme
#南島族群 #南島語 #event #活動
#南投縣 #埔里鎮 #埔里數位機會中心

如何應用 Wikidata 中的 Lexeme 資料,或許 Wikifunctions 可以來幫忙!

Wikifunctions 是一個新的維基媒體運動專案,其中收錄了程式碼也提供了程式碼執行的空間,目前社群開發出了以 Wikifunctions 可以應用 Wikidata Lexicographical data 的程式範例,歡迎臺灣社群可以參考應用範例做應用開發。

完整內容可參見:Wikifunctions: 使用 Wikidata 的資料(中譯) https://www.wikifunctions.org/wiki/Wikifunctions:Working_with_Wikidata_content/zh#

附圖為資料範例:Fetch Wikidata lexeme form https://www.wikifunctions.org/wiki/Z6824

#Wikidata #維基數據 #維基資料
#Wikifunctions #Lexeme #詞位 #詞彙

Wikifunctions: 使用 Wikidata 的資料 - Wikifunctions

賽德克 Wikidata Lexeme 編輯工作坊

。日期:2025 年 5 月 18 日下午一點半至五點
。地點: 南投縣 #埔里數位機會中心 ( #南投縣 #埔里鎮 蜈蚣路36號 )
。主講人: #王文岳 ( Wikidata Taiwan 社群共同召集人)
。活動場地提供電腦,仍可自備筆記型電腦。
。參加者可先至 Wikidata 頁面註冊帳號,已經有維基百科帳號者可以使用同一個帳號登入。
。報名頁面:https://wikidatatw.kktix.cc/events/seediq202505

活動簡介

#賽德克族 擁有獨特的語言與文化,但語言的使用面臨挑戰。如何利用數位工具來保存賽德克語,使其在未來世代中持續傳承?本課程將介紹 #Wikidata #Lexeme,一個開放的語言資料庫,讓賽德克語的詞彙、語法與發音能被標記並透過維基媒體生態系向世界分享。

本次課程將延續 2024 年 WE KEY 賽德克! Wikidata 賽德克語詞彙資料庫工作坊,再帶領社群共同豐富 Wikidata 中的賽德克語彙資訊;介紹 #Wikipedia 的姊妹計畫中 Wikidata Lexeme 詞位工具的應用與操作,並同步完善 Wikidata 中屬性內容的賽德克語翻譯。

課程將以課程與工作坊的形式進行,將會實際示範在 Wikidata 上建立賽德克語詞彙(包含 #徳鹿谷語 #Truku#都達語 #Toda 以及 #德固達雅語 #Tgdaya ),共同編輯與補充語言資料;此外,也會共同討論與編輯 Wikidata 中屬性內容的賽德克語翻譯。透過實際的數位保存行動,我們能讓賽德克語不僅在族內流傳,也讓世界看見這個珍貴的語言資產。

主辦單位:Seediq Wikipidiya #賽德克族維基百科社群、Wikidata Taiwan 臺灣維基數據社群
協辦單位:埔里數位機會中心、#MoWiki定期編輯聚會#台灣維基媒體協會

#維基資料 #維基數據
#南島族群 #南島語 #event #活動

賽德克 Wikidata 編輯工作坊

透過完善 Wikidata 中的賽德克語內容,將族語的運用再次擴展到全球數位資料生態系,歡迎賽德克族人與我們一起推展賽德克語的應用可能。