我們知道 Wikidata 的資料可以用 SPARQL 語法做出各種不同的查詢方式跟資料呈現方式,但是怎麼樣產出對應的 SPARQL 語法一直都是大家困擾的地方,社群與 Wikidata 團隊也不斷在降低 SPARQL 語法上面持續努力。

《Conversational Lexicography: Querying Lexicographic Data on Knowledge Graphs with SPARQL through Natural Language》這篇論文探討如何讓非專業使用者能夠透過自然語言查詢 Wikidata 中的 Lexeme Data,而不需要直接使用 SPARQL 查詢語言。
研究團隊建立了一個多維分類法,解析 Wikidata Lexeme 的複雜性,並創建了一個包含超過 120 萬筆自然語言與 SPARQL 查詢對應的模板數據集。他們測試了 GPT-2、Phi-1.5 和 GPT-3.5-Turbo,發現 GPT-3.5-Turbo 在泛化能力上表現最佳,顯示模型規模與多樣化預訓練對適應能力至關重要。然而,研究也指出,在處理多樣化語言數據與擴展至完整詞典知識表示方面仍有挑戰。

更多完整資訊可參閱論文頁面:https://www.arxiv.org/pdf/2505.19971

#Wikidata #維基資料 #維基數據
#SPQRQL #QueryService #lexeme
#NaturalLanguage #LexicographicData