我們知道 Wikidata 的資料可以用 SPARQL 語法做出各種不同的查詢方式跟資料呈現方式,但是怎麼樣產出對應的 SPARQL 語法一直都是大家困擾的地方,社群與 Wikidata 團隊也不斷在降低 SPARQL 語法上面持續努力。

《Conversational Lexicography: Querying Lexicographic Data on Knowledge Graphs with SPARQL through Natural Language》這篇論文探討如何讓非專業使用者能夠透過自然語言查詢 Wikidata 中的 Lexeme Data,而不需要直接使用 SPARQL 查詢語言。
研究團隊建立了一個多維分類法,解析 Wikidata Lexeme 的複雜性,並創建了一個包含超過 120 萬筆自然語言與 SPARQL 查詢對應的模板數據集。他們測試了 GPT-2、Phi-1.5 和 GPT-3.5-Turbo,發現 GPT-3.5-Turbo 在泛化能力上表現最佳,顯示模型規模與多樣化預訓練對適應能力至關重要。然而,研究也指出,在處理多樣化語言數據與擴展至完整詞典知識表示方面仍有挑戰。

更多完整資訊可參閱論文頁面:https://www.arxiv.org/pdf/2505.19971

#Wikidata #維基資料 #維基數據
#SPQRQL #QueryService #lexeme
#NaturalLanguage #LexicographicData

Wikidata 查詢服務正在分割!
未來學術文章與通用內容將分開查詢!

未來一般內容查詢服務將使用原本的 Query Service:https://query.wikidata.org/
學術文章查詢服務將使用 Scholarly Query Service:https://query-scholarly.wikidata.org/

目前正在測試中,詳情可參閱:https://www.wikidata.org/wiki/Wikidata:SPARQL_query_service/WDQS_graph_split

#Wikidata #維基資料 #維基數據
#QueryService #WDQS

Why does the URL Shortener (https://meta.wikimedia.org/wiki/Special:UrlShortener) have a limit of 2000 characters?
There are multiple queries that are longer than that...
#Wikidata #QueryService
URL Shortener - Meta-Wiki