share_log

WAIC2024:甲骨文多模态数据集宣布开源 AI技术接入可研发多种智能算法

WAIC2024:甲骨文多模態數據集宣佈開源 AI技術接入可研發多種智能算法

環球網 ·  17:10

來源:環球網

【環球網科技報道 記者 李文瑤】7月5日,在世界人工智能大會上,“數字甲骨共創中心”宣佈將全球最大的甲骨文多模態數據集正式開源。該數據集包含一萬片甲骨的拓片、摹本,以及甲骨單字對應位置、對應字頭、對應隸定字以及辭例分組、釋讀順序等數據。基於該數據集,研究人員可開發甲骨文檢測、識別、摹本生成、字形匹配以及釋讀等方向的智能算法,助推甲骨文研究加速數字化和智能化。

據介紹,數字甲骨共創中心由安陽師範學院甲骨文信息處理教育部實驗室、騰訊SSV數字文化實驗室、騰訊優圖實驗室、中國社會科學院甲骨學殷商史研究中心、中國社會科學院考古研究所安陽工作站、廈門大學多媒體可信感知與高效計算教育部重點實驗室、鄭州大學漢字文明研究中心等單位共同發起建立,吸納了來自中國社會科學院古代史研究所、英國劍橋大學、法國高等研究實踐學院、日本立命館大學、美國羅格斯大學、加州大學洛杉磯分校等高校和研究機構的專業科研力量支持。

據了解,目前甲骨文研究存在衆多難點。甲骨自然損壞速度較快,保存、展示、利用不易,且出土甲骨都分散收藏於國內外。同時,甲骨文研究專業門檻高,近7成已發現甲骨文還尚未釋讀,也急需提升考釋效率。近年來,隨着AI技術的快速發展,探索AI與甲骨文研究相結合,成爲了研究人員的解題思路。

高質量的AI算法則非常依賴高質量的甲骨文數據集。過往,業界的甲骨文數據集存在信息簡陋、標註信息較簡單以及單一數據集字數較少等問題,比如檢測數據集,只能把字摳出來,不知道字是什麼;字符識別數據集,只能認幾百個字;因爲專業知識缺乏,有些標註信息不完善等。這些也成爲了甲骨文智能算法開發的一大掣肘。

此次開源的甲骨文多模態數據集集合了甲骨文數字化研究的最新成果。

一方面,該數據集吸收了當前業界最先進的甲骨文研究資料,包括劍橋大學博士秦培超發佈的鏡元甲骨文字庫,該字庫考慮了人工智能標註需求的字庫進行了細粒度的異體字標識;以及清華大學黃天樹教授發佈的《摹本大系》,得益於其具有大量甲骨片清晰字形,降低了標註的難度。

另一方面,AI相關技術的應用也爲數據集的信息豐富提供了支撐。比如由騰訊優圖實驗室聯合安陽團隊開發的甲骨字檢測模型,可以對甲骨片上的字進行一個初步的標註;字形降噪與匹配模型,爲檢索提供了最直接的方法;甲骨校重算法,可以實現拓片與大系摹本的配準,使得大系摹本可以直接輔助拓片的標註;同時雙方聯合打造的協同創新平台,也大大提升了數據標註的效率。

此外,數據集專業複查以甲骨文信息處理實驗室的研究生爲主力,充分融合了甲骨文知識和機器學習知識的專業知識,也大大提升了數據集在AI算法研究場景下的可用性。

騰訊雲副總裁、騰訊雲智能負責人、騰訊優圖實驗室負責人吳運聲表示,人工智能正在給包括甲骨文研究在內的科研場景帶來新能量,以前所未有的方式推動科研工作的進展。作爲前沿技術的探索者,騰訊不斷探索將人工智能技術深度應用於產業場景中,同時搭建開放的技術平台,推動技術普惠。此次聯合數字甲骨共創中心開源全球最大甲骨文多模態數據集,我們期待有更多技術團隊能夠攜手共進,探索人工智能技術在更多場景落地,共同爲甲骨文研究提供更多助力。

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論