WAIC2024:甲骨文多模態數據集宣佈開源 AI技術接入可研發多種智能算法

来源：环球网

【环球网科技报道记者李文瑶】7月5日，在世界人工智能大会上，“数字甲骨共创中心”宣布将全球最大的甲骨文多模态数据集正式开源。该数据集包含一万片甲骨的拓片、摹本，以及甲骨单字对应位置、对应字头、对应隶定字以及辞例分组、释读顺序等数据。基于该数据集，研究人员可开发甲骨文检测、识别、摹本生成、字形匹配以及释读等方向的智能算法，助推甲骨文研究加速数字化和智能化。

据介绍，数字甲骨共创中心由安阳师范学院甲骨文信息处理教育部实验室、腾讯SSV数字文化实验室、腾讯优图实验室、中国社会科学院甲骨学殷商史研究中心、中国社会科学院考古研究所安阳工作站、厦门大学多媒体可信感知与高效计算教育部重点实验室、郑州大学汉字文明研究中心等单位共同发起建立，吸纳了来自中国社会科学院古代史研究所、英国剑桥大学、法国高等研究实践学院、日本立命馆大学、美国罗格斯大学、加州大学洛杉矶分校等高校和研究机构的专业科研力量支持。

据了解，目前甲骨文研究存在众多难点。甲骨自然损坏速度较快，保存、展示、利用不易，且出土甲骨都分散收藏于国内外。同时，甲骨文研究专业门槛高，近7成已发现甲骨文还尚未释读，也急需提升考释效率。近年来，随着AI技术的快速发展，探索AI与甲骨文研究相结合，成为了研究人员的解题思路。

高质量的AI算法则非常依赖高质量的甲骨文数据集。过往，业界的甲骨文数据集存在信息简陋、标注信息较简单以及单一数据集字数较少等问题，比如检测数据集，只能把字抠出来，不知道字是什么；字符识别数据集，只能认几百个字；因为专业知识缺乏，有些标注信息不完善等。这些也成为了甲骨文智能算法开发的一大掣肘。

此次开源的甲骨文多模态数据集集合了甲骨文数字化研究的最新成果。

一方面，该数据集吸收了当前业界最先进的甲骨文研究资料，包括剑桥大学博士秦培超发布的镜元甲骨文字库，该字库考虑了人工智能标注需求的字库进行了细粒度的异体字标识；以及清华大学黄天树教授发布的《摹本大系》，得益于其具有大量甲骨片清晰字形，降低了标注的难度。

另一方面，AI相关技术的应用也为数据集的信息丰富提供了支撑。比如由腾讯优图实验室联合安阳团队开发的甲骨字检测模型，可以对甲骨片上的字进行一个初步的标注；字形降噪与匹配模型，为检索提供了最直接的方法；甲骨校重算法，可以实现拓片与大系摹本的配准，使得大系摹本可以直接辅助拓片的标注；同时双方联合打造的协同创新平台，也大大提升了数据标注的效率。

此外，数据集专业复查以甲骨文信息处理实验室的研究生为主力，充分融合了甲骨文知识和机器学习知识的专业知识，也大大提升了数据集在AI算法研究场景下的可用性。

腾讯云副总裁、腾讯云智能负责人、腾讯优图实验室负责人吴运声表示，人工智能正在给包括甲骨文研究在内的科研场景带来新能量，以前所未有的方式推动科研工作的进展。作为前沿技术的探索者，腾讯不断探索将人工智能技术深度应用于产业场景中，同时搭建开放的技术平台，推动技术普惠。此次联合数字甲骨共创中心开源全球最大甲骨文多模态数据集，我们期待有更多技术团队能够携手共进，探索人工智能技术在更多场景落地，共同为甲骨文研究提供更多助力。

來源：環球網

【環球網科技報道記者李文瑤】7月5日，在世界人工智能大會上，“數字甲骨共創中心”宣佈將全球最大的甲骨文多模態數據集正式開源。該數據集包含一萬片甲骨的拓片、摹本，以及甲骨單字對應位置、對應字頭、對應隸定字以及辭例分組、釋讀順序等數據。基於該數據集，研究人員可開發甲骨文檢測、識別、摹本生成、字形匹配以及釋讀等方向的智能算法，助推甲骨文研究加速數字化和智能化。

據介紹，數字甲骨共創中心由安陽師範學院甲骨文信息處理教育部實驗室、騰訊SSV數字文化實驗室、騰訊優圖實驗室、中國社會科學院甲骨學殷商史研究中心、中國社會科學院考古研究所安陽工作站、廈門大學多媒體可信感知與高效計算教育部重點實驗室、鄭州大學漢字文明研究中心等單位共同發起建立，吸納了來自中國社會科學院古代史研究所、英國劍橋大學、法國高等研究實踐學院、日本立命館大學、美國羅格斯大學、加州大學洛杉磯分校等高校和研究機構的專業科研力量支持。

據了解，目前甲骨文研究存在衆多難點。甲骨自然損壞速度較快，保存、展示、利用不易，且出土甲骨都分散收藏於國內外。同時，甲骨文研究專業門檻高，近7成已發現甲骨文還尚未釋讀，也急需提升考釋效率。近年來，隨着AI技術的快速發展，探索AI與甲骨文研究相結合，成爲了研究人員的解題思路。

高質量的AI算法則非常依賴高質量的甲骨文數據集。過往，業界的甲骨文數據集存在信息簡陋、標註信息較簡單以及單一數據集字數較少等問題，比如檢測數據集，只能把字摳出來，不知道字是什麼；字符識別數據集，只能認幾百個字；因爲專業知識缺乏，有些標註信息不完善等。這些也成爲了甲骨文智能算法開發的一大掣肘。

此次開源的甲骨文多模態數據集集合了甲骨文數字化研究的最新成果。

一方面，該數據集吸收了當前業界最先進的甲骨文研究資料，包括劍橋大學博士秦培超發佈的鏡元甲骨文字庫，該字庫考慮了人工智能標註需求的字庫進行了細粒度的異體字標識；以及清華大學黃天樹教授發佈的《摹本大系》，得益於其具有大量甲骨片清晰字形，降低了標註的難度。

另一方面，AI相關技術的應用也爲數據集的信息豐富提供了支撐。比如由騰訊優圖實驗室聯合安陽團隊開發的甲骨字檢測模型，可以對甲骨片上的字進行一個初步的標註；字形降噪與匹配模型，爲檢索提供了最直接的方法；甲骨校重算法，可以實現拓片與大系摹本的配準，使得大系摹本可以直接輔助拓片的標註；同時雙方聯合打造的協同創新平台，也大大提升了數據標註的效率。

此外，數據集專業複查以甲骨文信息處理實驗室的研究生爲主力，充分融合了甲骨文知識和機器學習知識的專業知識，也大大提升了數據集在AI算法研究場景下的可用性。

騰訊雲副總裁、騰訊雲智能負責人、騰訊優圖實驗室負責人吳運聲表示，人工智能正在給包括甲骨文研究在內的科研場景帶來新能量，以前所未有的方式推動科研工作的進展。作爲前沿技術的探索者，騰訊不斷探索將人工智能技術深度應用於產業場景中，同時搭建開放的技術平台，推動技術普惠。此次聯合數字甲骨共創中心開源全球最大甲骨文多模態數據集，我們期待有更多技術團隊能夠攜手共進，探索人工智能技術在更多場景落地，共同爲甲骨文研究提供更多助力。

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

WAIC2024:甲骨文多模态数据集宣布开源 AI技术接入可研发多种智能算法

WAIC2024:甲骨文多模態數據集宣佈開源 AI技術接入可研發多種智能算法

風險及免責聲明

聲明