合合信息用AI 搶救古彝文 發布業內首個編碼數據庫
微新創想(idea2003.com)9月27日 消息:據第一財經消息,近日,合合信息聯合上海大學、華南理工大學,發布了業內首個古彝文基礎編碼數據庫。該數據庫通過人工智能技術,對云貴地區流傳的古彝文字符進行數字化編碼,編制成類似“大字典”的數據庫,以幫助相關人士更便捷地查詢古彝文的讀音和釋義。
圖源備注:圖片由AI生成,圖片授權服務商Midjourney
據介紹,古彝文指民間流傳使用的原生態彝文,有87046個字符,遠多于漢字。其中,《西南彝志》是目前發現的篇幅最長、內容最豐富的古彝文典籍。但由于古彝文異體字繁多,一個字可有幾十種不同寫法,給古籍數字化帶來巨大挑戰。
為突破難點,項目組采用智能圖像處理、文字識別等人工智能技術,對7萬6千余個樣本進行訓練,建立古彝文統一的數字編碼。數據庫發布后,相關用戶只需輸入一串編碼,就可查詢到字的讀音、釋義等信息,大大降低了閱讀古籍的門檻。
合合信息表示,數據庫的發布是基礎性工作,有助更多人認識、研究古彝文,也為語言文明的保護提供了新路徑。當前,數字化已成為文化傳承的重要途徑。數據庫項目表明,人工智能可以發揮重要作用,助力傳統文化走向數字化。