一聲輕鳴,燈光亮起,高光譜成像儀啟動,一枚躺在玻璃管里的簡牘被緩緩推入。不到半分鐘,簡牘的高光譜成像圖已經出現在屏幕上。
在甘肅省簡牘智能計算與數字人文工程研究中心的實驗室里,研究中心負責人、西北師范大學教授張強盯著紅外圖像和光譜曲線仔細分析:“很多簡牘文物封存在玻璃管里,不能輕易打開。利用高光譜成像儀掃描和算法處理,可以清晰提取其紅外圖像信息,為數據集提供更多支持。”
張強所說的數據集,是指簡牘字符檢測與識別大規模數據集,名為DeepJiandu數據集。今年3月,張強團隊聯合甘肅簡牘博物館等單位推出數據集,面向全球開放。
甘肅是全國簡牘出土最豐富的地區之一。20世紀以來,甘肅出土7萬余枚簡牘,以漢簡居多,內容涉及軍事、政務、醫藥、民俗等。
簡牘材料相對脆弱,經過長期埋藏,經常出現字符模糊、字跡缺損等情況。傳統的簡牘研究,處理一枚簡牘的工作量非常大,從定位文字、辨認字形,到記錄保存、成果分享都需要人工完成。
張強長期從事計算機科學與管理科學交叉研究工作,“我們如何通過多學科交叉融合,運用人工智能為簡牘學研究賦能?”張強帶領團隊,聯合甘肅簡牘博物館、上海中西書局、甘肅文化出版社等,先后收集4萬多枚簡牘圖版,整理4.5萬多條釋文、近20萬個字形等數據。去年6月,簡牘學術資源數據共享平臺正式上線,面向全球公開免費使用。
在共享平臺的研發、應用中,張強團隊提出了推出DeepJiandu數據集的想法。“大量看似復雜的簡牘特征信息是可以被提取的,該數據集為利用人工智能實現簡牘文字智能識別的特征提取提供了基礎和可能。”張強說。
數據集就像“養料”,張強團隊不斷地將其“喂給”各類分析算法。例如,對于一枚簡牘,團隊通過圖像增強、補全、定位等算法,通過大量數據模型訓練和算法優化,就能對其文字進行智能檢測和識別。
制作這樣的數據集,并非簡單地“把文字粘貼到表格里”。有些簡牘字跡模糊、書寫風格復雜,有些簡牘還存在著彎曲、斷裂等物理變形,加上不同簡牘的年代、地域不同,字體形態差異巨大、規范性差……經過反復試錯、細致標注,一個字一個字地“摳”,團隊開展了多輪對比測試。不斷調整優化后,基于DeepJiandu數據集的文字檢測精度提升至92%以上,對于一些常見漢字,數據集的表現更加穩定。
兩年中,張強團隊從不到5人擴展到30多人,人員學術背景構成也拓展到計算機、歷史、文學和管理等學科領域,目前正在穩步開展智能識別簡牘書寫風格、殘簡斷簡智能綴合、簡牘知識圖譜構建等研究項目。“希望更多人愿意加入進來,挖掘簡牘學的寶貴價值。”張強說。
《 人民日報 》( 2025年06月09日 12 版)
責任編輯:陸迪