
近日,由華東師范大學(xué)與麗江師范學(xué)院組成的社會(huì)實(shí)踐團(tuán)隊(duì)聯(lián)合麗江市東巴文化研究院,依托語(yǔ)言文字基礎(chǔ)理論與多種人工智能技術(shù),成功研發(fā)并發(fā)布東巴古籍智能翻譯系統(tǒng)。
東巴文是納西族的獨(dú)特文字,擁有1400多個(gè)單字,是目前世界上唯一存活的象形文字,被譽(yù)為文字的“活化石”。麗江市東巴文化研究院編著的《納西東巴古籍譯注全集》于2003年被聯(lián)合國(guó)教科文組織列入《世界記憶名錄》。然而,由于其字符的多樣性和非標(biāo)準(zhǔn)化特征,傳承復(fù)雜且充滿挑戰(zhàn)。
基于此,2021年底,華東師范大學(xué)、麗江師范學(xué)院和麗江市東巴文化研究院組建跨領(lǐng)域?qū)<覉F(tuán)隊(duì),啟動(dòng)?xùn)|巴古籍智能翻譯系統(tǒng)研發(fā)項(xiàng)目。系統(tǒng)以實(shí)際翻譯流程建模,構(gòu)建“圖像—語(yǔ)音—直譯—意譯”級(jí)聯(lián)式智能翻譯流程。在人工采集與專家協(xié)作基礎(chǔ)上,建立包含257760個(gè)手寫東巴文的數(shù)據(jù)庫(kù),集成563580組“形、音、義”多模態(tài)數(shù)據(jù)集。通過(guò)深度學(xué)習(xí)技術(shù),實(shí)現(xiàn)對(duì)東巴古籍中象形文字的智能化識(shí)別與分割處理,并以華東師范大學(xué)智能教育研究院自主研發(fā)的教育大模型EduChat為基座,經(jīng)過(guò)大量語(yǔ)料數(shù)據(jù)訓(xùn)練,實(shí)現(xiàn)東巴文智能翻譯的領(lǐng)域適應(yīng)。
經(jīng)過(guò)近3年的努力,該系統(tǒng)初步實(shí)現(xiàn)東巴古籍的智能識(shí)別與翻譯功能,不僅可以實(shí)時(shí)反饋提供修改建議,優(yōu)化翻譯流程,還支持用戶對(duì)翻譯結(jié)果進(jìn)行個(gè)性化調(diào)整,以滿足專業(yè)研究的需求。
麗江市東巴文化研究院院長(zhǎng)和潔蕾表示,該系統(tǒng)的研發(fā)是數(shù)智時(shí)代背景下人工智能與多學(xué)科交叉融合的探索,將推動(dòng)?xùn)|巴古籍文獻(xiàn)的深度保護(hù)、研究和利用。
據(jù)悉,三方還將深入探索東巴文的語(yǔ)義和文化細(xì)節(jié),擴(kuò)展多模態(tài)語(yǔ)料庫(kù),持續(xù)優(yōu)化和迭代東巴古籍智能翻譯系統(tǒng)。(記者 李興文 李鐵成 和茜)