1. <output id="xv37x"><ruby id="xv37x"><option id="xv37x"></option></ruby></output>
    2. <dd id="xv37x"></dd>
    3. HOME

      010-82786818 / 010-82786999

      ×分享到微信

      打開微信,使用“掃一掃”即可分享

      漢王還有這功夫

      作為一種使用了幾百年的語言,清代滿文檔案包羅萬象,涉及面極為廣泛,是研究清代通史和各種專史的第一手資料。而且,其反映的內容多不見于漢文檔案和其他文獻,具有重要的利用和研究價值。另外,滿文檔案中有關水文、氣象、地理、物產等方面的文件,對我國現代化建設具有一定的參考價值。
      數年前,國家與各地檔案館、圖書館,就已經開始古籍保存的工作,早期的出發點在于“保護”,即用專門的掃描儀對古籍進行掃描成像,閱覽時無需翻閱原版。然而,這種方式的缺點在于難搜索,看圖像時需要逐頁翻看,且不能剪切、拷貝以及做摘要記錄。
      因此,古籍收錄成為當下重點。古籍收錄有兩種方法,一種是依靠手工進行打字及校對,因其工作量巨大,通常情況下只能解決標題、目錄以及摘要的檢索需求。而另一種方法,是數字化保護,即利用現代信息技術對古籍文獻進行加工處理,使其轉化為電子數據的形式,從而形成古籍文獻書目數據庫和古籍全文數據庫,以達到對古籍長期保護和利用的目的。
      漢王作為國內最早開始研發中文識別的企業之一,在多年的研發和識別經驗的積累下為古籍的數字化保護提供了良好的解決方案。漢王科技旗下子公司漢王數字,利用OCR識別技術(Optical Character Recognition,光學字符識別,該技術為人工智能研究的重要領域之一)對古籍進行識別與收錄,再輔之以圖像的整理與美化,可以快速且高效地完成古籍保護工作。


       
      古籍數字化保護,說易行難。OCR技術雖然在很多領域已經相當成熟,但在2011年底漢王初次接觸古籍識別時,行業中利用OCR進行古籍數字化僅僅處于起步階段,直到今天放眼這一領域,能利用OCR進行古籍數字化的公司也是寥寥無幾。且由于當時缺乏訓練樣本,深度學習技術尚未實用,只能利用傳統機器學習方法對古籍文檔進行操作,經歷切分、識別等一系列處理流程后,其準確率不足50%。根據漢王數字在古籍保護領域的經驗,與現代文本相比,古籍識別有幾大難點。
      首先,古文字數量多且難以識別。對于簡體漢字來說,早期字符集GB2312收錄簡體漢字6763個,3000字已覆蓋到99%常用書面資料。而在漢字古籍中,常用文字已超過10000個,類別多,訓練所需樣本數目巨大,訓練時難以收斂,需要消耗許多時間。



      【古籍樣張】
       
      其次,由于古文演變周期較長,存在大量的通假字、異體字,給古籍文字的編碼帶來了極大的挑戰。此外,這些復雜的文字形式也造成了字形間的區分困難,許多相近字的寫法過于相像,甚至無法用人眼分辨。因此出現大量標記錯誤樣本,為數據的清洗及訓練帶來極大的挑戰。
      同時,古籍識別對技術人員也有著較強專業知識的要求,以滿文為例,雖然字母在數量上沒有漢字大,但是其字形卻為數字化帶來了難題。滿文字母多是成串出現,從上到下排列,相似字形多,技術人員需要知道每個字母或者音節的書寫規律及分隔位置。而懂滿文的人鳳毛麟角,泱泱中華不過數十人左右。不懂滿文,技術人員就需找到滿文專家學習滿文,了解滿文規律,才能設計出融入相關規律的識別算法,對其進行準確識別。
      另外,剛開始的時候,漢王古籍識別受數據獲取方面的限制,只能從少量古籍片段甚至是單詞中獲取相應的數據。在開始進行古籍數字化的時候,收集數據的過程非常艱難,前期需要通過算法與人工的結合來獲取數據,然后不斷發現錯誤的數據,對其進行標記修改后重新訓練,進行一步步迭代,而迭代過程經歷的時間會很長。而就載體而言,古籍紙質本身粗糙,且時間久遠,受水漬、搬運、保存不當等影響,識別時也會受到很大程度的干擾。



      【《地方志》還原結果】
       
      得益于漢王多年的識別技術積累,借著近年來深度學習的技術潮流,漢王數字在古籍識別方面取得了突破性的發展?;诖罅繑祿闹?,在獲取古籍數據后,漢王數字的技術人員對其進行基本的分析,并針對問題數據進行清洗和有效的預處理。然后,根據數據的情況,建立合適的深度學習模型。為了更好地提升效果,漢王訓練多個模型并集成使用,目前在漢王的不斷努力下中文古籍識別準確率已達到98%。
      而對于滿文古籍這一比價特殊的少數民族古籍,漢王也有著良好的解決方案,早在2016年漢王就以唯一合作方的身份和國家第一歷史檔案館合作完成了“滿文檔案圖像識別軟件”的研發,這款軟件在對滿文檔案掃描圖像進行識別后,能自動轉換成拉丁字母,也可以轉換成標準的滿文,極大提高了手寫體滿文向拉丁字母和滿文標準字體的轉化效率。“經專家評審,認為此次研發的滿文輸入法和軟件達到了國內外領先水平,具有重要的推廣實用價值,可用以建立滿文檔案全文檢索數據庫,為實現滿文檔案的數字化和信息化提供新的現代化途徑。”這也意味著現在漢王是能做手寫體滿文識別的第一家企業。
      漢王在識別領域一直是行業的引領者,這得益于漢王人不斷創新的進取精神,同時作為一家民族科技創新企業漢王也有著強烈的民族責任感,做好古籍、滿文識別讓古籍資料更好的為人所知,更好的保存是漢王應該也必須去做的,未來漢王將努力在這些方面做得更好。
      午夜快成播人免费网站