随著(zhe)知(zhī)識更新的(de)¶≈₩∏速度越來(lái)越快(kuài),信息發布、知(zhī)識傳播的(de)≠ ×₹時(shí)效性要(yào)求越來(lái)越高(gāo),新聞出版從(cóng)>€'業(yè)人(rén)員(yuán)編輯加工(gōng)文(wén)字的(d£ ✔e)工(gōng)作(zuò)量越來(lái)越大(dà),編校(xi↔≤αào)質量面臨的(de)挑戰也(yě)越來(lái)越多(duō)。與此同時(shí), >•人(rén)工(gōng)智能(néng)技(jì)術(shù)、®♥®自(zì)然語言理(lǐ)解技(jì)術(shù)、機(jī)器(qì¶↓ε)深度學習(xí)技(jì)術(shù)的(de ¶ )發展,為(wèi)內(nèi)容質量把關和(hé)提升提供了(le)φ₹新的(de)解決辦法。
12月(yuè)30日(rì),方正電(diàn)子(zǐ)正式發布方正智能(nε¶×≤éng)輔助審校(xiào)系統V1.0。這(zhè)是(shì)方正電(diàn)子(✘δ₽zǐ)聯合數(shù)字出版技(jì)術(shù♠ )國(guó)家(jiā)重點實驗室、高(gāo)等院校( ∏xiào)、行(xíng)業(yè)專家(jiā)等一β±α(yī)起進行(xíng)技(jì)術(shù)研究和(hé)攻關的(de)成果,也(yě)≈•是(shì)在衆多(duō)新聞出版單位的(de)積極參與和(hé)應用(yòngσ&≈)檢驗下(xià),經過不(bù)斷叠代更新的(de)産品,在字詞審♠≥∏↔校(xiào)、知(zhī)識審校(xiào)、格式審校(xiào)✘£、邏輯審校(xiào)方面都(dōu)取得(de)了(le)實質性的(de)進展。
▲方正智能(néng)輔助審校(xiào)産品功能(néng)介紹
系統簡介
方正智能(néng)輔助審校(xiào)立足新聞出版 <←π行(xíng)業(yè),并逐漸向整個(gè)文(wén)化(huà)傳媒領域延伸,為€(wèi)出版社、報(bào)刊社、民(mín)營書(shū)商、§€←排版公司、互聯網企業(yè)、政府機(jī)關等機(jī)構用(yòng)戶以及作★÷(zuò)者、工(gōng)作(zuò)室等個×∞₹≥(gè)人(rén)用(yòng)戶提供強大(dà)且易用(yòng)的(deε σ')智能(néng)輔助審校(xiào)服務。
該系統是(shì)專門(mén)為(wèi)新聞出版機(jī)♥構提供數(shù)字化(huà)內(nèi)容輔助審校(xiào)的(de)工(g& ōng)具,能(néng)夠對(duì)內(nèi)容進行(x♣±¥íng)多(duō)方面檢校(xiào),包括:字詞檢查、标點符号檢查、文(wén)章(zh✔×±āng)邏輯檢查、上(shàng)下(xià)文(wén)查重λ×、專業(yè)術(shù)語檢查、敏感詞檢查等。
該系統提供兩種産品形态的(de)服務,支持對(duì)Word稿件(✘&<±jiàn)和(hé)标準PDF稿件(jiàn)進行(x•γ"íng)內(nèi)容審校(xiào),滿足不(bù)同人($<×★rén)員(yuán)角色、不(bù)同工(gōng)作(zuò)場•✘(chǎng)景的(de)使用(yòng)需求。
01.Word客戶端插件(jiàn)
▲産品形态之一(yī):Word客戶端插件(jiàn)
02.雲端在線審校(xiào)平台
▲産品形态之二:雲端在線審校(xiào)平台
功能(néng)介紹
方正智能(néng)輔助審校(xiào)通(tōng)過語言模型和(hé)機& ≈(jī)器(qì)深度學習(xí)技(jì)術(shù),通(tōng)過構建算(suà ☆n)法模型對(duì)海(hǎi)量真實語料不λ(bù)斷訓練及優化(huà),累積的(de)λα≥錯(cuò)詞、專業(yè)術(shù)語、敏感詞、慎用(yòng)詞、異形詞等類型的(₽♥≠de)編校(xiào)知(zhī)識詞條超過百萬。
方正智能(néng)輔助審校(xiào)系統參考并依據《作(zuò)者編♠★輯常用(yòng)标準及規範》(第三版)《标點符号用(yòng)法 GBT 1583®₹4-2011》以及《圖書(shū)編輯校(xiào)對(duì)實用 ¶∞(yòng)手冊》《通(tōng)用(yòng)規範漢字表2013版》等←©©标準規範或權威資料,将模型、語料、規則三者相(xiàng) ±">結合,研發出邏輯類、字詞類、知(zhī)識類、格式類四類審校(xiào)功能(néng₹σ)。
通(tōng)過方正智能(néng)輔助審校(xià≥÷♠o)系統,使用(yòng)者不(bù)僅能(néng)夠對(duì)稿件$•(jiàn)中的(de)錯(cuò)詞錯(cuò)字、敏感詞、相(xiàng)似內(n✘$èi)容、公元紀年(nián)、曆史紀年(nián)、幹支紀年(ni→¶γán)、标點符号進行(xíng)檢查,還×$(hái)可(kě)以對(duì)稿件(jiàn)的(de)大(dà)綱标題、≤™ ✘圖表公式列表的(de)序号等進行(xíng)檢"β查,對(duì)于識别出的(de)錯(cuò)誤還(hái)可(kě)以±σ給出修改建議(yì),并且支持對(duì)錯(cuò)誤進行(xíng)快(→♥kuài)速定位、導出及修改。具體(tǐ)功能(néng)介紹如☆≥∑€(rú)下(xià):
錯(cuò)詞錯(cuò)字檢查
檢查稿件(jiàn)中是(shì)否存在錯(cuò)字、别字、疊字¥≥、疊詞,以及“的(de)地(dì)得(de)”類錯(cuò)♣✘δ誤。
▲圖中:“因些(xiē)該尺度具有(yǒu)﹥和(hé)﹤的(de)數(shù)學特性”,“因些€•♠(xiē)”需改為(wèi)“因此”
敏感詞檢查
敏感詞檢查包括國(guó)家(jiā)主權和(hé)領土(>λtǔ)完整、港澳台問(wèn)題、民(mín)族宗教問(wèn)題、國(guó)際關系等敏感內(n®<èi)容檢查。
▲不(bù)得(de)稱為(wèi)“全國(guó)人(rén)大(dà)副委員® (yuán)長(cháng)”
▲“珠穆朗瑪峰”不(bù)得(de)稱為(wèi)“額菲爾士峰”
▲“從(cóng)香港征集回國(guó)”,有(yǒu)将香港視(✘≥£♣shì)為(wèi)國(guó)家(jiā)的"✘§(de)嫌疑
▲“回族就(jiù)是(shì)伊斯蘭教”将民(mín)族和(hé)宗教混為(←♦wèi)一(yī)談
▲“錫金(jīn)是(shì)中國(guó)的(d✔∑↓¶e)鄰國(guó)”,2005年(nián)5月(yuè€π)起,不(bù)得(de)将錫金(jīn)作(zuò)為(wèi)獨≤γπ立國(guó)家(jiā)提及
▲對(duì)有(yǒu)身(shēn)體(tǐ)傷疾的(de)人(rén)士不(bù)> 使用(yòng)“獨眼龍”等蔑稱
标點檢查
檢查稿件(jiàn)中是(shì)否存在成對(β®☆duì)标點符号缺失或格式不(bù)一(yī)緻,以及不(↕'₽bù)同标點符号是(shì)否疊用(yòng)、連用(y §òng)的(de)錯(cuò)誤。
▲圖中:“但(dàn)其也(yě)有(yǒu)一(yī)些(xiē)缺陷,如(rú)發展→®>§速度易受資金(jīn)、,人(rén)力、時(shí)間(jiān)等方面的(de)限制(₽₹zhì)”,标點“、,”不(bù)應該連用(yòng)
大(dà)綱檢查
檢查稿件(jiàn)大(dà)綱的(de)标題序号是(shì)否連續,體(tǐ)例或格式是(sh₹♠ì)否一(yī)緻,标題內(nèi)容是(shì)否重複,是(shì)否為(→γwèi)孤标題。
▲圖中“3.為(wèi)加強業(yè)務管理(lǐ)……”中的(de)序号“3.”應改為(w襮i)“2.”
圖、表、公式、列表序号檢查
檢查稿件(jiàn)中圖片、表格、公式的(de)序¥×号是(shì)否存在不(bù)連續、體(tǐ)例或格式不(bù)一(yī↓<₽)緻、缺少(shǎo)引用(yòng)的(de)錯(cuò)誤。♦
▲圖中“圖1-6”應改成“圖1-5”,“圖2-2”應改成γ≤“圖2-1”
上(shàng)下(xià)文(wén)查重
檢查稿件(jiàn)中是(shì)否存在相(xiàng)似度較÷↓★∏高(gāo)或者完全相(xiàng)同的(de)內(nèi)容。✔δ&
▲圖中稿件(jiàn)第10頁和(hé)第8↑♦2頁兩句話(huà)重複,且內(nèi)容✔¥完全相(xiàng)同
紀年(nián)檢查
檢查稿件(jiàn)中的(de)紀年(nián)類內(nèi)容是(sh₹×ì)否存在公元年(nián)份、幹支紀年(nián)以及曆史紀年(nián)的€σπ(de)錯(cuò)誤。
▲圖中稿件(jiàn)“正德三年(nián)(1508)”應改為(wèi)“正德三年←α∞(nián)(1713)”;“明(míng)嘉靖癸己年(nián)(1533)”應改為(wèi)↔§“明(míng)嘉靖癸巳年(nián)(1533)”
格式檢查
檢查稿件(jiàn)中數(shù)值的(de ↓× )千分(fēn)空(kōng)是(shì)否使用(yòng)正确,數(shù)值與單位符♣™™号之間(jiān)是(shì)否使用(yòng)了(le)不(bù)間(jiān)©γ ♥斷空(kōng)格,以及數(shù)學符号是(shì)否使用₽÷(yòng)了(le)中文(wén)全角。
▲圖中:“有(yǒu)兩個(gè)鄉(xiāng)的(de)水(shuǐ§₹)稻平均單産都(dōu)是(shì)400kg,甲鄉(xiān☆©↑g)的(de)水(shuǐ)稻單産在350~4₹≠50kg之間(jiān)的(de)地(dì)塊”,“4λ 00kg”和(hé)“450kg”,數(shù)值和(hé)單•Ω₩位kg之間(jiān)沒有(yǒu)使用(yòng)不(bù)間(jiān)↑←σδ斷空(kōng)格;“%”應該使用(yòng)半角格式
公式識别
方正審校(xiào)還(hái)提供公式識别功能(néng),除了(le)能(néng)夠将↔✔圖片格式的(de)公式識别為(wèi)可(kě)編輯的(de≤"✔×)MathType公式外(wài),還(hái)可(kě)對(duì)全文(wén≠&₽∑)所有(yǒu)公式進行(xíng)內(nèi)容一(yī)緻性檢查。
▲圖片格式的(de)公式利用(yòng)公式識别功能(néng),可•§(kě)以快(kuài)速轉換為(wèi)可(kě)編輯的(de)文(wén)字公式
此外(wài),該産品還(hái)內(nèi)嵌正版《大(dà)辭海(hǎi)》,用(yòng¥¶)戶可(kě)以很(hěn)方便地(dì)利用(yòng)該功能(néng)對(γε∞duì)稿件(jiàn)中的(de)名詞術(shù$ 'α)語進行(xíng)檢索。
核心技(jì)術(shù)
方正智能(néng)輔助審校(xiào)系統基于方正™≤三十餘年(nián)在內(nèi)容處理(♦★∏lǐ)方面的(de)技(jì)術(shù)積累,結合北(běi♥¥)京大(dà)學、數(shù)字出版技(jì)術(shù)國(guó)家(jiā)•>重點實驗室等在自(zì)然語言處理(lǐ)方面的(de)最≤•新研究成果,并在數(shù)十家(jiā)用(y©★òng)戶驗證反饋的(de)基礎上(shàng)研發而成。系統采用(yò•λng)雲架構、應用(yòng)機(jī)器(qì)學習(x♦≥π★í)和(hé)深度學習(xí),融合分(Ωφfēn)詞、實體(tǐ)識别、句法分(fēn)析、深度語言模'♦型等技(jì)術(shù),圍繞圖書(shū)、期刊出版規範标準對(duì)內( ×α§nèi)容和(hé)體(tǐ)例進行(xíng)檢€®δ♣查。
通(tōng)過建立學科(kē)領域知(zhī)識模型和(hé)大(dà)規模語料庫進行¶✘☆(xíng)訓練學習(xí),基于深度學習(xí)的(de)序列标注和(hé)通(> ♦πtōng)順度評價算(suàn)法,利用(yòng)字詞混淆對(duì)集候選結果進行(xín¶βg)綜合排序,并進一(yī)步結合大(dà)規模知(zhī)識和(h¶☆ é)語料庫進行(xíng)常識檢查,形成包括錯(α®cuò)别字、用(yòng)詞不(bù)當、敏感詞等十二類檢→∏查的(de)智能(néng)化(huà)引擎,生(shēng)成具有(yλΩλ ǒu)可(kě)反饋學習(xí)和(hé)強交互的(de)勘誤表。
方正智能(néng)輔助審校(xiào)系統具備審校(xiào)準确率高(gāo±≥♠)、查全率高(gāo)、速度快(kuài)、語料更新及時(shí)、₩≥≈♦用(yòng)戶使用(yòng)方便等特點。在産品試用(yòng)λ♣階段,已在全國(guó)範圍內(nèi)100多(duō)個(gè)機(jī)構用(yòn♣¶™×g)戶試用(yòng)。
未來(lái),方正智能(néng)輔助審校(xiào)系統還(hái)将 ÷↔®通(tōng)過人(rén)工(gōng₽♠)智能(néng)技(jì)術(shù)賦能(néng)行(xíng)業(yè)智能(n←β₩★éng)化(huà)升級,以優異的(de)産品和(h≈é)技(jì)術(shù)為(wèi)出版行(xíng)業(yè)各單位創"¶δ造更大(dà)的(de)價值。