模板化翻譯 英漢翻譯模板的標(biāo)準(zhǔn)化方案及其應(yīng)用
日期:2023-03-11 12:39:36 / 人氣: 734 / 發(fā)布者:成都翻譯公司
基礎(chǔ)上開發(fā)高質(zhì)量的英漢翻譯系統(tǒng)提供了可能性。譯模板庫的基礎(chǔ)上開發(fā)高質(zhì)量的英漢翻譯系統(tǒng)提供了可能性。然后再利用通用模板匹配替換算法進(jìn)行從源語言到目標(biāo)語言的翻譯[25]。下面將討論一個建立英漢翻譯模板的初步標(biāo)準(zhǔn)化方案。首先,將英漢翻譯模板根據(jù)其源語言部分分為靜態(tài)模板和動態(tài)模板。大規(guī)模模板庫為基礎(chǔ)的機(jī)器翻譯技術(shù)也將再創(chuàng)新高。智能化英漢翻譯系統(tǒng)IMT/EC.基于通用模板匹配替換方法的英漢翻譯系統(tǒng).李玉健,北京工業(yè)大學(xué)計算與計算機(jī)學(xué)院,多媒體與智能軟件技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100022 E-mail:摘要:在機(jī)器翻譯系統(tǒng)中,模板可以作為知識表示的方法. 組織的戰(zhàn)略將極大地影響系統(tǒng)的整體性能。本文討論了英漢翻譯模板的標(biāo)準(zhǔn)化,提出了初步方案,并將其應(yīng)用于英漢翻譯系統(tǒng)的設(shè)計和實(shí)現(xiàn)。已取得初步成功,并驗(yàn)證了方案的可行性。它為基于大規(guī)模模板庫開發(fā)高質(zhì)量的英漢翻譯系統(tǒng)提供了可能。在2005年舉辦的863測評中,本文開發(fā)的英漢翻譯系統(tǒng)達(dá)到的水平:對話翻譯手冊評價的忠誠度和流暢度分別為73.62 68.16章翻譯手冊評價忠誠度的流暢度和流暢度為分別為 41.16 和 31.45。關(guān)鍵詞:機(jī)器翻譯;翻譯模板;標(biāo)準(zhǔn)化中文圖書館分類號:T391.2 StandardizationStrategy 英漢翻譯模板及其應(yīng)用李玉劍學(xué)院計算機(jī)科學(xué)技術(shù)模板化翻譯,北京大學(xué)技術(shù),北京100022,中國北京市重點(diǎn)實(shí)驗(yàn)室智能軟件技術(shù)E-mail:摘要:機(jī)器翻譯系統(tǒng),模板能的知識表示方法,極大地影響整個系統(tǒng)的性能。
但是,由于自然語言的極端復(fù)雜性,目前還沒有一種分析策略可以完全解決機(jī)器翻譯系統(tǒng)中涉及的各種問題。為了綜合利用這三種方法的優(yōu)點(diǎn),克服各自的問題,一種常用的方法是將多種翻譯策略有機(jī)地結(jié)合起來,實(shí)現(xiàn)各種策略之間的優(yōu)勢互補(bǔ),提高系統(tǒng)的性能[15-17]。在機(jī)器翻譯的研究中,除了多種策略的綜合集成,另一個重要的方法是增加處理粒度[18]。用中心詞標(biāo)注的目的是為了簡化處理句子結(jié)構(gòu),解決機(jī)器翻譯的歧義?;趬K的方法是近年來自然語言領(lǐng)域出現(xiàn)的一種新思想[19]。目前,對單語詞塊的研究已經(jīng)取得了很多成果[21-24]??梢源?Chunk 進(jìn)行機(jī)器翻譯的一個概念是模板。簡單的說,一個模板可以看成是一個有變量的Chunk,一個Chunk可以看成是一個沒有變量的模板。使用模板而不是塊可以將許多塊合并為一個模板。因此,作為特例,語料庫中模板的頻率大于Chunk的頻率。因此,為了表征一個語料庫中的語言現(xiàn)象,所需的模板數(shù)量將遠(yuǎn)少于所需的Chunk數(shù)量。盡管模板可能比 Chunk 具有更多的歧義,但通??梢越馕瞿0逯械膯蝹€模板。
本文討論了模板的定義,討論了英漢翻譯模板的標(biāo)準(zhǔn)化,并提出了初步方案,結(jié)合句法分析技術(shù)和模板匹配替換通用算法,應(yīng)用于英漢翻譯系統(tǒng)的設(shè)計和實(shí)現(xiàn)。 . 已取得初步成功,并驗(yàn)證了方案的可行性,從而為基于大型英漢翻譯模板庫開發(fā)高質(zhì)量的英漢翻譯系統(tǒng)提供了可能。模板的定義和描述 各種自然語言中重復(fù)使用的模板結(jié)構(gòu)很多。抽象地講,模板可以看作是具有一定穩(wěn)定性的語言認(rèn)知結(jié)構(gòu)。每個模板結(jié)構(gòu)通常由幾個常量和變量組成。例如,英語短語“give sth. sb”。是一個模板結(jié)構(gòu),單詞“give”和“to”是常量,“sth”。和“某人” 是一個變量。當(dāng)一個模板中的所有變量都替換為它們能得到的常量值時,得到的詞序列稱為模板的一個實(shí)例。例如,“give me”是“givesth. sb”的一個實(shí)例。為了某概念,本文還引用了一些沒有變量的特殊短語或句子作為模板。從形式語言學(xué)的角度來看,模板中的常量項(xiàng)是終結(jié)符,模板中的變量項(xiàng)是非終結(jié)符。源語言模板 (ST, Source Template) 往往有對應(yīng)的另一種語言的目標(biāo)語言模板(TT,Target Template)。源語言模板和目標(biāo)語言模板形成的有序?qū)Α癝TTT”通常稱為翻譯模板。
在傳統(tǒng)的翻譯模板概念中,通常要求一個源語言模板只能有一個目標(biāo)語言模板,并且源語言模板的非終結(jié)符和目標(biāo)語言模板的非終結(jié)符必須對應(yīng)一個-一,數(shù)相等??紤]模板的類別標(biāo)注問題。這里,翻譯模板被定義為源語言模板和目標(biāo)語言中所有可能的目標(biāo)模板的集合。因此,如果考慮模板的類別標(biāo)注,并且每個類別標(biāo)注下只允許一個目標(biāo)翻譯,那么從形式上看,可以參考以下標(biāo)準(zhǔn)結(jié)構(gòu)某描述一個翻譯模板:Source Template POS tag TargetTemplate POStag TargetTemplate POStag TargetTemplate 其中,“POStag”代表類別標(biāo)簽的代碼。如果使用形式語言的術(shù)語模板化翻譯,那么每個源語言模板可以看成如下結(jié)構(gòu):(str1) 顯然,每個對應(yīng)的目標(biāo)語言模板也可以寫成:(str2)符號串(str1)和(str2))有以下約束:是任意r+1個從小到大排列的整數(shù),一個終止符(可能是空字符),是源語言中的r個非終結(jié)符,它們可以相同也可以不同;是任意m+1個從小到大排列的整數(shù),并且是終結(jié)符(可能是空字符),是目標(biāo)語言中的m個非終結(jié)符, 它們可以相同或不同;中出現(xiàn)的某些非終結(jié)符具有一定的確定性轉(zhuǎn)換關(guān)系,可能不相等。
根據(jù)上述模板的定義,以具有兩個類別注釋的英漢模板為例,描述如下:comment about NP vi。動詞類型,“n”表示名詞類型。如果沒有特別說明,下面使用的詞性標(biāo)簽與英語語法中使用的相同。英漢翻譯模板標(biāo)準(zhǔn)化方案及其應(yīng)用[J]. 由于之前對翻譯模板的定義,它不僅允許一個源語言模板有多個不同的對應(yīng)目標(biāo)語言模板,還允許每個對應(yīng)的目標(biāo)語言模板中有非終結(jié)符和源語言模板。中的非終結(jié)符之間存在一對多和多對一的關(guān)系,因此比傳統(tǒng)的模板定義更能合理地反映實(shí)際的自然語言現(xiàn)象。此外,由于人類一生能夠?qū)W習(xí)和構(gòu)建的語言認(rèn)知結(jié)構(gòu)非常有限,可以想象,與語言認(rèn)知結(jié)構(gòu)相關(guān)的模板數(shù)量也非常有限,盡管這個數(shù)量可能達(dá)到數(shù)萬個?;驍?shù)十萬。,即使是幾千萬,但對于建立大型翻譯模板庫來說應(yīng)該是一個有限合理的數(shù)字,不是一個遙不可及的天文數(shù)字。有了足夠的模板,給定的句子就可以作為源語言模板的組合進(jìn)行分析,然后可以使用通用的模板匹配替換算法將源語言翻譯成目標(biāo)語言[25]。但是,針對某些兩種語言構(gòu)建實(shí)際的大規(guī)模翻譯模板庫并不容易。制定細(xì)致可行的模板標(biāo)準(zhǔn)化計劃是必不可少的一步。
下面將討論建立英漢翻譯模板的初步標(biāo)準(zhǔn)化方案。首先,英漢翻譯模板根據(jù)源語言部分分為靜態(tài)模板和動態(tài)模板。靜態(tài)模板是完全由終止符組成的短語。它們總是作為一個整體使用。嚴(yán)格來說,在任何語境中,都只能有這樣一種固定的組合搭配,不會因?yàn)檎Z境的變化而分開。不同的意義單位。例如:人工智能 n.人工智能; 機(jī)器翻譯 機(jī)器翻譯;動態(tài)模板是指除靜態(tài)模板之外的任何模板,也就是說除了所有帶有非終結(jié)符的模板外,還包括那些隨機(jī)使用的模板。根據(jù)上下文,有時可能會分離或重新組合總詞短語。一個完全由終止符組成的動態(tài)模板的例子如下:一點(diǎn); 模板之所以是動態(tài)模板,是因?yàn)椤耙稽c(diǎn)”還可以組合成其他模板,比如:littleADJ adj。一點(diǎn)點(diǎn)ADJ;暫時的 一會兒; 顯然,從給定的英語句子中分析靜態(tài)模板是非常容易的,因?yàn)殪o態(tài)模板在任何上下文中都可以看到。模板式英漢翻譯系統(tǒng)框圖 詞法分析 靜態(tài)模板分析 動態(tài)模板分析 句法分析 模板匹配替換分析 詞典庫 靜態(tài)模板庫 動態(tài)模板庫輸入英文句子,輸出翻譯結(jié)果。
但是,如果要確保一個英語句子使用某個動態(tài)模板,就不能簡單地使用詞匹配和詞性匹配方法。通常,它通常需要使用句法分析技術(shù)才能獲得更好的結(jié)果。目前好的句法分析算法一般都有較高的時間復(fù)雜度或空間復(fù)雜度要求。如果同時啟用所有模板進(jìn)行分析,尤其是在動態(tài)模板規(guī)模比較大的情況下,很難得到滿意的結(jié)果。高效的。因此,對動態(tài)模板進(jìn)行分類、排序和索引,以便按需調(diào)用是必不可少的步驟??紤]到句法分析的需要,本文就如何組織大型英漢翻譯模板提出如下初步標(biāo)準(zhǔn)化方案: 根據(jù)前兩項(xiàng)是終結(jié)符還是非終結(jié)符,動態(tài)模板分為以下五類,分別使用TT , TN, NT, NNT 和 NNN,其中“TT”表示所有第一項(xiàng)都是終止符的模板(即英文單詞),“TN”表示所有第一項(xiàng)終結(jié)符,第二項(xiàng)是非終結(jié)符“NT” " 表示所有的第一項(xiàng)都是非終結(jié)符和非終結(jié)符,第三項(xiàng)是終結(jié)符。“NNN”表示所有其他模板。通過第一項(xiàng)對TT模板進(jìn)行排序并建立索引,通過第一項(xiàng)對TN模板進(jìn)行排序并建立索引,通過第二項(xiàng)對NT模板進(jìn)行排序并建立索引,通過第三項(xiàng)對NNT模板進(jìn)行排序并建立索引Index;NNN 不需要創(chuàng)建索引,因?yàn)檫@樣的模板總數(shù)并不多,即使全部用于句法分析,系統(tǒng)的整體效率也不顯著。
本文根據(jù)上述英漢翻譯模板標(biāo)準(zhǔn)化方案,結(jié)合作者[25]提出的句法分析技術(shù)和模板匹配替換通用算法,實(shí)現(xiàn)了基于模板的英漢翻譯系統(tǒng),目前包含約38,000個條目和21,000個模板(其中有約6,400個靜態(tài)模板和約14,600個動態(tài)模板),所有這些都是通過手動輸入創(chuàng)建的。系統(tǒng)首先利用輸入句中的終止符從靜態(tài)模板庫和五種動態(tài)模板庫中檢索可能的模板。搜索的基礎(chǔ)是模板中的所有常量必須同時在輸入語句中依次(但可能不連續(xù))。出現(xiàn);然后使用標(biāo)準(zhǔn)的Earley算法分析句子的模板嵌套結(jié)構(gòu)[26];*后,通過模板匹配和替換實(shí)現(xiàn)英文句子到中文句子的翻譯。整個基于模板的英漢翻譯系統(tǒng)的框架如圖1所示。在2005年舉辦的863評測中,目前系統(tǒng)在開發(fā)集和測試集上的性能指標(biāo)如表1所示。系統(tǒng)在開發(fā)集上的結(jié)果 測試內(nèi)容 NIST BLEU GTM mWER mPER 對話翻譯8.8004 0.5217 0.8124 0.3835 0.3041 章節(jié)翻譯< @9.8652 0.4757 0.8258 0.5841 0.
雖然由于人力物力的限制,程序只取得了初步的成功,但是考慮到作者的翻譯引擎設(shè)計完全獨(dú)立于模板庫,如果能夠結(jié)合一些模板自動提取算法,也將加強(qiáng)大型模板庫建設(shè)的投入,屆時該方案有望對機(jī)器翻譯技術(shù)的發(fā)展產(chǎn)生重要影響,而基于大型模板庫的機(jī)器翻譯技術(shù)也將達(dá)到新的高度。參考文獻(xiàn)智能英漢翻譯系統(tǒng)IMT/EC。中國科學(xué)[J], pp.187-194,198<@9. Sadler.Theoretical Basis MiMo.Machine Translation[J], Vol.5, No.3, pp.195 -222, 1990. MRosetta . 作文翻譯[M].Kluwer Academic Publishers,荷蘭多德雷赫特,1994. KoichiTakeda?;谀J降纳舷挛臒o關(guān)語法 MachineTranslation。過程 第 34 屆ACL pp.144-- 151,199 年6 月6. Cocke、Stephen DellaPietra、Vincent DellaPietra、Jelinek、Robert PSRoossin。統(tǒng)計方法機(jī)器翻譯。計算語言學(xué) 1990,16(2): 79-85. Brown,Stephen DellaPietra, Vincent DellaPietra, Robert Statistical Machine Translation: Parameter Estimation. Computational Linguistics 1993,19(< @2):79-85. Brown、Stephen DellaPietra、Vincent DellaPietra、Robert 統(tǒng)計機(jī)器翻譯:參數(shù)估計。計算語言學(xué) 1993,19(< @2):79-85. Brown、Stephen DellaPietra、Vincent DellaPietra、Robert 統(tǒng)計機(jī)器翻譯:參數(shù)估計。計算語言學(xué) 1993,19(<
相關(guān)閱讀Relate
熱門文章 Recent
- 德語翻譯大學(xué)生個人簡歷模板 大學(xué)生個人簡歷模版.2023-03-11
- 冰島護(hù)照翻譯模板 專業(yè)冰島語翻譯公司|冰島語漢互譯|冰島語外校|價格|母語翻譯校正2023-03-11
- 集體戶口證件翻譯模板 集體戶口如何辦理簽證2023-03-11
- 杭州市民卡翻譯模板 “乘車碼+健康碼”合二為一!刷杭州市民卡坐公交地鐵更便捷2023-03-11
- 簽證結(jié)婚退休證翻譯模板 專業(yè)丹麥結(jié)婚證翻譯2023-03-11
- 護(hù)士證翻譯模板 護(hù)士執(zhí)業(yè)證變更過期怎么辦2023-03-11
- 刻章護(hù)照翻譯件模板 工作證明翻譯件需要蓋章?2023-03-11
- 酒店指南翻譯模板 比尤特比尤特美洲*佳價值客棧2023-03-11
- 找一份韓語翻譯的簡歷模板 簡歷翻譯:參加工作時間如何翻譯?2023-03-11
- 翻譯委托書模板 個人授權(quán)委托書的格式范本是怎樣的2023-03-11