專(zhuān)利翻譯模板 一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法技術(shù)
日期:2023-03-11 12:39:36 / 人氣: 509 / 發(fā)布者:成都翻譯公司
本發(fā)明專(zhuān)利技術(shù)涉及一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法,屬于自然語(yǔ)言處理中的機(jī)器翻譯技術(shù)領(lǐng)域。[0011]一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法,包括以下步驟:[0022]圖2為本專(zhuān)利技術(shù)的基于模板的神經(jīng)機(jī)器翻譯模型圖;[0025]一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法,包括以下步驟:本發(fā)明專(zhuān)利技術(shù)涉及一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法,屬于自然語(yǔ)言處理中的機(jī)器翻譯技術(shù)領(lǐng)域。該方法通過(guò)引入匹配的高度相似的翻譯模板來(lái)引導(dǎo)和約束模型的解碼過(guò)程,從而提高翻譯質(zhì)量。首先,構(gòu)建翻譯模板庫(kù)和相應(yīng)的模板匹配算法。然后,構(gòu)建基于模板的神經(jīng)機(jī)器翻譯模型。之后,采用兩階段訓(xùn)練策略將翻譯模板引入模型中,構(gòu)建的模型參數(shù)不斷迭代更新,指導(dǎo)訓(xùn)練過(guò)程。*后專(zhuān)利翻譯模板,訓(xùn)練好的神經(jīng)機(jī)器翻譯模型用于分別翻譯匹配高度相似翻譯模板的句子。與現(xiàn)有技術(shù)相比,該方法簡(jiǎn)化了翻譯模板的構(gòu)建過(guò)程,更側(cè)重于提高部分句子的翻譯效果,這些句子可以匹配高度相似的翻譯模板,而不是所有的句子。匹配的高度相似的翻譯模板用于改進(jìn)翻譯。質(zhì)量。數(shù)量。數(shù)量。匹配的高度相似的翻譯模板用于改進(jìn)翻譯。質(zhì)量。數(shù)量。數(shù)量。匹配的高度相似的翻譯模板用于改進(jìn)翻譯。質(zhì)量。數(shù)量。數(shù)量。
下載所有詳細(xì)的技術(shù)數(shù)據(jù)
【技術(shù)實(shí)現(xiàn)步驟總結(jié)】
一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法
[0001] 本專(zhuān)利技術(shù)涉及神經(jīng)機(jī)器翻譯中構(gòu)建翻譯模板庫(kù),并將翻譯模板引入與翻譯性能對(duì)應(yīng)的神經(jīng)機(jī)器翻譯優(yōu)化器的技術(shù),具體涉及一種基于神經(jīng)機(jī)器翻譯的神經(jīng)機(jī)器翻譯方法。翻譯模板,屬于語(yǔ)言處理中的自然機(jī)器翻譯
技術(shù)介紹
[0002] 目前,由于神經(jīng)機(jī)器翻譯在多種自然語(yǔ)言方面優(yōu)于傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯,在工業(yè)領(lǐng)域,谷歌、有道、百度等各大公司已成功部署神經(jīng)機(jī)器翻譯作為基本翻譯服務(wù)。這些方便快捷的翻譯服務(wù)被人們廣泛使用。
[0003] 然而,神經(jīng)機(jī)器翻譯主要是通過(guò)雙語(yǔ)并行語(yǔ)料庫(kù)數(shù)據(jù)訓(xùn)練來(lái)獲得源語(yǔ)言和目標(biāo)語(yǔ)言的語(yǔ)言特征知識(shí)以及兩者之間的對(duì)應(yīng)關(guān)系。因此,神經(jīng)機(jī)器翻譯對(duì)訓(xùn)練數(shù)據(jù)有很大的依賴性。性別。當(dāng)訓(xùn)練語(yǔ)料數(shù)據(jù)不包含某些特征信息或僅包含較少的特征信息時(shí),模型將很難學(xué)習(xí)到相應(yīng)的知識(shí),從而導(dǎo)致模型無(wú)法捕捉到這部分信息。在翻譯包含這部分待翻譯知識(shí)的句子時(shí),神經(jīng)機(jī)器翻譯會(huì)產(chǎn)生低質(zhì)量的翻譯。
[0004] 在計(jì)算機(jī)輔助翻譯場(chǎng)景中,人工翻譯接收機(jī)器翻譯模型生成的翻譯,首先檢查翻譯中是否存在錯(cuò)誤并進(jìn)行必要的更正,然后對(duì)翻譯錯(cuò)誤進(jìn)行后期編輯以確保*終的翻譯質(zhì)量。衡量審校和譯后編輯時(shí)間是量化人工翻譯工作量*直接、*有效的方法。在使用傳統(tǒng)的神經(jīng)機(jī)器翻譯方法時(shí),人工翻譯并不了解翻譯的質(zhì)量,這意味著人工翻譯必須花費(fèi)相同的工作量來(lái)審核每個(gè)翻譯。在這種情況下,只有研究如何提高整個(gè)測(cè)試集的翻譯性能,只能減少翻譯后的編輯時(shí)間。
[0005] 在現(xiàn)實(shí)場(chǎng)景中,現(xiàn)有的翻譯知識(shí)有很多,例如固定的翻譯句型、固有的翻譯搭配、專(zhuān)業(yè)領(lǐng)域的雙語(yǔ)詞典等。人類(lèi)語(yǔ)言專(zhuān)家總結(jié)的翻譯知識(shí)是完全正確的,人類(lèi)翻譯人員可以直接利用這些固定的翻譯知識(shí)來(lái)輔助翻譯工作。因此,利用外部知識(shí)來(lái)提高機(jī)器翻譯模型的翻譯質(zhì)量具有很高的研究?jī)r(jià)值。一般來(lái)說(shuō),大部分研究工作主要集中在使用雙語(yǔ)詞典和雙語(yǔ)翻譯示例進(jìn)行解碼約束或數(shù)據(jù)增強(qiáng),但將翻譯模板作為外部知識(shí)整合到神經(jīng)機(jī)器翻譯中的研究相對(duì)較少。翻譯模板保留了句子和一些目標(biāo)詞的句法結(jié)構(gòu)信息。在知識(shí)粒度上,模板介于翻譯規(guī)則和翻譯實(shí)例之間。與翻譯實(shí)例相比,翻譯模板具有更高的抽象度,從而具有更高的匹配率。與翻譯規(guī)則相比,翻譯模板包含更多的詞匯信息。
[0006] 綜上所述,如果能夠構(gòu)建出適合神經(jīng)機(jī)器翻譯的高質(zhì)量翻譯模板庫(kù),并將翻譯模板的知識(shí)引入神經(jīng)機(jī)器翻譯中,就可以獲得高質(zhì)量的翻譯。
[0007] 然而,目前還沒(méi)有發(fā)表比較完整的機(jī)器翻譯系統(tǒng)或相關(guān)技術(shù)將翻譯模板引入到神經(jīng)機(jī)器翻譯中。
技術(shù)實(shí)現(xiàn)思路
[0008] 本專(zhuān)利技術(shù)的目的是為了解決現(xiàn)有機(jī)器翻譯系統(tǒng)在語(yǔ)料庫(kù)的大小和質(zhì)量上的限制,導(dǎo)致
針對(duì)由此產(chǎn)生的翻譯質(zhì)量差的技術(shù)問(wèn)題,創(chuàng)造性地提出了一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法。該方法通過(guò)引入匹配的高度相似的翻譯模板來(lái)引導(dǎo)和約束模型的解碼過(guò)程,從而提高翻譯質(zhì)量。
[0009] 該專(zhuān)利技術(shù)的創(chuàng)新之處在于:首先,構(gòu)建了翻譯模板庫(kù)和相應(yīng)的模板匹配算法。然后,構(gòu)建基于模板的神經(jīng)機(jī)器翻譯模型。之后,采用兩階段訓(xùn)練策略將翻譯模板引入模型中,構(gòu)建的模型參數(shù)不斷迭代更新,指導(dǎo)訓(xùn)練過(guò)程。*后,使用訓(xùn)練好的神經(jīng)機(jī)器翻譯模型對(duì)匹配高度相似翻譯模板的句子進(jìn)行單獨(dú)翻譯。
[0010] 為實(shí)現(xiàn)上述目的,本專(zhuān)利技術(shù)采用以下技術(shù)方案。
[0011] 一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法,包括以下步驟:
[0012] 步驟1:基于*長(zhǎng)名詞短語(yǔ)的翻譯模板構(gòu)建方法,構(gòu)建翻譯模板庫(kù)。
[0013] 步驟2:構(gòu)建多策略模板匹配算法,檢索高度相似的翻譯模板。
[0014] 第三步:構(gòu)建基于模板的神經(jīng)機(jī)器翻譯模型,將翻譯模板引入神經(jīng)機(jī)器翻譯中。
[0015] 步驟4:采用兩階段模型訓(xùn)練策略訓(xùn)練基于模板的神經(jīng)機(jī)器翻譯模型。
[0016] 步驟5:利用訓(xùn)練模型的翻譯神經(jīng)模型對(duì)匹配高度相似翻譯模板的句子進(jìn)行翻譯。
[0017] 好處
[0018] 與現(xiàn)有技術(shù)相比,本專(zhuān)利技術(shù)具有以下有益效果和優(yōu)點(diǎn):
[0019] 1. 本專(zhuān)利技術(shù)采用自定義翻譯模板提取算法,構(gòu)建高質(zhì)量翻譯模板。通過(guò)提取*長(zhǎng)的名詞短語(yǔ),可以省略雙語(yǔ)詞對(duì)齊信息,簡(jiǎn)化翻譯模板的構(gòu)建過(guò)程。
[0020]2.這項(xiàng)專(zhuān)利技術(shù)不同于現(xiàn)有的機(jī)器翻譯系統(tǒng),更側(cè)重于提高部分句子的翻譯效果,這些句子可以匹配高度相似的翻譯模板而不是所有句子,使用匹配的高度相似的翻譯模板翻譯 該模板提高了翻譯質(zhì)量。
圖紙說(shuō)明
[0021] 圖 圖1是專(zhuān)利技術(shù)的翻譯模板構(gòu)建算法示意圖;
[0022] 圖 圖2是基于專(zhuān)利技術(shù)模板的神經(jīng)機(jī)器翻譯模型示意圖;
[0023] 圖 圖3為專(zhuān)利技術(shù)的兩階段模型訓(xùn)練策略圖。
詳細(xì)方法
[0024] 下面結(jié)合附圖和實(shí)施例對(duì)本專(zhuān)利的技術(shù)方法作進(jìn)一步詳細(xì)說(shuō)明。
[0025] 一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法,包括以下步驟:
[0026] 步驟一:基于*長(zhǎng)名詞短語(yǔ)的翻譯模板構(gòu)建方法,構(gòu)建翻譯模板庫(kù)。
[0027] 如圖1所示,具體方法如下:
[0028] 步驟1.1:利用成分句法樹(shù)分析方法,在平行句對(duì)上構(gòu)建雙句法樹(shù);
[0029] 步驟1.2:識(shí)別提取*長(zhǎng)名詞短語(yǔ),構(gòu)建翻譯模板。
[0030] 其中,*長(zhǎng)的名詞短語(yǔ)(maximal
-
長(zhǎng)度名詞短語(yǔ),MNP),是指沒(méi)有被任何其他名詞短語(yǔ)嵌套的名詞短語(yǔ)。在句法樹(shù)中,*長(zhǎng)的名詞短語(yǔ)是指從根節(jié)點(diǎn)開(kāi)始的第一個(gè)標(biāo)簽為“NP”的子樹(shù)。*長(zhǎng)的名詞短語(yǔ)比基本名詞短語(yǔ)具有更多的粒度信息。這項(xiàng)專(zhuān)利技術(shù)使用*長(zhǎng)的名詞短語(yǔ)包括普通名詞(NN)、專(zhuān)有名詞(NR)、時(shí)間名詞(NT)和人稱代詞(PRP)作為模板變量,其余部分作為模板常量構(gòu)建翻譯模板。
[0031] 翻譯模板包括模板常量和模板變量;模板常量是指??模板中的固定詞,表示源句的句子結(jié)構(gòu)信息;模板變量是一類(lèi)詞或名詞短語(yǔ),是模板中的概括信息。模板常量在模板匹配中作為檢索到的信息,在翻譯過(guò)程中作為翻譯產(chǎn)生的約束信息;在翻譯過(guò)程中,翻譯模板變量根據(jù)源句信息替換翻譯模板變量,得到相應(yīng)的譯文。
[0032] 步驟1.3:利用翻譯模板的長(zhǎng)度和模板抽象化對(duì)翻譯模板進(jìn)行過(guò)濾,保留滿足設(shè)定的長(zhǎng)度閾值和抽象化閾值的翻譯模板。
[0033] 具體地,步驟1.3包括以下步驟:
[0034] 步驟1.3.1:設(shè)置長(zhǎng)度閾值,丟棄不滿足長(zhǎng)度閾值的翻譯模板。
[0035] 步驟1.3.2:設(shè)置抽象級(jí)別的上下閾值,計(jì)算翻譯模板的抽象級(jí)別,丟棄不在閾值范圍內(nèi)的翻譯模板。
[0036] 其中,翻譯模板抽象Score
腹肌
計(jì)算如下:
[0037] [0038] 其中專(zhuān)利翻譯模板,Num
VA
表示翻譯模板變量的個(gè)數(shù),lt表示翻譯模板中包含的單詞數(shù)。
[0039] 步驟2:構(gòu)建多策略模板匹配算法以檢索高度相似的翻譯模板。
[0040] 具體地,步驟2包括以下步驟:
[0041] 步驟2.1:使用步驟1中描述的翻譯模板構(gòu)建算法對(duì)待翻譯句子進(jìn)行處理,得到待匹配模板。
[0
【技術(shù)保護(hù)點(diǎn)】
【技術(shù)特點(diǎn)摘要】
1. 一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法,其特點(diǎn)包括以下步驟: 步驟1:基于*長(zhǎng)名詞短語(yǔ)的翻譯模板構(gòu)建方法構(gòu)建翻譯模板庫(kù);Step 2:構(gòu)建多策略模板 檢索高度相似翻譯模板的匹配算法包括以下步驟: Step 2.1:使用Step 1中描述的翻譯模板構(gòu)建算法對(duì)待翻譯句子進(jìn)行處理,得到要匹配的模板;步驟2.2:使用基于詞命中率的粗粒度匹配策略,從步驟1構(gòu)建的翻譯模板庫(kù)中獲取候選集。其中,基于單詞命中率的粗粒度匹配策略定義如下: 粗粒度匹配策略使用待匹配模板和模板庫(kù)源翻譯模板的單詞共現(xiàn)頻率來(lái)衡量匹配程度兩者之間的相似性。相似度函數(shù)FM定義如下: 其中word(
·
) 表示字符串中包含的單詞;Tm值
源文件
表示匹配的源翻譯模板;X
′
表示待翻譯的句子使用步驟1中得到的待匹配模板;連(
·
) 表示要匹配的模板的長(zhǎng)度;Step 2.3:使用基于字符串相似度的細(xì)粒度匹配策略對(duì)候選集進(jìn)行匹配;其中,基于字符串相似度的細(xì)粒度匹配策略定義如下:細(xì)粒度匹配策略使用Levinstein編輯距離來(lái)衡量候選集中每個(gè)模板與檢索到的目標(biāo)的相似度;Levinstein 編輯距離是指一個(gè)模板可以通過(guò)添加、插入、刪除操作轉(zhuǎn)化為另一個(gè)模板的*小編輯次數(shù);細(xì)粒度匹配相似度函數(shù)Lev定義如下:編輯次數(shù)少;細(xì)粒度匹配相似度函數(shù)Lev定義如下:表示將要匹配的模板轉(zhuǎn)換為模板庫(kù)中匹配的源端翻譯模板所需的*小編輯距離;分?jǐn)?shù)
Tm值
表示要匹配的模板X(qián)
′
匹配模板庫(kù)中的源翻譯模板X(qián)
′
Tm值
之間的模糊匹配分?jǐn)?shù);i 和 j 分別表示 X
′
和 X
′
Tm值
中間的第 i 個(gè)和第 j 個(gè)位置;Step 3:構(gòu)建基于模板的神經(jīng)機(jī)器翻譯模型,將翻譯模板引入到神經(jīng)機(jī)器翻譯中,包括以下步驟: Step 3.1:在編碼端,添加額外的模板編碼器對(duì)檢索到的進(jìn)行編碼目標(biāo)翻譯模板;模板編碼器如下:模板編碼器采用Transformer編碼器結(jié)構(gòu),由若干相同子層堆疊而成,每個(gè)子層包括一個(gè)自注意力層子層和前饋神經(jīng)網(wǎng)絡(luò)子層層; 模板編碼器與原始 Transformer 編碼器具有相同的結(jié)構(gòu);模板編碼器和源編碼器在編碼過(guò)程中相互獨(dú)立,并且在呈現(xiàn)過(guò)程中沒(méi)有兩種信息相互交互的情況下融合,*終得到源句和目標(biāo)翻譯模板在高維語(yǔ)義空間中的向量表示;源編碼器和目標(biāo)模板編碼器的編碼表示如下:
H
秒
=Enc
源文件
(X,θ
源文件
)
?????????????????????
(4)其中,Enc
源文件
表示源語(yǔ)句編碼器;X 代表要翻譯的句子;編碼器
Tm值
代表模板編碼器;θ
源文件
和 θ
Tm值
分別代表源句編碼器和模板編碼器的參數(shù),源句編碼器和模板編碼器的參數(shù)不共享;H
秒
表示源語(yǔ)句編碼器對(duì)源語(yǔ)句進(jìn)行編碼得到的包含源語(yǔ)句信息的向量表示,表示模板編碼器對(duì)目標(biāo)翻譯模板進(jìn)行編碼得到的包含目標(biāo)翻譯模板信息的向量表示;Tm值
時(shí)間
表示匹配的目標(biāo)翻譯模板;步驟3.2:在解碼端,添加模板代碼
-
解碼attention子層,將模板知識(shí)引入解碼器,引導(dǎo)和約束模型的解碼過(guò)程,從而獲得高質(zhì)量的翻譯;其中解碼器如下:在Transformer解碼器的基礎(chǔ)上,增加模板編碼
-
解碼注意力子層;新的解碼器包含四個(gè)子層:掩碼多頭注意力子層、模板編碼
-
解碼注意力子層,源碼
-
解碼注意力子層和前饋神經(jīng)網(wǎng)絡(luò)子層;編碼模板
-
解碼attention子層,放在源碼上
...
【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員:馮沖、尚偉、
申請(qǐng)人(專(zhuān)利權(quán)):北京理工大學(xué),
類(lèi)型:發(fā)明
國(guó)家省市:
下載所有詳細(xì)的技術(shù)資料 我是此專(zhuān)利的擁有者
- 上一條碩士學(xué)位證德文翻譯模板 武漢大學(xué)德語(yǔ)語(yǔ)言文學(xué)碩士學(xué)位研究生培養(yǎng)方案
- 下一條山東企業(yè)退休證翻譯模板 山東養(yǎng)老金調(diào)整水平和辦法
相關(guān)閱讀Relate
熱門(mén)文章 Recent
- 公章模板翻譯 為什么翻譯文件需要翻譯公司蓋章2023-03-11
- 英國(guó)簽證學(xué)位證書(shū)翻譯模板 學(xué)位證翻譯2023-03-11
- 網(wǎng)站模板翻譯 提貨單中英文翻譯模板2023-03-11
- 外貿(mào)翻譯英語(yǔ)簡(jiǎn)歷模板 翻譯職位個(gè)人簡(jiǎn)歷模板2023-03-11
- 辦理簽證的證明翻譯模板 烏克蘭留學(xué)簽證辦理要求攻略2023-03-11
- 版權(quán)合同翻譯模板 翻譯版權(quán)許可合同2023-03-11
- 英國(guó)簽證各項(xiàng)材料翻譯模板 英國(guó)工作簽證申請(qǐng)條件和材料清單2023-03-11
- 婚姻證明翻譯模板 出入境證明文件翻譯模板2023-03-11
- 營(yíng)業(yè)執(zhí)照翻譯模板百度文庫(kù) 營(yíng)業(yè)執(zhí)照翻譯模板截圖2023-03-11
- 美國(guó)死亡證翻譯模板 新西蘭死亡證明公證認(rèn)證三步流程知曉2023-03-11