專(zhuān)利翻譯模板一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法技術(shù)

日期：2023-03-11 12:39:36　/ 人氣： 509 / 發(fā)布者：成都翻譯公司

本發(fā)明專(zhuān)利技術(shù)涉及一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法，屬于自然語(yǔ)言處理中的機(jī)器翻譯技術(shù)領(lǐng)域。[0011]一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法，包括以下步驟：[0022]圖2為本專(zhuān)利技術(shù)的基于模板的神經(jīng)機(jī)器翻譯模型圖；[0025]一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法，包括以下步驟：

本發(fā)明專(zhuān)利技術(shù)涉及一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法，屬于自然語(yǔ)言處理中的機(jī)器翻譯技術(shù)領(lǐng)域。該方法通過(guò)引入匹配的高度相似的翻譯模板來(lái)引導(dǎo)和約束模型的解碼過(guò)程，從而提高翻譯質(zhì)量。首先，構(gòu)建翻譯模板庫(kù)和相應(yīng)的模板匹配算法。然后，構(gòu)建基于模板的神經(jīng)機(jī)器翻譯模型。之后，采用兩階段訓(xùn)練策略將翻譯模板引入模型中，構(gòu)建的模型參數(shù)不斷迭代更新，指導(dǎo)訓(xùn)練過(guò)程。*后專(zhuān)利翻譯模板，訓(xùn)練好的神經(jīng)機(jī)器翻譯模型用于分別翻譯匹配高度相似翻譯模板的句子。與現(xiàn)有技術(shù)相比，該方法簡(jiǎn)化了翻譯模板的構(gòu)建過(guò)程，更側(cè)重于提高部分句子的翻譯效果，這些句子可以匹配高度相似的翻譯模板，而不是所有的句子。匹配的高度相似的翻譯模板用于改進(jìn)翻譯。質(zhì)量。數(shù)量。數(shù)量。匹配的高度相似的翻譯模板用于改進(jìn)翻譯。質(zhì)量。數(shù)量。數(shù)量。匹配的高度相似的翻譯模板用于改進(jìn)翻譯。質(zhì)量。數(shù)量。數(shù)量。

下載所有詳細(xì)的技術(shù)數(shù)據(jù)

【技術(shù)實(shí)現(xiàn)步驟總結(jié)】

一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法

[0001] 本專(zhuān)利技術(shù)涉及神經(jīng)機(jī)器翻譯中構(gòu)建翻譯模板庫(kù)，并將翻譯模板引入與翻譯性能對(duì)應(yīng)的神經(jīng)機(jī)器翻譯優(yōu)化器的技術(shù)，具體涉及一種基于神經(jīng)機(jī)器翻譯的神經(jīng)機(jī)器翻譯方法。翻譯模板，屬于語(yǔ)言處理中的自然機(jī)器翻譯

技術(shù)介紹

[0002] 目前，由于神經(jīng)機(jī)器翻譯在多種自然語(yǔ)言方面優(yōu)于傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯，在工業(yè)領(lǐng)域，谷歌、有道、百度等各大公司已成功部署神經(jīng)機(jī)器翻譯作為基本翻譯服務(wù)。這些方便快捷的翻譯服務(wù)被人們廣泛使用。

[0003] 然而，神經(jīng)機(jī)器翻譯主要是通過(guò)雙語(yǔ)并行語(yǔ)料庫(kù)數(shù)據(jù)訓(xùn)練來(lái)獲得源語(yǔ)言和目標(biāo)語(yǔ)言的語(yǔ)言特征知識(shí)以及兩者之間的對(duì)應(yīng)關(guān)系。因此，神經(jīng)機(jī)器翻譯對(duì)訓(xùn)練數(shù)據(jù)有很大的依賴性。性別。當(dāng)訓(xùn)練語(yǔ)料數(shù)據(jù)不包含某些特征信息或僅包含較少的特征信息時(shí)，模型將很難學(xué)習(xí)到相應(yīng)的知識(shí)，從而導(dǎo)致模型無(wú)法捕捉到這部分信息。在翻譯包含這部分待翻譯知識(shí)的句子時(shí)，神經(jīng)機(jī)器翻譯會(huì)產(chǎn)生低質(zhì)量的翻譯。

[0004] 在計(jì)算機(jī)輔助翻譯場(chǎng)景中，人工翻譯接收機(jī)器翻譯模型生成的翻譯，首先檢查翻譯中是否存在錯(cuò)誤并進(jìn)行必要的更正，然后對(duì)翻譯錯(cuò)誤進(jìn)行后期編輯以確保*終的翻譯質(zhì)量。衡量審校和譯后編輯時(shí)間是量化人工翻譯工作量*直接、*有效的方法。在使用傳統(tǒng)的神經(jīng)機(jī)器翻譯方法時(shí)，人工翻譯并不了解翻譯的質(zhì)量，這意味著人工翻譯必須花費(fèi)相同的工作量來(lái)審核每個(gè)翻譯。在這種情況下，只有研究如何提高整個(gè)測(cè)試集的翻譯性能，只能減少翻譯后的編輯時(shí)間。

[0005] 在現(xiàn)實(shí)場(chǎng)景中，現(xiàn)有的翻譯知識(shí)有很多，例如固定的翻譯句型、固有的翻譯搭配、專(zhuān)業(yè)領(lǐng)域的雙語(yǔ)詞典等。人類(lèi)語(yǔ)言專(zhuān)家總結(jié)的翻譯知識(shí)是完全正確的，人類(lèi)翻譯人員可以直接利用這些固定的翻譯知識(shí)來(lái)輔助翻譯工作。因此，利用外部知識(shí)來(lái)提高機(jī)器翻譯模型的翻譯質(zhì)量具有很高的研究?jī)r(jià)值。一般來(lái)說(shuō)，大部分研究工作主要集中在使用雙語(yǔ)詞典和雙語(yǔ)翻譯示例進(jìn)行解碼約束或數(shù)據(jù)增強(qiáng)，但將翻譯模板作為外部知識(shí)整合到神經(jīng)機(jī)器翻譯中的研究相對(duì)較少。翻譯模板保留了句子和一些目標(biāo)詞的句法結(jié)構(gòu)信息。在知識(shí)粒度上，模板介于翻譯規(guī)則和翻譯實(shí)例之間。與翻譯實(shí)例相比，翻譯模板具有更高的抽象度，從而具有更高的匹配率。與翻譯規(guī)則相比，翻譯模板包含更多的詞匯信息。

[0006] 綜上所述，如果能夠構(gòu)建出適合神經(jīng)機(jī)器翻譯的高質(zhì)量翻譯模板庫(kù)，并將翻譯模板的知識(shí)引入神經(jīng)機(jī)器翻譯中，就可以獲得高質(zhì)量的翻譯。

[0007] 然而，目前還沒(méi)有發(fā)表比較完整的機(jī)器翻譯系統(tǒng)或相關(guān)技術(shù)將翻譯模板引入到神經(jīng)機(jī)器翻譯中。

技術(shù)實(shí)現(xiàn)思路

[0008] 本專(zhuān)利技術(shù)的目的是為了解決現(xiàn)有機(jī)器翻譯系統(tǒng)在語(yǔ)料庫(kù)的大小和質(zhì)量上的限制，導(dǎo)致

針對(duì)由此產(chǎn)生的翻譯質(zhì)量差的技術(shù)問(wèn)題，創(chuàng)造性地提出了一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法。該方法通過(guò)引入匹配的高度相似的翻譯模板來(lái)引導(dǎo)和約束模型的解碼過(guò)程，從而提高翻譯質(zhì)量。

[0009] 該專(zhuān)利技術(shù)的創(chuàng)新之處在于：首先，構(gòu)建了翻譯模板庫(kù)和相應(yīng)的模板匹配算法。然后，構(gòu)建基于模板的神經(jīng)機(jī)器翻譯模型。之后，采用兩階段訓(xùn)練策略將翻譯模板引入模型中，構(gòu)建的模型參數(shù)不斷迭代更新，指導(dǎo)訓(xùn)練過(guò)程。*后，使用訓(xùn)練好的神經(jīng)機(jī)器翻譯模型對(duì)匹配高度相似翻譯模板的句子進(jìn)行單獨(dú)翻譯。

[0010] 為實(shí)現(xiàn)上述目的，本專(zhuān)利技術(shù)采用以下技術(shù)方案。

[0011] 一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法，包括以下步驟:

[0012] 步驟1：基于*長(zhǎng)名詞短語(yǔ)的翻譯模板構(gòu)建方法，構(gòu)建翻譯模板庫(kù)。

[0013] 步驟2：構(gòu)建多策略模板匹配算法，檢索高度相似的翻譯模板。

[0014] 第三步：構(gòu)建基于模板的神經(jīng)機(jī)器翻譯模型，將翻譯模板引入神經(jīng)機(jī)器翻譯中。

[0015] 步驟4：采用兩階段模型訓(xùn)練策略訓(xùn)練基于模板的神經(jīng)機(jī)器翻譯模型。

[0016] 步驟5：利用訓(xùn)練模型的翻譯神經(jīng)模型對(duì)匹配高度相似翻譯模板的句子進(jìn)行翻譯。

[0017] 好處

[0018] 與現(xiàn)有技術(shù)相比，本專(zhuān)利技術(shù)具有以下有益效果和優(yōu)點(diǎn)：

[0019] 1. 本專(zhuān)利技術(shù)采用自定義翻譯模板提取算法，構(gòu)建高質(zhì)量翻譯模板。通過(guò)提取*長(zhǎng)的名詞短語(yǔ)，可以省略雙語(yǔ)詞對(duì)齊信息，簡(jiǎn)化翻譯模板的構(gòu)建過(guò)程。

[0020]2.這項(xiàng)專(zhuān)利技術(shù)不同于現(xiàn)有的機(jī)器翻譯系統(tǒng)，更側(cè)重于提高部分句子的翻譯效果，這些句子可以匹配高度相似的翻譯模板而不是所有句子，使用匹配的高度相似的翻譯模板翻譯該模板提高了翻譯質(zhì)量。

圖紙說(shuō)明

[0021] 圖圖1是專(zhuān)利技術(shù)的翻譯模板構(gòu)建算法示意圖；

[0022] 圖圖2是基于專(zhuān)利技術(shù)模板的神經(jīng)機(jī)器翻譯模型示意圖；

[0023] 圖圖3為專(zhuān)利技術(shù)的兩階段模型訓(xùn)練策略圖。

詳細(xì)方法

[0024] 下面結(jié)合附圖和實(shí)施例對(duì)本專(zhuān)利的技術(shù)方法作進(jìn)一步詳細(xì)說(shuō)明。

[0025] 一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法，包括以下步驟:

[0026] 步驟一：基于*長(zhǎng)名詞短語(yǔ)的翻譯模板構(gòu)建方法，構(gòu)建翻譯模板庫(kù)。

[0027] 如圖1所示，具體方法如下：

[0028] 步驟1.1：利用成分句法樹(shù)分析方法，在平行句對(duì)上構(gòu)建雙句法樹(shù)；

[0029] 步驟1.2：識(shí)別提取*長(zhǎng)名詞短語(yǔ)，構(gòu)建翻譯模板。

[0030] 其中，*長(zhǎng)的名詞短語(yǔ)（maximal

－

長(zhǎng)度名詞短語(yǔ)，MNP），是指沒(méi)有被任何其他名詞短語(yǔ)嵌套的名詞短語(yǔ)。在句法樹(shù)中，*長(zhǎng)的名詞短語(yǔ)是指從根節(jié)點(diǎn)開(kāi)始的第一個(gè)標(biāo)簽為“NP”的子樹(shù)。*長(zhǎng)的名詞短語(yǔ)比基本名詞短語(yǔ)具有更多的粒度信息。這項(xiàng)專(zhuān)利技術(shù)使用*長(zhǎng)的名詞短語(yǔ)包括普通名詞（NN）、專(zhuān)有名詞（NR）、時(shí)間名詞（NT）和人稱代詞（PRP）作為模板變量，其余部分作為模板常量構(gòu)建翻譯模板。

[0031] 翻譯模板包括模板常量和模板變量；模板常量是指??模板中的固定詞，表示源句的句子結(jié)構(gòu)信息；模板變量是一類(lèi)詞或名詞短語(yǔ)，是模板中的概括信息。模板常量在模板匹配中作為檢索到的信息，在翻譯過(guò)程中作為翻譯產(chǎn)生的約束信息；在翻譯過(guò)程中，翻譯模板變量根據(jù)源句信息替換翻譯模板變量，得到相應(yīng)的譯文。

[0032] 步驟1.3：利用翻譯模板的長(zhǎng)度和模板抽象化對(duì)翻譯模板進(jìn)行過(guò)濾，保留滿足設(shè)定的長(zhǎng)度閾值和抽象化閾值的翻譯模板。

[0033] 具體地，步驟1.3包括以下步驟：

[0034] 步驟1.3.1：設(shè)置長(zhǎng)度閾值，丟棄不滿足長(zhǎng)度閾值的翻譯模板。

[0035] 步驟1.3.2：設(shè)置抽象級(jí)別的上下閾值，計(jì)算翻譯模板的抽象級(jí)別，丟棄不在閾值范圍內(nèi)的翻譯模板。

[0036] 其中，翻譯模板抽象Score

腹肌

計(jì)算如下：

[0037] [0038] 其中專(zhuān)利翻譯模板，Num

表示翻譯模板變量的個(gè)數(shù)，lt表示翻譯模板中包含的單詞數(shù)。

[0039] 步驟2：構(gòu)建多策略模板匹配算法以檢索高度相似的翻譯模板。

[0040] 具體地，步驟2包括以下步驟：

[0041] 步驟2.1：使用步驟1中描述的翻譯模板構(gòu)建算法對(duì)待翻譯句子進(jìn)行處理，得到待匹配模板。

【技術(shù)保護(hù)點(diǎn)】

【技術(shù)特點(diǎn)摘要】

1. 一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法，其特點(diǎn)包括以下步驟：步驟1：基于*長(zhǎng)名詞短語(yǔ)的翻譯模板構(gòu)建方法構(gòu)建翻譯模板庫(kù)；Step 2：構(gòu)建多策略模板檢索高度相似翻譯模板的匹配算法包括以下步驟： Step 2.1：使用Step 1中描述的翻譯模板構(gòu)建算法對(duì)待翻譯句子進(jìn)行處理，得到要匹配的模板；步驟2.2：使用基于詞命中率的粗粒度匹配策略，從步驟1構(gòu)建的翻譯模板庫(kù)中獲取候選集。其中，基于單詞命中率的粗粒度匹配策略定義如下：粗粒度匹配策略使用待匹配模板和模板庫(kù)源翻譯模板的單詞共現(xiàn)頻率來(lái)衡量匹配程度兩者之間的相似性。相似度函數(shù)FM定義如下：其中word(

) 表示字符串中包含的單詞；Tm值

源文件

表示匹配的源翻譯模板；X

′

表示待翻譯的句子使用步驟1中得到的待匹配模板；連（

) 表示要匹配的模板的長(zhǎng)度；Step 2.3：使用基于字符串相似度的細(xì)粒度匹配策略對(duì)候選集進(jìn)行匹配；其中，基于字符串相似度的細(xì)粒度匹配策略定義如下：細(xì)粒度匹配策略使用Levinstein編輯距離來(lái)衡量候選集中每個(gè)模板與檢索到的目標(biāo)的相似度；Levinstein 編輯距離是指一個(gè)模板可以通過(guò)添加、插入、刪除操作轉(zhuǎn)化為另一個(gè)模板的*小編輯次數(shù)；細(xì)粒度匹配相似度函數(shù)Lev定義如下：編輯次數(shù)少；細(xì)粒度匹配相似度函數(shù)Lev定義如下：表示將要匹配的模板轉(zhuǎn)換為模板庫(kù)中匹配的源端翻譯模板所需的*小編輯距離；分?jǐn)?shù)

Tm值

表示要匹配的模板X(qián)

′

匹配模板庫(kù)中的源翻譯模板X(qián)

′

Tm值

之間的模糊匹配分?jǐn)?shù)；i 和 j 分別表示 X

′

和 X

′

Tm值

中間的第 i 個(gè)和第 j 個(gè)位置；Step 3：構(gòu)建基于模板的神經(jīng)機(jī)器翻譯模型，將翻譯模板引入到神經(jīng)機(jī)器翻譯中，包括以下步驟： Step 3.1：在編碼端，添加額外的模板編碼器對(duì)檢索到的進(jìn)行編碼目標(biāo)翻譯模板；模板編碼器如下：模板編碼器采用Transformer編碼器結(jié)構(gòu)，由若干相同子層堆疊而成，每個(gè)子層包括一個(gè)自注意力層子層和前饋神經(jīng)網(wǎng)絡(luò)子層層; 模板編碼器與原始 Transformer 編碼器具有相同的結(jié)構(gòu)；模板編碼器和源編碼器在編碼過(guò)程中相互獨(dú)立，并且在呈現(xiàn)過(guò)程中沒(méi)有兩種信息相互交互的情況下融合，*終得到源句和目標(biāo)翻譯模板在高維語(yǔ)義空間中的向量表示；源編碼器和目標(biāo)模板編碼器的編碼表示如下：

秒

=Enc

源文件

(X,θ

源文件

)

?????????????????????

（4)其中，Enc

源文件

表示源語(yǔ)句編碼器；X 代表要翻譯的句子；編碼器

Tm值

代表模板編碼器；θ

源文件

和 θ

Tm值

分別代表源句編碼器和模板編碼器的參數(shù)，源句編碼器和模板編碼器的參數(shù)不共享；H

秒

表示源語(yǔ)句編碼器對(duì)源語(yǔ)句進(jìn)行編碼得到的包含源語(yǔ)句信息的向量表示，表示模板編碼器對(duì)目標(biāo)翻譯模板進(jìn)行編碼得到的包含目標(biāo)翻譯模板信息的向量表示；Tm值

時(shí)間

表示匹配的目標(biāo)翻譯模板；步驟3.2：在解碼端，添加模板代碼

－

解碼attention子層，將模板知識(shí)引入解碼器，引導(dǎo)和約束模型的解碼過(guò)程，從而獲得高質(zhì)量的翻譯；其中解碼器如下：在Transformer解碼器的基礎(chǔ)上，增加模板編碼

－

解碼注意力子層；新的解碼器包含四個(gè)子層：掩碼多頭注意力子層、模板編碼

－

解碼注意力子層，源碼

－

解碼注意力子層和前饋神經(jīng)網(wǎng)絡(luò)子層；編碼模板

－

解碼attention子層，放在源碼上

...

【專(zhuān)利技術(shù)屬性】

技術(shù)研發(fā)人員：馮沖、尚偉、

申請(qǐng)人（專(zhuān)利權(quán)）：北京理工大學(xué)，

類(lèi)型：發(fā)明

國(guó)家省市：

下載所有詳細(xì)的技術(shù)資料我是此專(zhuān)利的擁有者

精品乱人伦一区二区三区 ,a片试看120分钟做受视频红杏,国产乱码一区二区三区,亚洲国产欧美国产第一区

智信卓越-中國(guó)小語(yǔ)種翻譯專(zhuān)家

專(zhuān)利翻譯模板一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法技術(shù)

相關(guān)閱讀Relate

熱門(mén)文章 Recent

精品乱人伦一区二区三区 ,a片试看120分钟做受视频红杏,国产乱码一区二区三区,亚洲国产欧美国产第一区

專(zhuān)利翻譯模板 一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法技術(shù)

相關(guān)閱讀Relate

熱門(mén)文章 Recent

專(zhuān)利翻譯模板一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法技術(shù)