精品乱人伦一区二区三区 ,a片试看120分钟做受视频红杏,国产乱码一区二区三区,亚洲国产欧美国产第一区

?

專(zhuān)利翻譯模板 一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法技術(shù)

日期:2023-03-11 12:39:36 / 人氣: 509 / 發(fā)布者:成都翻譯公司

本發(fā)明專(zhuān)利技術(shù)涉及一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法,屬于自然語(yǔ)言處理中的機(jī)器翻譯技術(shù)領(lǐng)域。[0011]一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法,包括以下步驟:[0022]圖2為本專(zhuān)利技術(shù)的基于模板的神經(jīng)機(jī)器翻譯模型圖;[0025]一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法,包括以下步驟:

本發(fā)明專(zhuān)利技術(shù)涉及一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法,屬于自然語(yǔ)言處理中的機(jī)器翻譯技術(shù)領(lǐng)域。該方法通過(guò)引入匹配的高度相似的翻譯模板來(lái)引導(dǎo)和約束模型的解碼過(guò)程,從而提高翻譯質(zhì)量。首先,構(gòu)建翻譯模板庫(kù)和相應(yīng)的模板匹配算法。然后,構(gòu)建基于模板的神經(jīng)機(jī)器翻譯模型。之后,采用兩階段訓(xùn)練策略將翻譯模板引入模型中,構(gòu)建的模型參數(shù)不斷迭代更新,指導(dǎo)訓(xùn)練過(guò)程。*后專(zhuān)利翻譯模板,訓(xùn)練好的神經(jīng)機(jī)器翻譯模型用于分別翻譯匹配高度相似翻譯模板的句子。與現(xiàn)有技術(shù)相比,該方法簡(jiǎn)化了翻譯模板的構(gòu)建過(guò)程,更側(cè)重于提高部分句子的翻譯效果,這些句子可以匹配高度相似的翻譯模板,而不是所有的句子。匹配的高度相似的翻譯模板用于改進(jìn)翻譯。質(zhì)量。數(shù)量。數(shù)量。匹配的高度相似的翻譯模板用于改進(jìn)翻譯。質(zhì)量。數(shù)量。數(shù)量。匹配的高度相似的翻譯模板用于改進(jìn)翻譯。質(zhì)量。數(shù)量。數(shù)量。

下載所有詳細(xì)的技術(shù)數(shù)據(jù)

【技術(shù)實(shí)現(xiàn)步驟總結(jié)】

一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法

[0001] 本專(zhuān)利技術(shù)涉及神經(jīng)機(jī)器翻譯中構(gòu)建翻譯模板庫(kù),并將翻譯模板引入與翻譯性能對(duì)應(yīng)的神經(jīng)機(jī)器翻譯優(yōu)化器的技術(shù),具體涉及一種基于神經(jīng)機(jī)器翻譯的神經(jīng)機(jī)器翻譯方法。翻譯模板,屬于語(yǔ)言處理中的自然機(jī)器翻譯

技術(shù)介紹

[0002] 目前,由于神經(jīng)機(jī)器翻譯在多種自然語(yǔ)言方面優(yōu)于傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯,在工業(yè)領(lǐng)域,谷歌、有道、百度等各大公司已成功部署神經(jīng)機(jī)器翻譯作為基本翻譯服務(wù)。這些方便快捷的翻譯服務(wù)被人們廣泛使用。

[0003] 然而,神經(jīng)機(jī)器翻譯主要是通過(guò)雙語(yǔ)并行語(yǔ)料庫(kù)數(shù)據(jù)訓(xùn)練來(lái)獲得源語(yǔ)言和目標(biāo)語(yǔ)言的語(yǔ)言特征知識(shí)以及兩者之間的對(duì)應(yīng)關(guān)系。因此,神經(jīng)機(jī)器翻譯對(duì)訓(xùn)練數(shù)據(jù)有很大的依賴性。性別。當(dāng)訓(xùn)練語(yǔ)料數(shù)據(jù)不包含某些特征信息或僅包含較少的特征信息時(shí),模型將很難學(xué)習(xí)到相應(yīng)的知識(shí),從而導(dǎo)致模型無(wú)法捕捉到這部分信息。在翻譯包含這部分待翻譯知識(shí)的句子時(shí),神經(jīng)機(jī)器翻譯會(huì)產(chǎn)生低質(zhì)量的翻譯。

[0004] 在計(jì)算機(jī)輔助翻譯場(chǎng)景中,人工翻譯接收機(jī)器翻譯模型生成的翻譯,首先檢查翻譯中是否存在錯(cuò)誤并進(jìn)行必要的更正,然后對(duì)翻譯錯(cuò)誤進(jìn)行后期編輯以確保*終的翻譯質(zhì)量。衡量審校和譯后編輯時(shí)間是量化人工翻譯工作量*直接、*有效的方法。在使用傳統(tǒng)的神經(jīng)機(jī)器翻譯方法時(shí),人工翻譯并不了解翻譯的質(zhì)量,這意味著人工翻譯必須花費(fèi)相同的工作量來(lái)審核每個(gè)翻譯。在這種情況下,只有研究如何提高整個(gè)測(cè)試集的翻譯性能,只能減少翻譯后的編輯時(shí)間。

[0005] 在現(xiàn)實(shí)場(chǎng)景中,現(xiàn)有的翻譯知識(shí)有很多,例如固定的翻譯句型、固有的翻譯搭配、專(zhuān)業(yè)領(lǐng)域的雙語(yǔ)詞典等。人類(lèi)語(yǔ)言專(zhuān)家總結(jié)的翻譯知識(shí)是完全正確的,人類(lèi)翻譯人員可以直接利用這些固定的翻譯知識(shí)來(lái)輔助翻譯工作。因此,利用外部知識(shí)來(lái)提高機(jī)器翻譯模型的翻譯質(zhì)量具有很高的研究?jī)r(jià)值。一般來(lái)說(shuō),大部分研究工作主要集中在使用雙語(yǔ)詞典和雙語(yǔ)翻譯示例進(jìn)行解碼約束或數(shù)據(jù)增強(qiáng),但將翻譯模板作為外部知識(shí)整合到神經(jīng)機(jī)器翻譯中的研究相對(duì)較少。翻譯模板保留了句子和一些目標(biāo)詞的句法結(jié)構(gòu)信息。在知識(shí)粒度上,模板介于翻譯規(guī)則和翻譯實(shí)例之間。與翻譯實(shí)例相比,翻譯模板具有更高的抽象度,從而具有更高的匹配率。與翻譯規(guī)則相比,翻譯模板包含更多的詞匯信息。

[0006] 綜上所述,如果能夠構(gòu)建出適合神經(jīng)機(jī)器翻譯的高質(zhì)量翻譯模板庫(kù),并將翻譯模板的知識(shí)引入神經(jīng)機(jī)器翻譯中,就可以獲得高質(zhì)量的翻譯。

[0007] 然而,目前還沒(méi)有發(fā)表比較完整的機(jī)器翻譯系統(tǒng)或相關(guān)技術(shù)將翻譯模板引入到神經(jīng)機(jī)器翻譯中。

技術(shù)實(shí)現(xiàn)思路

[0008] 本專(zhuān)利技術(shù)的目的是為了解決現(xiàn)有機(jī)器翻譯系統(tǒng)在語(yǔ)料庫(kù)的大小和質(zhì)量上的限制,導(dǎo)致

針對(duì)由此產(chǎn)生的翻譯質(zhì)量差的技術(shù)問(wèn)題,創(chuàng)造性地提出了一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法。該方法通過(guò)引入匹配的高度相似的翻譯模板來(lái)引導(dǎo)和約束模型的解碼過(guò)程,從而提高翻譯質(zhì)量。

[0009] 該專(zhuān)利技術(shù)的創(chuàng)新之處在于:首先,構(gòu)建了翻譯模板庫(kù)和相應(yīng)的模板匹配算法。然后,構(gòu)建基于模板的神經(jīng)機(jī)器翻譯模型。之后,采用兩階段訓(xùn)練策略將翻譯模板引入模型中,構(gòu)建的模型參數(shù)不斷迭代更新,指導(dǎo)訓(xùn)練過(guò)程。*后,使用訓(xùn)練好的神經(jīng)機(jī)器翻譯模型對(duì)匹配高度相似翻譯模板的句子進(jìn)行單獨(dú)翻譯。

[0010] 為實(shí)現(xiàn)上述目的,本專(zhuān)利技術(shù)采用以下技術(shù)方案。

[0011] 一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法,包括以下步驟:

[0012] 步驟1:基于*長(zhǎng)名詞短語(yǔ)的翻譯模板構(gòu)建方法,構(gòu)建翻譯模板庫(kù)。

[0013] 步驟2:構(gòu)建多策略模板匹配算法,檢索高度相似的翻譯模板。

[0014] 第三步:構(gòu)建基于模板的神經(jīng)機(jī)器翻譯模型,將翻譯模板引入神經(jīng)機(jī)器翻譯中。

[0015] 步驟4:采用兩階段模型訓(xùn)練策略訓(xùn)練基于模板的神經(jīng)機(jī)器翻譯模型。

[0016] 步驟5:利用訓(xùn)練模型的翻譯神經(jīng)模型對(duì)匹配高度相似翻譯模板的句子進(jìn)行翻譯。

[0017] 好處

[0018] 與現(xiàn)有技術(shù)相比,本專(zhuān)利技術(shù)具有以下有益效果和優(yōu)點(diǎn):

[0019] 1. 本專(zhuān)利技術(shù)采用自定義翻譯模板提取算法,構(gòu)建高質(zhì)量翻譯模板。通過(guò)提取*長(zhǎng)的名詞短語(yǔ),可以省略雙語(yǔ)詞對(duì)齊信息,簡(jiǎn)化翻譯模板的構(gòu)建過(guò)程。

[0020]2.這項(xiàng)專(zhuān)利技術(shù)不同于現(xiàn)有的機(jī)器翻譯系統(tǒng),更側(cè)重于提高部分句子的翻譯效果,這些句子可以匹配高度相似的翻譯模板而不是所有句子,使用匹配的高度相似的翻譯模板翻譯 該模板提高了翻譯質(zhì)量。

圖紙說(shuō)明

[0021] 圖 圖1是專(zhuān)利技術(shù)的翻譯模板構(gòu)建算法示意圖;

[0022] 圖 圖2是基于專(zhuān)利技術(shù)模板的神經(jīng)機(jī)器翻譯模型示意圖;

[0023] 圖 圖3為專(zhuān)利技術(shù)的兩階段模型訓(xùn)練策略圖。

詳細(xì)方法

[0024] 下面結(jié)合附圖和實(shí)施例對(duì)本專(zhuān)利的技術(shù)方法作進(jìn)一步詳細(xì)說(shuō)明。

[0025] 一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法,包括以下步驟:

[0026] 步驟一:基于*長(zhǎng)名詞短語(yǔ)的翻譯模板構(gòu)建方法,構(gòu)建翻譯模板庫(kù)。

[0027] 如圖1所示,具體方法如下:

[0028] 步驟1.1:利用成分句法樹(shù)分析方法,在平行句對(duì)上構(gòu)建雙句法樹(shù);

[0029] 步驟1.2:識(shí)別提取*長(zhǎng)名詞短語(yǔ),構(gòu)建翻譯模板。

[0030] 其中,*長(zhǎng)的名詞短語(yǔ)(maximal

長(zhǎng)度名詞短語(yǔ),MNP),是指沒(méi)有被任何其他名詞短語(yǔ)嵌套的名詞短語(yǔ)。在句法樹(shù)中,*長(zhǎng)的名詞短語(yǔ)是指從根節(jié)點(diǎn)開(kāi)始的第一個(gè)標(biāo)簽為“NP”的子樹(shù)。*長(zhǎng)的名詞短語(yǔ)比基本名詞短語(yǔ)具有更多的粒度信息。這項(xiàng)專(zhuān)利技術(shù)使用*長(zhǎng)的名詞短語(yǔ)包括普通名詞(NN)、專(zhuān)有名詞(NR)、時(shí)間名詞(NT)和人稱代詞(PRP)作為模板變量,其余部分作為模板常量構(gòu)建翻譯模板。

[0031] 翻譯模板包括模板常量和模板變量;模板常量是指??模板中的固定詞,表示源句的句子結(jié)構(gòu)信息;模板變量是一類(lèi)詞或名詞短語(yǔ),是模板中的概括信息。模板常量在模板匹配中作為檢索到的信息,在翻譯過(guò)程中作為翻譯產(chǎn)生的約束信息;在翻譯過(guò)程中,翻譯模板變量根據(jù)源句信息替換翻譯模板變量,得到相應(yīng)的譯文。

[0032] 步驟1.3:利用翻譯模板的長(zhǎng)度和模板抽象化對(duì)翻譯模板進(jìn)行過(guò)濾,保留滿足設(shè)定的長(zhǎng)度閾值和抽象化閾值的翻譯模板。

[0033] 具體地,步驟1.3包括以下步驟:

[0034] 步驟1.3.1:設(shè)置長(zhǎng)度閾值,丟棄不滿足長(zhǎng)度閾值的翻譯模板。

[0035] 步驟1.3.2:設(shè)置抽象級(jí)別的上下閾值,計(jì)算翻譯模板的抽象級(jí)別,丟棄不在閾值范圍內(nèi)的翻譯模板。

[0036] 其中,翻譯模板抽象Score

腹肌

計(jì)算如下:

[0037] [0038] 其中專(zhuān)利翻譯模板,Num

VA

表示翻譯模板變量的個(gè)數(shù),lt表示翻譯模板中包含的單詞數(shù)。

[0039] 步驟2:構(gòu)建多策略模板匹配算法以檢索高度相似的翻譯模板。

[0040] 具體地,步驟2包括以下步驟:

[0041] 步驟2.1:使用步驟1中描述的翻譯模板構(gòu)建算法對(duì)待翻譯句子進(jìn)行處理,得到待匹配模板。

[0

【技術(shù)保護(hù)點(diǎn)】

【技術(shù)特點(diǎn)摘要】

1. 一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法,其特點(diǎn)包括以下步驟: 步驟1:基于*長(zhǎng)名詞短語(yǔ)的翻譯模板構(gòu)建方法構(gòu)建翻譯模板庫(kù);Step 2:構(gòu)建多策略模板 檢索高度相似翻譯模板的匹配算法包括以下步驟: Step 2.1:使用Step 1中描述的翻譯模板構(gòu)建算法對(duì)待翻譯句子進(jìn)行處理,得到要匹配的模板;步驟2.2:使用基于詞命中率的粗粒度匹配策略,從步驟1構(gòu)建的翻譯模板庫(kù)中獲取候選集。其中,基于單詞命中率的粗粒度匹配策略定義如下: 粗粒度匹配策略使用待匹配模板和模板庫(kù)源翻譯模板的單詞共現(xiàn)頻率來(lái)衡量匹配程度兩者之間的相似性。相似度函數(shù)FM定義如下: 其中word(

·

) 表示字符串中包含的單詞;Tm值

源文件

表示匹配的源翻譯模板;X

表示待翻譯的句子使用步驟1中得到的待匹配模板;連(

·

) 表示要匹配的模板的長(zhǎng)度;Step 2.3:使用基于字符串相似度的細(xì)粒度匹配策略對(duì)候選集進(jìn)行匹配;其中,基于字符串相似度的細(xì)粒度匹配策略定義如下:細(xì)粒度匹配策略使用Levinstein編輯距離來(lái)衡量候選集中每個(gè)模板與檢索到的目標(biāo)的相似度;Levinstein 編輯距離是指一個(gè)模板可以通過(guò)添加、插入、刪除操作轉(zhuǎn)化為另一個(gè)模板的*小編輯次數(shù);細(xì)粒度匹配相似度函數(shù)Lev定義如下:編輯次數(shù)少;細(xì)粒度匹配相似度函數(shù)Lev定義如下:表示將要匹配的模板轉(zhuǎn)換為模板庫(kù)中匹配的源端翻譯模板所需的*小編輯距離;分?jǐn)?shù)

Tm值

表示要匹配的模板X(qián)

匹配模板庫(kù)中的源翻譯模板X(qián)

Tm值

之間的模糊匹配分?jǐn)?shù);i 和 j 分別表示 X

和 X

Tm值

中間的第 i 個(gè)和第 j 個(gè)位置;Step 3:構(gòu)建基于模板的神經(jīng)機(jī)器翻譯模型,將翻譯模板引入到神經(jīng)機(jī)器翻譯中,包括以下步驟: Step 3.1:在編碼端,添加額外的模板編碼器對(duì)檢索到的進(jìn)行編碼目標(biāo)翻譯模板;模板編碼器如下:模板編碼器采用Transformer編碼器結(jié)構(gòu),由若干相同子層堆疊而成,每個(gè)子層包括一個(gè)自注意力層子層和前饋神經(jīng)網(wǎng)絡(luò)子層層; 模板編碼器與原始 Transformer 編碼器具有相同的結(jié)構(gòu);模板編碼器和源編碼器在編碼過(guò)程中相互獨(dú)立,并且在呈現(xiàn)過(guò)程中沒(méi)有兩種信息相互交互的情況下融合,*終得到源句和目標(biāo)翻譯模板在高維語(yǔ)義空間中的向量表示;源編碼器和目標(biāo)模板編碼器的編碼表示如下:

H

=Enc

源文件

(X,θ

源文件

)

?????????????????????

(4)其中,Enc

源文件

表示源語(yǔ)句編碼器;X 代表要翻譯的句子;編碼器

Tm值

代表模板編碼器;θ

源文件

和 θ

Tm值

分別代表源句編碼器和模板編碼器的參數(shù),源句編碼器和模板編碼器的參數(shù)不共享;H

表示源語(yǔ)句編碼器對(duì)源語(yǔ)句進(jìn)行編碼得到的包含源語(yǔ)句信息的向量表示,表示模板編碼器對(duì)目標(biāo)翻譯模板進(jìn)行編碼得到的包含目標(biāo)翻譯模板信息的向量表示;Tm值

時(shí)間

表示匹配的目標(biāo)翻譯模板;步驟3.2:在解碼端,添加模板代碼

解碼attention子層,將模板知識(shí)引入解碼器,引導(dǎo)和約束模型的解碼過(guò)程,從而獲得高質(zhì)量的翻譯;其中解碼器如下:在Transformer解碼器的基礎(chǔ)上,增加模板編碼

解碼注意力子層;新的解碼器包含四個(gè)子層:掩碼多頭注意力子層、模板編碼

解碼注意力子層,源碼

解碼注意力子層和前饋神經(jīng)網(wǎng)絡(luò)子層;編碼模板

解碼attention子層,放在源碼上

...

【專(zhuān)利技術(shù)屬性】

技術(shù)研發(fā)人員:馮沖、尚偉、

申請(qǐng)人(專(zhuān)利權(quán)):北京理工大學(xué),

類(lèi)型:發(fā)明

國(guó)家省市:

下載所有詳細(xì)的技術(shù)資料 我是此專(zhuān)利的擁有者

相關(guān)閱讀Relate

  • 江蘇省增值稅發(fā)票翻譯模板 江蘇稅務(wù)局出口貨物退(免)稅申報(bào)管理系統(tǒng)軟件
  • 江蘇省增值稅發(fā)票翻譯模板 江蘇出口貨物退(免)稅申報(bào)管理服務(wù)平臺(tái)
  • 非機(jī)動(dòng)車(chē)翻譯模板免費(fèi)下載 安行浙江知識(shí)競(jìng)賽答案2017下載-安行浙江知識(shí)競(jìng)賽app下載免費(fèi)版-軟件下載
  • 雙學(xué)位翻譯模板 浙商大教〔2009〕218號(hào) 浙江工商大學(xué)關(guān)于修訂 雙專(zhuān)業(yè)、雙學(xué)位實(shí)施方案
  • 專(zhuān)利翻譯模板 一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法技術(shù)
  • 江蘇戶口翻譯模板 上戶口申請(qǐng)書(shū)怎么寫(xiě)
  • 江蘇戶口翻譯模板 簡(jiǎn)歷翻譯、戶口本翻譯,身份證,駕照翻譯
  • 個(gè)體營(yíng)業(yè)執(zhí)照副本翻譯模板 三證合一營(yíng)業(yè)執(zhí)照英文翻譯
  • 無(wú)錫專(zhuān)業(yè)德文專(zhuān)利翻譯模板 德語(yǔ)翻譯
  • 浙江大學(xué)畢業(yè)證翻譯模板 學(xué)歷證明怎么開(kāi) 學(xué)歷證明模板
  • 專(zhuān)利翻譯模板 一種基于翻譯模板的神經(jīng)機(jī)器翻譯方法技術(shù) www.www.amdcu.cn/fymb/4801.html
    ?
    本站部分內(nèi)容和圖片來(lái)源于網(wǎng)絡(luò)用戶和讀者投稿,不確定投稿用戶享有完全著作權(quán),根據(jù)《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》,如果侵犯了您的權(quán)利,請(qǐng)聯(lián)系:chinazxzy@163.com,及時(shí)刪除。
    Go To Top 回頂部
    • 掃一掃,微信在線