Microsoft NMT Translator 微软必应神经机器翻译详解

Microsoft NMT Translator 微软必应神经机器翻译详解
Neurale masjien vertaling (NMT) Is die gebruik van AI, hoë-gehalte masjien vertaling van die nuwe standaard。 Dit vervang die ou-styl statistiese masjien vertaling (SBS) Tegnologie,Die tegnologie in die 2010-2020 Die middel van die jaar, bereik'n hoogtepunt gehalte。
Met SBS in vergelyking,NMT kan nie net van die oorspronklike kwaliteit van die vertaling telling van posisie om voorsiening te maak'n beter vertaling,En klink meer gladde、Meer soortgelyk aan die mens。 Hierdie vlotheid die belangrikste rede is dat die NGV gebruik van'n vonnis van die volle konteks te vertaal die woord。 SBS net oorweeg elkeen van die woorde in die voorkant van en agter'n paar woorde in die direkte konteks。
Die NGV model is die API van die kern,Onsigbaar vir die eindgebruiker。 Die enigste ooglopende verskil is die verbetering van die kwaliteit van die vertaling,Veral vir die Chinese、Die japannese en die arabiese en ander tale。
Wat is die masjien vertaling?
Die masjien vertaling stelsel is die gebruik van die masjien leer tegnologie sal'n groot hoeveelheid van die teks van enige van sy ondersteunde tale in die vertaling van die aansoek of aanlyn-dienste。Die diens sal wees om die"bron"van die teks is vertaal van een taal na'n ander"teiken"taal。
Hoewel masjien vertaling tegnologie agter die konsep en gebruik dit die koppelvlak is redelik eenvoudig,Maar die wetenskap agter dit en die tegnologie is uiters kompleks,En verskeie toonaangewende tegnologie saam,Veral diep leer(kunsmatige intelligensie),Groot data,Taal,Wolk rekenaar en Web API。
Vanaf 2010 sedert die vroeë,'n nuwe kunsmatige intelligensie tegnologie,Wat is die diepte van die neurale netwerk ook bekend as diep leer),Te maak van spraakherkenning tegnologie bereik het die vlak van gehalte,So dat die Microsoft Translator span, Spraak Erkenning en ander kern teks vertaling tegnologie gekombineer met,Om Te Begin Spraakherkenning Tegnologie。'n nuwe stem vertaling tegnologie。
Geskiedenis,Die bedryf gebruik van die groot masjien leer tegnieke is statistiese masjien vertaling(SBS)。Gegewe'n paar woorde van die konteks van die geval,SBS maak gebruik van gevorderde statistiese analise om te skat die woorde van die beste vertaling effek。Van die middel van die 2000s het begin om te,Insluitend Microsoft, insluitend al die groot vertaling verskaffers met behulp van SMT。
Neurale masjien vertaling(NMT)verskyn om te veroorsaak dat'n vertaling van die kuns van fundamentele verandering,Om te bring'n hoër gehalte van die vertaling。Hierdie vertaling tegnologie is in die tweede helfte van 2016 begin vir gebruikers en ontwikkelaars te sit 。
SBS en NGV vertaling tegnieke het twee dinge in gemeen:
  • Beide vereis'n baie van die pre-menslike vertaling van die inhoud tot miljoene van vertaalde sinne om die opleiding stelsel。
  • Beide tree nie soos'n tweetalige woordeboek,Maar volgens'n moontlike vertaling lys om woorde te vertaal,Maar volgens die sin gebruik van die woord konteks vertaal word。
Wat is die Microsoft Translator vir?
As API deel van die versameling,Microsoft Translator om die Teks API en Microsoft Spraak dienste is Microsoft se masjien vertaling diens。
Microsoft Translator vertaal teks
Sedert 2007,Die Microsoft-span is in die gebruik van Microsoft Translator Teks API,Sedert 2011,Dit is gebruik as'n kliënt-die gesig staar API te gebruik。MicrosoftTranslator Teks API in die Microsoft interne dit is wyd gebruik word。Dit is geïntegreer met die produk lokalisering,Ondersteun die aanlyn kommunikasie span。Kan ook van bekende produkte。
Die Microsoft Translator kan word in enige hardeware platform op die Web of in die kliënt aansoek sowel as met enige bedryfstelsel vir gebruik met,Uit te voer, taal, vertaling en ander taal-verwante bedrywighede,Byvoorbeeld, die taal opsporing,Teks-na-spraak-of woordeboek。
Die gebruik van die industrie-standaard RES tegnologie,Ontwikkelaars sal voorsien word met'n aanduiding van die teiken taal van die parameters van die bron teks of spraak vertaling van die klank gestuur na die diens,Dan is die diens sal wees om die vertaalde teks is terug gestuur na die kliënt of Web aansoek te gebruik。
Die Microsoft Translator Diens word aangebied in'n Microsoft Data Sentrum in die Blou diens,En van ander Microsoft wolk dienste kry ook die veiligheid van die,Scalability,Betroubaarheid en die ononderbroke beskikbaarheid van die voordeel。
Microsoft Translator stem vertaal
Microsoft Translator stem vertaling tegnologie van Skype Translator begin by die einde van 2014 begin,Van die begin van 2016 te begin as'n oop API vir die kliënt gebruik。Dit is geïntegreer in die Microsoft Translator real-time funksie,Skype,Skype Vergadering Uitgesaai en vir Android Microsoft Translator app,iOS en Windows。
Spraak vertaling is nou beskikbaar deur middel van die Microsoft Toespraak kry,Microsoft stem is'n ten volle aanpasbare end-tot-end diens,Vir spraakherkenning,Stem vertaler en TTS(teks-na-spraak)。
Teks vertaling hoe om te werk?
Vir die teks vertaling van veral tegniese, daar is twee:Tradisionele tegnieke,Statistiese masjien vertaling(SBS)en die volgende-generasie tegnologie,Wat die neurale masjien vertaling(NMT)。
Statistiese masjien vertaling
Microsoft Translator te bereik statistiese masjien vertaling(SBS)bou in Microsoft vir meer as'n dekade van natuurlike taal navorsing, op die basis。'n moderne vertaling van die stelsel in plaas van die skryf van die handleiding reëls tussen die tale te vertaal,Maar die vertaling sal beskou word as van bestaande menslike vertaling leer taal tussen die teks bekering en die gebruik van die toepassing van statistiese en masjien leer onlangse vordering in die probleem。
Die sogenaamde"parallel Corpus"grootliks dien as'n moderne Rosetta Stone,In die konteks vir baie taal pare en velde te voorsien van'n woord,Frases en idiome vertaling。Statistiese modellering tegnieke en doeltreffende algoritmes wat kan help om rekenaars op te los ontcijferde opsporing opleiding data in die brontaal en die doeltaal tussen die ooreenstemmende verhouding versoening kode te vind'n nuwe insette sin, die beste vertaling vrae。Die Microsoft Translator statistiese metodes met taalkundige inligting saam,Te produseer beter veralgemening en lei tot meer maklik verstaan die vertaling van die Model。
Aangesien hierdie metode nie staatmaak op die woordeboek of grammatika-reëls,Daarom is dit bied die frase die beste vertaling,In'n gegewe woord gebruik om die konteks eerder as om te probeer om uit te voer'n enkele woord vertaling。- Vir-woord vertaling,Ontwikkel'n tweetalige woordeboek。
Neurale masjien vertaling
Deurlopende verbetering van die vertaling is baie belangrik。Maar,Sedert die 2010 jaar sedert die mid -,SBS tegnologie, die prestasie verbetering is in'n bestendige toestand。Deur die gebruik van Microsoft se AI super rekenaar, veral Microsoft-Kognitiewe Toolkit van die skaal en funksie,Microsoft Translator bied nou gebaseer op neurale netwerk(LSTM vertaling,So dat die kwaliteit van die vertaling verbeter vir die nuwe dekade。
Hierdie neurale netwerk modelle is beskikbaar deur middel van die Microsoft Spraak en die gebruik van die kategorie ID van die Teks API vir al stem taal。
Met die tradisionele SBS in vergelyking,Neurale netwerk te omskep die wyse van implementering is fundamenteel verskil。
Die volgende animasie toon die neurale netwerk vertaling vertaal die sin van die ervaring van elke stap。Sedert die gebruik van hierdie metode,Vertaling sal die hele sin in konteks,In plaas van die SBS tegnieke met behulp van slegs'n paar woorde gly venster,En sal produseer meer vlot en menslike vertaling van die vertaling。
Gebaseer op die neurale netwerk opleiding,Elkeen van die woorde is langs die 500-dimensionele vektor'n kodering,Die vektor verteenwoordiging van die spesifieke taal pare soos engels en Chinese en sy unieke eienskappe。Gebaseer op die gebruik taal vir opleiding,Die neurale netwerk wat sal pas hierdie dimensies moet wees wat。Hulle kan kodering'n paar eenvoudige konsepte,Byvoorbeeld, die vroulike geslag,Mans,Neutrale),Die vergunning mate van die taal s,Voel vry om te,Geskryf,Vorm, ens.,Woord tipe: werkwoord,Naamwoord, ens.,Sowel As enige ander nie-ooglopende kenmerke van die opleiding data afgelei。
Die neurale netwerk vertaling van die ervaring van die stappe is soos volg:
  • Elke woord,Of meer presies, het sy 500-dimensionele vektor,Al deur die"neurone"van die eerste laag,Dit sal in'n sin in ander woord, die konteks woord van'n 1000-dimensionele vektor b in sy kodering。
  • Sodra al die woorde een keer gekodeer in hierdie 1000-dimensionele vektor in die,Hierdie proses sal herhaal'n paar keer,Elke laag kan wees in'n volledige sin in die konteks van beter fine-tuning van die woorde in die 1000-dimensionele voorstelling met SBS tegnologie op die teendeel, kan oorweeg slegs 3 tot 5 Woord venster
  • Dan,Let daarop dat die laag, d. w. s die sagteware algoritme sal gebruik om die finale uitset matriks,Die aandag laag sal gebruik hierdie finale uitset matriks en die voorheen vertaal woord uitset te definieer die volgende moet vertaal die bron sin waarin die woord。Dit sal ook die gebruik van hierdie berekeninge en potensieel gooi die teiken taal in onnodige woorde。
  • Dekodeerder vertaling laag aan sy mees geskikte teiken taal ekwivalent taal vertaling van die geselekteerde woord, of meer spesifiek,In die volle konteks van die sin dui daarop dat die woorde van die 1000-dimensionele vektor。En dan die laaste laag is die uitset terugvoer aan die betrokke laag,Ten einde te bereken die ooreenstemmende vertaling van die bron sin in wat die volgende woord。

In die animasie getoon in die voorbeeld,Konteks-bewus 1000-dimensionele model" die "sal ingebou word as'n naamwoord huis is'n franse la maison in die vroue van die woord。Dit sal toelaat dat vir'n behoorlike vertaling van" "IS" trek "eerder as" musiek "is enkelvoud,Manlike, of" LES "is meervoud een keer bereik die dekodeerder vertaling laag。
Let daarop dat die algoritme sal ook gebaseer op die voorheen vertaal woord in die huidige geval," die "bereken die,Volgende aan die vertaling van die woord moet wees om die tema van die" huis "in plaas van die byvoeglike naamwoord vir" blou ") 。Die rede waarom hierdie doel bereik kan word,Omdat die stelsel verstaan engels en frans sal word onderstebo hierdie woorde in sinne om。Jy kan ook bereken die,As die adjektief is" groot "in plaas van kleur,Moet dit nie keer hulle" die groot huis " =>"la grande maison", 'n。
As gevolg van die gebruik van hierdie metode,In die meeste gevalle,Die finale uitset verhouding van die SBS-gebaseerde vertaling meer gladde,Nader aan die vertaling van die mens。
Stem vertaling hoe om te werk?
Microsoft Translator is ook in staat om te vertaal stem。Die tegnologie in die vertaler real-time funksie,Die Vertaler aansoek,Skype Translator bekend gemaak,En aanvanklik slegs via Skype Translator funksie sowel as op iOS en Android op Microsoft Translator app bied hierdie funksie。Ontwikkelaars kan nou gebruik maak van die Blou portaal bied die jongste weergawe van die RES-gebaseerde oop API vir ontwikkeling。
Hoewel die eerste oogopslag van die vorige kuns op die basis van die bou van'n toespraak vertaling tegnologie blyk te wees'n eenvoudige proses,Maar dit moet gedoen word as die bestaande"tradisionele"man-masjien toespraak erkenning enjin is eenvoudig plaas in die bestaande teks in'n veel meer。Vertaling van'n。
In staat te wees om die"bron"die stem van een taal is korrek vertaal in'n ander"teiken"taal,Stelsel nodig het om te gaan deur middel van vier stappe。
  • Toespraak erkenning,Skakel klank te sms
  • TrueText:'n Microsoft tegnologie,Kan om te normaliseer die teks te maak dit meer geskik is vir die vertaling
  • Deur die teks vertaling enjin vir die vertaling,Maar die gebruik van spesiaal ontwerp vir die werklike lewe gesproke dialoog, die ontwikkeling van die vertaling model
  • Indien nodig, teks-na-spraak-omsetting,Om te genereer die vertaalde klank。

Outomatiese spraakherkenning ASR)
Met behulp van die opgeleide neurale netwerk(NN)stelsel uit te voer outomatiese spraakherkenning ASR),Die stelsel kan analiseer duisende ure van die inkomende klank stem。Die model is gebaseer op die interaksie tussen mense en nie mense met masjien opdragte vir die opleiding van,Daardeur genereer vir gereelde dialoog geskik vir spraakherkenning。Ten einde dit te bereik,Met die tradisionele man-masjien ASR in vergelyking,Moet meer data en groter DNN。
TrueText
Wanneer die mens met ander mense wanneer kommunikeer,Ons spraak is nie soos wat ons gewoonlik dink as perfek,Duidelik of netjies。Deur middel van die TrueText tegnologie,Deur die uitskakeling van die stem verskil in die vul woord soos" um","ah","en,","like",stotter en herhaal。Deur die toevoeging van'n tydperk,Behoorlike punktuasie en hoofletters,Jy kan ook die verbetering van leesbaarheid van die teks en vertaling van。In orde te kry hierdie resultate,Met behulp van dekades van taal tegnologie werk,Dit is van die Vertaler ontwikkel,Gebruik om te skep TrueText。Die volgende figuur deur'n ware voorbeeld te beskryf die TrueText vir'n verskeidenheid van bekering tot die standaardisering van hierdie teks。

Laat'n Boodskap