Machine Translation: Slimme vertaalrobots weldra aan de beurt?

Sylvain Dieltjens
20 aug 2020
8 minuten om te lezen

Bijgewerkt op: 2 jun 2022

Vertalen is meer dan alleen een tekst overzetten van de ene taal naar de andere. Vertalers moeten een document maken dat correct in de doeltaal past en toch de boodschap van het origineel overbrengt, en dat tegelijkertijd gelokaliseerd is voor de doelgroep.

In de beroemde sf-serie Star Trek (1966) communiceert de bemanning met allerlei aliens dankzij een universal translator, een vertaalapparaat dat honderden talen bevat en snel nieuwe talen kan leren. Vergelijkbare systemen vinden we ook in tal van andere sf-avonturen terug. In de Star Wars-saga (1977) van Georges Lucas, bijvoorbeeld, kan de goudkleurige robot C-3PO in meer dan zes miljoen talen communiceren! Ook in het populaire Britse programma Doctor Who (1963) beschikt de doctor in de Tardis over een telepathisch vertaalprogramma, inclusief een scheldfilter die ervoor zorgt dat de passagiers geen scheldwoorden horen.

Sciencefiction aan de vingers

Veel apparaten die de digital natives en wellicht ook de digital immigrants nu de gewoonste zaak ter wereld vinden, zouden een halve eeuw geleden zonder meer als sciencefiction zijn beschouwd. Vreemd genoeg beschikken we nog altijd niet over 100% betrouwbare, gesofisticeerde vertaaltuigen. Er zijn al wel talloze pogingen ondernomen om dergelijke complexe machines uit te denken. Op het einde van de Tweede Wereldoorlog, toen de eerste computers in navolging van de Eniac (1946) in versneld tempo werden gebouwd, en vooral tijdens de daarop volgende Koude Oorlog (1947-1990), werd geld noch moeite gespaard om vertaalmachines te ontwikkelen. Russische teksten door machines in het Engels laten vertalen was toen een belangrijke motivatie. De talrijke problemen en wellicht ook de beperkte capaciteit van de toenmalige computers deden het oorspronkelijke enthousiasme vrij vlug luwen. Decennialang werkten computerlinguïsten en informatici aan algoritmes en decoderingssystemen om een perfecte automatische vertaling te realiseren.

In het midden van de jaren zestig onderzoekt een groep van Amerikaanse geleerden op vraag van de regering de haalbaarheid van een automatische vertaling. Het eindrapport van het Alpac-project (Automatic Language Processing Advisory Committee) is bijzonder pessimistisch. Toch wordt er door de toenemende spanningen en de concurrentiestrijd tussen de twee grote mogendheden weer massaal in vertaalsystemen geïnvesteerd. Onder de sterke druk van de inlichtingendienst richt de Amerikaanse regering in 1968 het bedrijf Systran (System Translation) op. De onderzoekers zijn er zich van bewust dat een perfecte machinevertaling zo goed als onmogelijk is en ze stappen uiteindelijk van het ideaalbeeld van de volmaakte vertaling af. Ze herformuleren hun oorspronkelijke doel en gaan op zoek naar aanvaardbare ‘approximatieve’ vertalingen. Om de inhoud van een document in grote lijnen te begrijpen, hoeft de vertaling namelijk niet foutloos en grammaticaal correct te zijn.

In 1985 koopt Jean Gachot, een Frans industrieel, het bedrijf over. Systran wordt in de volgende decennia onder meer in Canada verder ontwikkeld en is vandaag een van de hoofdspelers van de automatische vertaling. De Systranproducten worden gebruikt door bijvoorbeeld de Amerikaanse regering, Ford en de Europese Commissie. In het aanbod van vertaalproducten zit onder meer ook een lowcost-versie voor particulier gebruik.

Close but no cigar --> 'Dichtbij maar geen sigaar'?

De haast utopische universele vertaalmachine waarvan ontwerpers en gebruikers jarenlang droomden, kwam er uiteindelijk niet. De MT-machines (Machine Translation) ruimden hoe langer hoe meer plaats voor CAT-systemen (Computer Assisted Translation) die het leven van de vertalers vergemakkelijkten met bijvoorbeeld terminologielijsten, databanken van vroegere vertalingen, syntactische en orthografische hulp. Tegelijkertijd wijzigden grote bedrijven die massa’s teksten (handleidingen, software enzovoort) in verschillende talen produceerden, hun strategie: voortaan moesten de redacteurs die teksten in een eenvoudige, voor de machine begrijpelijke taal schrijven. Dat bespaarde in elk geval al veel tijd en geld. De gebruikers kregen jammer genoeg her en der nog onbegrijpelijke instructies voorgeschoteld, zeker als het om een Nederlandse vertaling ging van een MT-gegenereerde Engelse vertaling uit bijvoorbeeld het Koreaans. Niet zelden moest de vertaler een beroep doen op ingenieurs om de juiste instructies te kunnen schrijven.

Traduttore, Traditore of ... Trados?

Trados bestaat al enkele decennia en werd in het verleden, en wellicht nog steeds, bij zowat alle vertaalstudenten als de ideale vertaaltool ingelepeld. Ondanks de gloednieuwe versie van SDL Trados Studio 2019 lijkt het CAT-systeem terrein te verliezen, al integreert het de terminologische module SDL MultiTerm in het pakket. Op het eerste gezicht heeft Trados evenwel nog enkele pijnpunten: het programma is niet goedkoop, het systeem draait blijkbaar nog altijd niet of niet goed op Appleplatforms en het is verre van gebruiksvriendelijk. De gebruiker krijgt wel toegang tot een reeks instructievideo’s, tips en tricks voor de effectieve toepassing van het systeem. De makers prijzen de verbeterde software aan als veel sneller en flexibeler. Ook het vertaalgeheugen (TM) zou de gebruiker meer controle en meer navigatiemogelijkheden bieden.

Oplossingen in een stroomversnelling

Iets meer dan tien jaar geleden raakte de ontwikkeling van vertaalprogramma’s in een geweldige stroomversnelling. Dat gebeurde enerzijds onder de impuls van Google, dat enorme bedragen investeerde in de automatische vertaling van websites, en anderzijds door de statistische benadering van de machinevertaling met Google Statistical Machine Translation. Afhankelijk van de statistische informatie die bronteksten en hun vertaling verschaften, bepaalde het systeem de hoogste probabiliteit van een woordgroep of een zinsdeel in de doeltekst. De internetgigant beschikt namelijk over onmetelijke massa’s gegevens in talloze talencombinaties, en kan zo de juiste vertaling van een zinsdeel of een woord zoeken op basis van de meest voorkomende vertalingen en hun directe context. Het systeem leert bovendien voortdurend bij door de stelselmatige uitbreiding van de bestanden. Google heeft ondertussen nog een belangrijke stap vooruit gezet met de Neural Machine Translation: een zelflerende end-to-endontwikkeling voor geautomatiseerde vertalingen die veel van de zwakheden van de conventionele, op zinnen gebaseerde vertaalsystemen uit de weg ruimt. In het voorbeeld is het verschil tussen beide vertaalsystemen duidelijk.

Voorbeeld

Google SMT

my eyeglasses are dirty → meine Brille sind verschmutzt I prefer a ham or cheese sandwich → je préfère un jambon ou fromage sandwich Google NMT my eyeglasses are dirty → meine Brille ist schmutzig I prefer a ham or cheese sandwich → je préfère un sandwich au jambon ou au fromage (voorbeelden van prof. dr. Frank Van Eynde, Centrum voor Computerlinguïstiek, KU Leuven, 27 september 2019)

Dire quasi la stessa cosa (Umberto Eco, 2012)

De beroemde Italiaanse schrijver van Il nome de la rosa (De naam van de roos) heeft zelf teksten van Nerval en Baudelaire vertaald, en is nauw betrokken bij de vertaling van zijn eigen romans en essays. Zijn ervaring als vertaler en schrijver leert hem dat een bijna letterlijke woord-voor-woordvertaling van een tekst veel van de essentie verliest. Vandaar de titel van zijn essay, Dire quasi la stessa cosa (Bijna hetzelfde zeggen), waarin hij voor een creatieve, vrije vertaling pleit, die het poëtische en de esthetiek van de brontekst weerspiegelt. Hij illustreert zijn stelling met voorbeelden, zoals de Engelse machinevertaling (Altavista) van de aanhef van het beroemde Les Chats van Baudelaire. We voegen zelf hieraan de Deeplvertaling en de vertaling van Christian Guermes (2016) toe (https://lyricstranslate.com/fr/les- chats-katten.html).

Voorbeeld

Brontekst

Les amoureux fervents et les savants austères

Aiment également, dans leur mûre saison,

Les chats puissants et doux, orgueil de la maison,

Qui comme eux sont frileux et comme eux sédentaires.

Engelse vertaling (Altavista)

Fervent lovers and austere scholars

Love equally, in their season,

Powerful and gentle cats, the pride of the house,

Who like them are sensitive to cold and like them sedentary.

Nederlandse vertaling (Deepl)

Felle liefhebbers en sobere wetenschappers

Liefde ook, in hun rijpe seizoen,

Krachtige en lieve katten, trots van het huis,

Die net als zij koud en net als zij sedentair zijn.

Vertaling C. Guermes

Alle vurige minnaars, alle strenge geleerden,

Ze houden, in hun rijpe jaren, in eendere mate

Van katten, de trots van het huis, de zachte en kordate

Dieren die, net als zij, discreet en sedentair zijn.

Een snelle blik op de vertalingen hierboven bewijst dat de vertaalmachines beslist geen dichterlijke ziel hebben. Eco stelt evenwel dat de vertaling even poëtisch of esthetisch moet zijn als de brontekst, en dat de uitgevers daarvoor op goede professionele schrijvers-vertalers een beroep moeten doen. De statistische component van automatische vertaalprogramma’s werkt natuurlijk des te beter naargelang de hoeveelheid materiaal in de brontaal en de doeltaal toeneemt: hoe meer, hoe beter! Door poëtische formuleringen, archaïsche gezegden, idiomatische uitdrukkingen en niet-lineaire structuren lijdt de vertaling makkelijk en onherroepelijk schipbreuk. Zelfs voor de vertaling van kindergedichtjes reikt de competentie van vertaalmachines (nog) niet ver genoeg.

Voorbeeld

Jantje zag eens pruimen hangen,

O! als eieren zo groot. ‘t Scheen,

dat Jantje wou gaan plukken,

Schoon zijn vader ‘t hem verbood.

Hier is, zei hij, noch mijn vader,

Noch de tuinman, die het ziet:

Aan een boom, zo vol geladen,

Mist men vijf, zes pruimen niet.

Jantje a vu des prunes pendre une fois, Oh ! Comme des oeufs gros comme ça.

Il semblait que Jantje voulait aller choisir, Propre, son père lui a interdit

Ici, dit-il, mon père n’est ni l’un ni l’autre Ni le jardinier, qui le voit:

Dans un arbre, si chargé,

Cinq, six prunes ne manquent pas.

Net als in het vorige voorbeeld is de vertaling vanuit of naar het Nederlands erg zwak. De reden daarvoor is wellicht te vinden in het feit dat combinaties met het Nederlands niet dezelfde gigantische hoeveelheden vertaalde teksten en zinsdelen kunnen genereren als wereldtalen zoals het Engels of het Frans. Het lijkt wel of de eerste verzen uit een Brusselse bloemlezing zijn geplukt: choisir als vertaling van ‘plukken’ is bijzonder vreemd. Ook het archaïsche ‘schoon’ voor ‘ofschoon’ zet de vertaalmachine op het verkeerde been: de machine vertaalt het woord door propre. Het volgende vers is kriskras vertaald door mon père n’est ni l’un ni l’autre. Zelfs tegen eenvoudige rijmgedichtjes is een vertaalmachine blijkbaar niet opgewassen. Op het internet staan er tientallen websites met al dan niet grappige vertaalblunders. Die zullen met de tijd wellicht stilaan verdwijnen als de vertaalmachines geen wartaalmachines meer zijn.

Vertaalmachines: een valse illusie?

In de snel evoluerende vertaalmarkt zijn er op dit ogenblik – om het eenvoudig te stellen – grosso modo vier soorten vertaalprogramma’s beschikbaar. We lijsten ze even op, in chronologische volgorde: 1) Statistical Machine Translation (SMT) SMT gebruikt statistische modellen op basis van enorme hoeveelheden tweetalige teksten. Het programma bepaalt zo de overeenstemming van een woord in de brontaal en een woord in de doeltaal. Het grootste nadeel van dergelijke programma’s, zoals de eerste versies van Google Translate, is dat ze geen rekening houden met de context. SMT-machines genereren dus door de band genomen (niet: pris par le pneu!) veel foutieve vertalingen. 2) Rule-Based Machine Translation (RBMT) RBMT maakt gebruik van grammaticale regels (parsing). Het systeem voert een grammaticale analyse uit van de brontaal en de doeltaal om de vertaalde zinnen te genereren. RBMT vereist evenwel een uitgebreide proeflezing. De grote afhankelijkheid van lexicons betekent bovendien dat enige efficiëntie pas na lange tijd wordt bereikt. 3) Hybrid Machine Translation (HMT) HMT is een mix van RBMT en SMT. Het systeem maakt onder meer gebruik van een vertaalgeheugen, waardoor de vertaling kwaliteitsvoller en efficiënter is. Maar zelfs HMT heeft nadelen, namelijk de noodzaak van uitgebreide nabewerking (post-editing). Ook hier is er voor menselijke vertalers een essentiële rol weggelegd. 4) Neural Machine Translation (NMT) NMT is een automatisch vertaalsysteem dat neurale netwerk modellen gebruikt (gebaseerd op het menselijke brein) en statistische modellen ontwikkelt. Het primaire voordeel van NMT is dat het rond één systeem is opgebouwd, en dat het zelflerend is om bron- en doelteksten te ontcijferen.

Aan u de keuze!

Welk vertaalsysteem is voor uw bedrijf of uw organisatie de beste keuze? Elk van de hierboven besproken vertaalprogramma’s heeft voor- en nadelen. Om tussen de verschillende vertaalmachines een goede keuze te maken, moet u uw eigen behoeften en budgetmogelijkheden in kaart brengen. Gaat u de machinevertalingen intern of extern gebruiken? Beschikt u over een professionele vertaler of post-editor die de foutieve vertalingen identificeert en verbetert? Investeert u in een gepersonaliseerd systeem met een vertaalgeheugen of gaat u uit van een lowbudgetversie of een gratis webversie? Wilt u in grote lijnen weten waarover een tekst in de vreemde taal gaat, of wilt u een publiceerbare tekst voor intern of extern gebruik? SMT (Google Translate) is tot op vandaag de meest gebruikte vertaalmachine. De RBMT-aanpak moet met taalverandering rekening houden en de regels moeten voortdurend worden bijgewerkt. SMT is daarentegen niet afhankelijk van regels en de systemen kunnen in veel minder tijd dan RBMT-systemen worden geconstrueerd. Cloudoplossingen zorgen bovendien voor een hoge verwerkingskracht en een groot rendement. NMT is zeker de meest geavanceerde optie. De opleidingsmodellen voor NMT zijn evenwel een dure aangelegenheid, wat natuurlijk ook betekent dat kmo’s rekening zullen moeten houden met een haalbare kosten-batenverhouding.

Een bijna letterlijke woord-voor-woordvertaling van een tekst verliest veel van de essentie

Onmisbaar: TMS-systemen (translation management systemen) !

TMS-systemen automatiseren basistaken tijdens de volledige cyclus van het vertaalproces. Ze helpen bijvoorbeeld bij het lokalisatieproces van marketing of producten om de totale inhoud aan specifieke talen en culturen aan te passen. TMS-systemen integreren meestal automatische vertaalsoftware en veel van die systemen kunnen dikwijls ook bedrijfseigen managementtools integreren. TMS-systemen worden ook ingezet om publicatietools en marketingpraktijken te automatiseren. Ze kunnen meertalige inhoud centraliseren, ze ondersteunen de communicatie tussen vertalers, projectmanagers en andere medewerkers, en analyseren de kwaliteit en de effectiviteit van vertalingen. Er zijn talrijke TMS-systemen op de markt beschikbaar. Enkele voorbeelden zijn Transifex, Smartling, Phrase, Localize, Lilt en Memsource. In het karderstuk hieronder nemen we dat laatste systeem even onder de loep.

Uitsmijter: MT-systemen en dichterlijke vrijheden ...

Mais on ne pouvait pas éternellement rester au-dessus, alors ça vous faisait une belle jambe. Maar we konden niet eeuwig blijven, dus dat maakte je tot een mooi been.

Sylvain Dieltjens & Priscilla Heynderickx Sylvain Dieltjens is emeritus professor van de KU Leuven, CEO van IBIS communications (Kortenberg) en voorzitter van de VVZC. Priscilla Heynderickx doceert Nederlands en zakelijke communicatie aan de KU Leuven (Faculteit Letteren, campus Antwerpen). Ze is hoofdredacteur van Ad Rem. sylvain.dieltjens@ibiscom.be priscilla.heynderickx@kuleuven.be

Machine Translation: Slimme vertaalrobots weldra aan de beurt?

Sciencefiction aan de vingers

Close but no cigar --> 'Dichtbij maar geen sigaar'?

Traduttore, Traditore of ... Trados?

Oplossingen in een stroomversnelling

Dire quasi la stessa cosa (Umberto Eco, 2012)

Vertaalmachines: een valse illusie?

Aan u de keuze!

Onmisbaar: TMS-systemen (translation management systemen) !

Uitsmijter: MT-systemen en dichterlijke vrijheden ...

Recente blogposts

Opmerkingen

NEEM CONTACT OP