08-07-13

CAT en MT

cat, mt, spelling check, spelling checker, spellingcontroleDe discussie over automatisch vertalen is vaak verwrongen.

Het wordt dikwijls naar voren gebracht alsof automatisch vertalen een radicale breuk met het verleden betekent, waardoor vertalers plotseling overbodig zouden worden.

De discussie wordt tegenwoordig gevoed door MT, of "machine translation".

Maar om te beginnen ontwikkelt automatisch vertalen zich in werkelijkheid al decennialang.

Puur automatisch vertalen, genaamd machinevertalen, waarbij de tekst in de machine wordt gestoken en er kraakhelder en correct vertaald weer uitkomt, was al minstens twintig jaar geleden een onderzoeksterrein van universiteiten en hogescholen.

Maar het leverde niets op.

Tegelijk werd gewerkt aan CAT: "computer assisted translation".

De keuze voor CAT lag voor de hand: veel vertaalbureaus werken voor telkens dezelfde klanten, en vertalen telkens dezelfde typen teksten.

Die teksten veranderen weinig.

Een voorbeeld: toen de bluray-schijven verschenen, kwamen er ook toestellen voor op de markt. De eerste toestellen waren BD-lezers. Daarvoor moesten handleidingen worden geschreven. Pas later kwamen de BD-recorders. Die toestellen waren in de grond niets anders dan de oorspronkelijke lezers met extra functies. De handleidingen waren dus ook de oorspronkelijke handleidingen, aangevuld met de opnamefuncties.

Dat betekende dat de vertaler alleen maar de oorspronkelijke tekst moest aanvullen met de nieuwe vertaling. Waardoor een goede organisatie van al uitgevoerde vertalingen een grote hulp is.

En aangezien een computer in de eerste plaats vooral wordt gebruikt om grote hoeveelheden informatie te klasseren en te bewaren, ligt het voor de hand dat computers konden worden ingezet voor het bewaren en klasseren van al gemaakte vertalingen.

Het was dus een kwestie van twee teksten samen te brengen: de brontekst en de vertaling ervan. Dat leverde een bestand op van twee kolommen: in de ene kolom een bronzin, en in de tweede kolom de vertaling. Dat is zowat de meest eenvoudige databasestructuur die je kunt bedenken.

De flexibiliteit is niet erg groot, maar bij veel terugkerende klanten kan het wel degelijk tijd besparen.

Geleidelijk werden de CAT-programma's ingewikkelder door ze meer mogelijkheden te bieden.

Een tweede stap is dat het CAT-programma je niet alleen een vertaling heeft als de bronzin precies gelijk is aan een zin die al in het bestand met vertalingen staat, maar ook als de zin licht afwijkt. De eerdere zin krijg je dan als voorbeeldzin, die je moet aanpassen. Iedere eerstejaarsstudent informatica kan zoiets al in elkaar boksen.

De volgende truc was het samenvoegen van bestaande vertalingen. Bijvoorbeeld doordat een nieuwe zin gedeelten gemeenschappelijk heeft met twee andere zinnen. Of bijvoorbeeld door een extra bestand toe te voegen met vertalingen van termen.

Het sneller de computers werden, hoe meer functies CAT-programma's konden krijgen, en hoe beter de resultaten werden.

Toen CAT al gesofisticeerd was geworden, stond MT nog nergens, en op het moment dat de zuivere MT echt interessant werd, slaagde het er enkel in om het even goed te doen als CAT.

Qua toegepaste technieken evolueren de twee systemen in dezelfde richting.

Het is een trage evolutie, omdat ze gebonden wordt door de rekenkracht van computers.

In feite is het hele MT-idee mislukt doordat men hoopte MT-programma's te schrijven die over taal denken zoals een mens. Maar de programmaregels die daarvoor nodig waren, bleken veel ingewikkelder dan verwacht. Bovendien zijn die programmaregels afgeleid van de regels die zich in het hoofd van menselijke taalgebruikers bevinden, en had men over het hoofd gezien dat niet precies bekend is hoe die regels in ons hoofd zitten.

De huidige buzz over MT is dan ook vooral een hype, in het leven geroepen door mensen die iets proberen te verkopen.

MT levert geen betere resultaten dan CAT. Lange tijd waren de resultaten zelfs veel slechter. Het is een typische IT-hype: ze verkopen producten door ze aan te prijzen met behulp van de vage, theoretische ideeën die erachter zitten, maar verzwijgen wat de beperkingen zijn van wat je uiteindelijk koopt.

Het is zoals spellingcontrole: geen enkele computer doet eigenlijk echt aan spellingcontrole. Wat spellingcontrole in werkelijkheid doet, is niets anders dan controleren of de woorden die je typt ook in zijn woordenboek zitten, aangevuld met enkele regeltjes over tekencombinaties die niet voorkomen in de taal waarin je typt, zoals bijv. "aaa" in het Nederlands. Maar de spellingcontrole past niet de spellingregels toe, want die begrijpt hij niet. Vandaar dat wie de spellingregels niet kent en volledig vertrouwd op spellingcontrole, massa's spellingfouten riskeert.

MT en CAT zijn in hetzelfde bedje ziek.

13:57 Gepost door Peter Motte, vertaler van Vertaalbureau Motte in Actualiteit, Algemeen, taal | Permalink | Commentaren (0) | Tags: cat, mt, spelling check, spelling checker, spellingcontrole, machinevertalen, computer assisted translation, computer aided translation | |  del.icio.us | | Digg! Digg |  Facebook | | Pin it! |  Print | | |

25-05-09

Lachen met "CAT" (4)

Het blijft grappig als je zit wat automatisch vertalen soms van een tekst maakt.
We hebben een aardige relcamebrief voor het vertaalbureau opgesteld, die begint met deze zin:
We doen u met plezier dit notaboekje cadeau, want Vertaalbureau Motte weet hoe belangrijk tekst en schrijven zijn.
We draaiden het door een vertaalprogramma, en niet het minste. En wat kregen we? Dittem:
We make you enjoy this gift note book, because Vertaalbureau Motte knows how important text and writing.
- "make" is een gebod
- waarom trouwens "make"?
- "note book" moet "notebook" zijn
- "enjoy" is een werkwoord, geen bijwoord of zo, zoals je zou verwachten van de vertaling van "met plezier"
- waar is die "zijn" op het einde van de zin gebleven?
- maar bovenal: de oorspronkelijke betekenis is eigenlijk volledig uit de zin verdwenen. Het idee dat Vertaalbureau Motte een cadeau geeft, is er niet meer.
Soms zijn we zelf verbaasd over de onmogelijke resultaten van automatisch vertalen.

11:31 Gepost door Peter Motte, vertaler van Vertaalbureau Motte in taal | Permalink | Commentaren (0) | Tags: automatisch vertalen, cat, computer aided translation, vertaaltools | |  del.icio.us | | Digg! Digg |  Facebook | | Pin it! |  Print | | |

19-05-09

Lachen met "CAT" (3)

Wat die beroemde zoekmachine presteert is niet veel beter dan wat vertaalprogramma's doen, maar die programma's hebben als voordeel dat er nog iemand tussen het programma en de eindgebruiker zit, nl. de vertaler. Hij kan de termenkeuze nog sturen en kiezen tussen de alternatieven.

De vertaalsite kiest gewoon zelf wat, soms duidelijk fout. Er is een voorbeeld bekend waarin "opknopingen" werd gebruikt i.p.v. "knopen" (als zelfstandig naamwoord). En dat is het dan. Uit een vertaalprogramma rolt doorgaans ook wartaal, maar het is zinniger, en vooral: de doelgroep is niet de eindgebruiker, maar de vertaler.

Die vertaler heeft ook de brontekst erbij en hij kent de taal daarvan zeer goed. Hij kan de voordelen van het programma benutten: consistente terminologie, hergebruik van zeer gelijkende zinnen, besparen van typewerk.

Bij de benadering van de zoekmachinevertaler heb je alleen maar de nadelen en niet de voordelen. De machine presenteert dat ruwe materiaal als eindproduct aan de verkeerde mensen: de eindgebruikers. Hij kan wel zien DAT er iets mis is, maar niet WAT en WAAROM, omdat hij het origineel niet ziet en vaak ook de taal daarvan niet kan lezen.

Firma's die hun gebruikershandleidingen op zo'n manier laten vertalen, zijn gewoon gevaarlijk bezig en dus ook onrechtmatig. Dat leidt vroeg of laat tot ongelukken en schadeclaims. Een verantwoordelijk bedrijf gaat dat dus niet zo doen.

Wat ook een rol speelt, is dat de doelgroep vaak de brontaal juist wél machtig is. Toch worden websites, brochures en persberichten in het Nederlands vertaald: niet omdat mensen uit de doelgroep ze anders niet kunnen lezen, maar om een voorkomende, beleefde en gedegen indruk temaken.

Een net bedrijf hoort gewoon het materiaal ook in de taal van de doelmarkt beschikbaar te hebben. En met een slordige machinevertaling bereik je dat doel niet. Integendeel, je maakt je dan belachelijk. De concurrentie haalt zulke bedrijven links en rechts in.

Als dat effect niet speelde, zou er veel vraag zijn naar vertalingen in het Interlingua. Iedereen met een beetje opleiding kan teksten in die taal namelijk spontaan lezen, in vrijwel heel Europa en Noord- en Zuid-Amerika. Toch wordt Interlingua nauwelijks gebruikt: het is onbeleefd om je zo te presenteren. en daar win je geen klanten mee.

08:00 Gepost door Peter Motte, vertaler van Vertaalbureau Motte in taal | Permalink | Commentaren (2) | Tags: cat, computer aided translation, automatisch vertalen, vertaaltools | |  del.icio.us | | Digg! Digg |  Facebook | | Pin it! |  Print | | |

18-05-09

Lachen met "CAT" (2)

Tegenwoordig kun je on line een bekende zoekmachine automatisch laten vertalen.

We probeerde het met onderstaande Nederlandse tekst:

- Momenteel staat de vertaling op hold.
- Dat betekent dus eigenlijk dat we met de leveringsdatum van 25 mei geen rekening meer moeten houden?
- Nee.
- Betekent dat dat het niet waar is dat we er geen rekening mee moeten houden, of betekent het dat we er wel nog rekening mee moeten houden?
- Gelieve er geen rekening meer mee te houden tot nader bericht.

We kregen deze Engelse tekst terug:

- Currently, the translation on hold.
- That means that we with the delivery date of May 25 no longer need to keep?
- No.
- Does that mean it is not true that we have not had to reckon with, or does it mean that we still had to reckon with?
- Please, do not take more into account until further notice.

Daarna hebben we die Engelse tekst voor de grap nog eens terugvertaald naar het Nederlands.

- Momenteel is de vertaling in de wachtstand.
- Dat betekent dat we met de levering van 25 mei niet meer hoeven te houden?
- No.
- Betekent dat dat het is niet waar dat we niet moesten rekening houden met, of betekent het dat we nog moesten rekening houden met?
- Alsjeblieft, geen rekening meer gehouden tot nader order.

16:43 Gepost door Peter Motte, vertaler van Vertaalbureau Motte in taal | Permalink | Commentaren (0) | Tags: computer aided translation, automatisch vertalen, cat, vertaaltools | |  del.icio.us | | Digg! Digg |  Facebook | | Pin it! |  Print | | |

22-10-08

Lachen met CAT

"CAT" betekent "computer aided translation".
Het is in de vertaalwereld een belangrijk onderdeel van de praktijk geworden, al werkt het alleen met veel herhalingen van telkens dezelfde zinnen. Dus niet met veel herhalingen van telkens dezelfde woorden.
Onlangs paste ik zo'n programma toe op een tekst, en in die tekst zat het volgende stukje zin:
"Of course, if"
En het programma vertaalde dat als:
"Pulp natuurlijk, "
Dat hij van "of course" "natuurlijk" maakt, is normaal. Maar waar heeft hij die "pulp" vandaan?
Wie niet kan vertalen, kan met CAT niets beginnen.

14:30 Gepost door Peter Motte, vertaler van Vertaalbureau Motte in taal | Permalink | Commentaren (0) | Tags: cat, computer aided translation | |  del.icio.us | | Digg! Digg |  Facebook | | Pin it! |  Print | | |