Een team van onderzoekers van de Universiteit van Amsterdam heeft een nieuwe methode ontwikkeld om computervertaalsystemen, zoals Google Translate, te verbeteren. Door de methode kunnen de systemen eenvoudiger vaststellen welke woorden de beste vertaling vormen van een bepaalde zin.
Met de methode kunnen de juiste woordvormen worden gekozen in bepaalde grammaticaal complexe talen zoals het Duits. Dit gebeurt door de zinsopbouw en naburige woorden in de brontaal te analyseren, wat een betere vertaling tot gevolg heeft. De resultaten van hun onderzoek presenteren de onderzoekers komende week op het toonaangevende internationale congres ‘Empirical Methods in Natural Language Processing’ (EMNLP 2014) in Qatar.
Wetenschappers zijn continu bezig om het vinden van de juiste vertaling voor een computervertaalsysteem eenvoudiger te maken. Bij sommige talen is dat namelijk zeer moeilijk, bijvoorbeeld wanneer de taal waar je naar wil vertalen (doeltaal) grammaticaal ingewikkelder is dan de te vertalen taal (brontaal). De UvA-onderzoekers richtten zich specifiek op morfologisch rijke talen. Dit zijn talen die veel verschillende woordvormen per woordgroep kennen. Waar het Nederlands bijvoorbeeld de woordgroep ‘de man’ heeft, kent het morfologisch rijkere Duits meerdere woordvormen voor deze zelfde woordgroep: ‘der Mann’, ‘des Mannes’, ‘dem Mann’ en ‘den Mann’. De juiste vorm hangt af van de grammaticale functie van het woord in de zin. Bij het vertalen van een zin van het Nederlands naar het Duits, zal een menselijke vertaler die beide talen spreekt gemakkelijk de juiste keuze maken. Computervertaalsystemen hebben echter meer moeite met het maken van zulke keuzes.
‘De nieuwe aan de UvA ontwikkelde methode maakt gebruik van kunstmatige neurale netwerken, modellen waarbij het menselijk brein wordt nagebootst in een computer. Waar voorgaande vertaalsystemen veelal de meest voorkomende woordvormen kiezen, kiest de nieuwe methode de juiste woordvorm door de zinsopbouw in de brontaal te analyseren. Het neurale netwerk is in staat zelf grammaticale functies van woorden af te leiden, zonder dat het expliciete kennis van grammatica heeft,’ vertelt Ke Tran, een van de onderzoekers. De nieuwe ontwikkelde methode is daarmee niet afhankelijk van handgeschreven regels om functies van woorden te leren, een beperking die veel voorgaande methoden kennen. Het verkrijgen van zulke handgeschreven voorbeelden kan namelijk lastig en kostbaar zijn, met name voor kleinschalige talen.
In de toekomst wordt de methode geïntegreerd in een vertaalsysteem – Oister genaamd – die de groep van Christof Monz ontwikkelt aan de UvA. Het onderzoek wordt uitgevoerd onder leiding van Christof Monz binnen het NWO Vidi-project `Surface Realization in Statistical Machine Translation’.