Københavns Universitet

Ung sprogforsker baner vejen for bedre maskinoversættelse

Pressemeddelelse   •   Nov 04, 2010 11:31 CET

Adjunkt Anders Søgaard har udviklet en parser, dvs. et program, der bruges til maskinoversættelse, sådan som man kender det fra Google Translate. Parseren er netop blevet præsenteret på en stor konference om computerlingvistik i Beijing. Parseren rangerer i øjeblikket som verdens klart bedste parser for en lang række sprog, inkl. dansk, kinesisk, spansk og tysk, foran parsere udviklet ved flere andre internationale universiteter.

Forbehandling af tekst

Parsing betyder 'automatiseret sætningsanalyse', og Google Translate anvender parsing til forbehandling af tekst, der skal oversættes fra sprog som japansk og tysk.

- Vores dependensparser fjerner op mod tyve procent af de fejl, de bedste parsere har begået. Vores parser er særlig god til at bestemme relationer mellem ord, der optræder langt fra hinanden, forklarer Anders Søgaard og illustrerer det med følgende eksempel:

- I sætningen 'Hende Marie, jeg ved, du kan lide' står udsagnsleddet 'kan lide' langt fra 'hende Marie', selv om det henviser til hende. Det har maskinoversættelsesprogrammer traditionelt haft svært ved at håndtere.

I sådanne sætninger, fjerner den nye såkaldte dependensparser ifølge Anders Søgaard i gennemsnit mere end tredive procent af tidligere parseres fejl. 

- Vi bruger allerede nu parseren til at forbedre vores maskinoversættelsessystemer, og vi samarbejder med en virksomhed om at bruge den i undervisningssammenhæng, siger Anders Søgaard fra Center for Sprogteknologi (CST) på Det Humanistiske Fakultet ved Københavns Universitet.

Slut med absurde maskinoversættelser

Anders Søgaards banebrydende resultater inden for maskinoversættelse slog for alvor igennem, da Stanford University i sommer præsenterede systemet Phrasal, der er baseret på Anders Søgaards forskning i forbindelse med at løse problemet med afbrudte oversættelsesenheder. Her beskrev flere danske medier, hvordan Phrasal bidrager til at gøre en ende på absurde oversættelser i fx Google Translate.

Ph.d.-pris

Anders Søgaards nylige landvindinger inden for den sprogteknologiske forskning har medført, at han torsdag den 4. november 2010 modtager Kommunikation og Sprogs Ph.d.-pris for international virksomhedskommunikation og sprog på 25.000 kr. Det sker ved et arrangement på Carlsberg Akademi kl. 16.00. Læs mere på Kommunikation og Sprogs hjemmeside.

Kontakt

Adjunkt Anders Søgaard 
Center for Sprogteknologi
Det Humanistiske Fakultet
Mobil: 28 34 84 09
Mail: soegaard@hum.ku.dk