Blog post -

Medarbetarbloggen: Speech-to-text och maskininlärning

Emil Lundh har jobbat som utvecklare hos oss sedan 2013 men har faktiskt en forskarkarriär i ryggsäcken som doktor i teoretisk och matematisk fysik. Detta gör honom särskilt lämpad för R&D-arbete, så det han jobbar med hos oss är bland annat speech-to-text, EU-projektet ProCams och vår egen produktsatsning. Här delar han med sig lite av detta.

I filmen Colossus från 1970, om en superdator som tar över världen, finns en sekvens där ett team ingenjörer arbetar i veckor med att ge datorn ”en röst” – talsyntes alltså – för att med kameror, mikrofon och högtalare kunna tala med en människa. Att datorn utan vidare kunde tolka vad den såg och hörde passerade däremot utan kommentar i filmen: det var väl självklart att en intelligent dator kunde.

Maskininlärning är den stora utmaningen

Idag kan vi skratta åt hur 70-talets filmmakare hade fått allt om bakfoten. Att tolka bilder, ljud och grammatik; att förstå meningen i en dialog – maskininlärning – har visat sig höra till de riktigt svåra utmaningarna inom datavetenskap (till skillnad från talsyntes då). Vi har slutat tala om artificiell intelligens och betraktar istället enskilda uppgifter var för sig, som att känna igen ansikten eller röster eller identifiera talade ord. 

Fältet rör sig långsamt framåt tack vare insatser från både grundforskning och kommersiella företag som Apple, Microsoft och Google, men vi har långt kvar till scenariot i Colossus, där en människa kan föra ett gräl med datorn om vem som ska styra världen. Visst har det hänt en del på sistone. Appar som Siri låter dig styra din mobil med rösten och Facebook pekar ut ansikten i bilderna du laddar upp. Vissa typer av automatisk igenkänning verkar vara mogna att tas i bruk för en del (begränsade) uppgifter.

Codemills arbete inom området

På Codemill har vi intresserat oss för både ansikts- och röstigenkänning, men här tänkte jag berätta lite om taligenkänning eller tal-till-text: att känna igen orden i inspelat tal och skriva ut texten. Genom vår tekniska chef Johanna, som även jobbar som forskare på Umeå universitet, har vi direktkontakt med den akademiska forskningen, och den spännande frågan är, vad skulle vi egentligen kunna använda denna datorintelligens till?

Svårigheter med speech-to-text

Först måste man inse begränsningarna. Om du har upplevt hur träffsäker mobilen är på att tolka intalade kommandon så kommer det kanske som en överraskning hur svårt det är att texta en film. Uppgiften kanske låter enkel vid första anblicken: ett ljud borde motsvara en bokstav, och sen kan man sätta ihop dem till ord. 

Men komplikationerna är många och svåra: det är skillnad på hur ord och delar av ord uttalas beroende på var i meningen eller ordet de sägs, många ord låter egentligen ganska lika om man inte vet sammanhanget, och sedan måste man tänka på olika röster, dialekter och bakgrundsljud. Kontentan är i alla fall att man kan bli grymt besviken om man ska texta en film och får ett resultat i stil med det här:

– I was your will come to you know dress on sort of god I didn't talk about lifetime.

– I don't know I'm one of my classes like things of that may live when I'm around and I always bike what they fought lies strong.

– So I've had next time you get bored you know I'd give you know and I'll come on I guess yeah.

Exemplet är ett par repliker från tv-serien Blackadder tolkat av ett av de vassaste kommersiella verktygen på marknaden. (Läsaren får själv försöka gissa hur dialogen egentligen löd.) Vi får dra slutsatsen att det i dagsläget inte går att göra ett verktyg för att texta vilken dialog som helst – inte om kunden förväntar sig att få någotsånär hyfsade resultat. Uppgiften måste begränsas på något sätt.

Vad är möjligt – idag, imorgon?

Vissa typer av material kan man faktiskt texta. Monologer med klart och tydligt tal, som anföranden i riksdagen eller föreläsningar, får mycket bättre resultat än exemplet ovan. Att ”träna” igenkännaren till att bli bra på en enskild röst eller åtminstone inspelningar från en och samma källa är ett sätt att öka träffsäkerheten. Användandet kanske måste avgränsas. En inte så perfekt utskrift av en automatisk textigenkännare skulle kunna bli underlag för manuell efterbearbetning.

Man kan söka efter nyckelord: låt maskinen skapa text av all dialog i alla digitala filmer du har lagrade, och använd sedan datat för att göra sökningar: kanske är en nyhetsbyrå intresserad av att hitta de filmklipp där Umeå eller Obama omnämns? Eller har en läroanstalt filmade föreläsningar som man vill kunna söka i?

Den intressanta utmaningen vi har framför oss är att hitta sätt att använda oss av framstegen på maskininlärningens område så att vi kan dra verklig nytta av våra alltmer intelligenta datorer.

/Emil

----

Vårt speech-to-text-verktyg används bland annat av vår partner Vidispine i produkten VidiXplore som vi varit med och utvecklat. Vi har skrivit ett (något mer tekniskt) blogginlägg hos dem också om speech-to-text. VidiXplore är ett kraftfullt och användarvänligt verktyg för mediehantering i molnet som du kan prova gratis om du är nyfiken.

----

Related links

Topics

  • Data, Telecom, IT

Categories

  • codemill
  • research & development

Contacts

Rickard Lönneborg

Press contact CEO - Codemill Codemill 073-038 74 43

Johanna Björklund

Press contact CEO - Smart Video Smart Video 070-603 94 59

Henrik Lundgren

Press contact Chief Sales Officer - Accurate Player & Codemill Internationellt sälj och partners +46 (0) 70-531 34 00

Jonas Sandberg

Press contact CEO & Senior Solution Architect - Accurate Player Accurate Player +46 70 6413616

Dinesh Damodaran

Press contact Sales & Marketing Manager - Accurate Player & Codemill Dinesh ansvarar för marknadsföring och försäljning vid Accurate Player & Codemill.

Related content