Blog post -

Medarbetarbloggen: Speech-to-text och maskininlärning

Emil Lundh har jobbat som utvecklare hos oss sedan 2013 men har faktiskt en forskarkarriär i ryggsäcken som doktor i teoretisk och matematisk fysik. Detta gör honom särskilt lämpad för R&D-arbete, så det han jobbar med hos oss är bland annat speech-to-text, EU-projektet ProCams och vår egen produktsatsning. Här delar han med sig lite av detta.

I filmen Colossus från 1970, om en superdator som tar över världen, finns en sekvens där ett team ingenjörer arbetar i veckor med att ge datorn ”en röst” – talsyntes alltså – för att med kameror, mikrofon och högtalare kunna tala med en människa. Att datorn utan vidare kunde tolka vad den såg och hörde passerade däremot utan kommentar i filmen: det var väl självklart att en intelligent dator kunde.

Maskininlärning är den stora utmaningen

Idag kan vi skratta åt hur 70-talets filmmakare hade fått allt om bakfoten. Att tolka bilder, ljud och grammatik; att förstå meningen i en dialog – maskininlärning – har visat sig höra till de riktigt svåra utmaningarna inom datavetenskap (till skillnad från talsyntes då). Vi har slutat tala om artificiell intelligens och betraktar istället enskilda uppgifter var för sig, som att känna igen ansikten eller röster eller identifiera talade ord. 

Fältet rör sig långsamt framåt tack vare insatser från både grundforskning och kommersiella företag som Apple, Microsoft och Google, men vi har långt kvar till scenariot i Colossus, där en människa kan föra ett gräl med datorn om vem som ska styra världen. Visst har det hänt en del på sistone. Appar som Siri låter dig styra din mobil med rösten och Facebook pekar ut ansikten i bilderna du laddar upp. Vissa typer av automatisk igenkänning verkar vara mogna att tas i bruk för en del (begränsade) uppgifter.

Codemills arbete inom området

På Codemill har vi intresserat oss för både ansikts- och röstigenkänning, men här tänkte jag berätta lite om taligenkänning eller tal-till-text: att känna igen orden i inspelat tal och skriva ut texten. Genom vår tekniska chef Johanna, som även jobbar som forskare på Umeå universitet, har vi direktkontakt med den akademiska forskningen, och den spännande frågan är, vad skulle vi egentligen kunna använda denna datorintelligens till?

Svårigheter med speech-to-text

Först måste man inse begränsningarna. Om du har upplevt hur träffsäker mobilen är på att tolka intalade kommandon så kommer det kanske som en överraskning hur svårt det är att texta en film. Uppgiften kanske låter enkel vid första anblicken: ett ljud borde motsvara en bokstav, och sen kan man sätta ihop dem till ord. 

Men komplikationerna är många och svåra: det är skillnad på hur ord och delar av ord uttalas beroende på var i meningen eller ordet de sägs, många ord låter egentligen ganska lika om man inte vet sammanhanget, och sedan måste man tänka på olika röster, dialekter och bakgrundsljud. Kontentan är i alla fall att man kan bli grymt besviken om man ska texta en film och får ett resultat i stil med det här:

– I was your will come to you know dress on sort of god I didn't talk about lifetime.

– I don't know I'm one of my classes like things of that may live when I'm around and I always bike what they fought lies strong.

– So I've had next time you get bored you know I'd give you know and I'll come on I guess yeah.

Exemplet är ett par repliker från tv-serien Blackadder tolkat av ett av de vassaste kommersiella verktygen på marknaden. (Läsaren får själv försöka gissa hur dialogen egentligen löd.) Vi får dra slutsatsen att det i dagsläget inte går att göra ett verktyg för att texta vilken dialog som helst – inte om kunden förväntar sig att få någotsånär hyfsade resultat. Uppgiften måste begränsas på något sätt.

Vad är möjligt – idag, imorgon?

Vissa typer av material kan man faktiskt texta. Monologer med klart och tydligt tal, som anföranden i riksdagen eller föreläsningar, får mycket bättre resultat än exemplet ovan. Att ”träna” igenkännaren till att bli bra på en enskild röst eller åtminstone inspelningar från en och samma källa är ett sätt att öka träffsäkerheten. Användandet kanske måste avgränsas. En inte så perfekt utskrift av en automatisk textigenkännare skulle kunna bli underlag för manuell efterbearbetning.

Man kan söka efter nyckelord: låt maskinen skapa text av all dialog i alla digitala filmer du har lagrade, och använd sedan datat för att göra sökningar: kanske är en nyhetsbyrå intresserad av att hitta de filmklipp där Umeå eller Obama omnämns? Eller har en läroanstalt filmade föreläsningar som man vill kunna söka i?

Den intressanta utmaningen vi har framför oss är att hitta sätt att använda oss av framstegen på maskininlärningens område så att vi kan dra verklig nytta av våra alltmer intelligenta datorer.

/Emil

----

Vårt speech-to-text-verktyg används bland annat av vår partner Vidispine i produkten VidiXplore som vi varit med och utvecklat. Vi har skrivit ett (något mer tekniskt) blogginlägg hos dem också om speech-to-text. VidiXplore är ett kraftfullt och användarvänligt verktyg för mediehantering i molnet som du kan prova gratis om du är nyfiken.

----

Related links

Topics

  • Data, Telecom, IT

Categories

  • codemill
  • research & development

Contacts

Related content

  • Codemill in new EU-project – creating virtual fitting room

    ProCAMS is an EU-project coordinated by the Fraunhofer society. They will arrange a competition where scientists and individuals are invited to contribute with modules for various challenges related to video analysis. Codemill and the other companies in the project consortium will then take the winning modules one step further and turn them into marketable products.

  • Codemill joins EU project MICO as a transfer partner

    MICO, short for Media in Context, is a European Union part-funded research project to provide cross-media analysis solutions for online multimedia producers. Now it is official that Swedish system developers CodeMill AB are joining MICO as a transfer partner, and will as such help disseminate project results to a wider audience.

  • Codemill uttagna till Born Global-programmet

    2015 års upplaga av företagsutvecklingsprogrammet Born Global är nu igång. 10 unga företag med stor tillväxtpotential ska under det kommande halvåret genomgå en utbildning och träning i konsten att växa och bli globala. I programmet ingår bland annat en resa till Silicon Valley. Codemill är ett av de uttagna företagen.

  • Medarbetarbloggen: Konsult på vift

    I det här inlägget berättar Viktor Jonsson om sin tid på Codemill och delar med sig av sina bästa konsulttips. Han har varit en av våra uthyrda konsulter under större delen av sin tid hos oss, och suttit på plats hos Tieto i Umeå.

  • Medarbetarbloggen: Mäster Scrum

    Detta inlägg tar vid där det förra slutade, när Andreas Jakobsson skrev om den nystartade UX-gruppen. Annica Lindström och Olov Wikberg berättar här om vad som har hänt sedan dess.

  • Medarbetarbloggen: User Experience på Codemill

    Andreas Jakobsson har varit med i Codemills UX-arbete från första början. Mycket har hänt sedan 2011, här berättar han om utvecklingen från en kodkvarn till en upplevelsekvarn.