Gå direkt till innehåll
​KB tillgängliggör kraftfulla modeller för språkförståelse

Pressmeddelande -

​KB tillgängliggör kraftfulla modeller för språkförståelse

I dag publicerar Kungliga biblioteket (KB) tre svenska språkmodeller baserade på Googles "BERT" (Bidirectional Encoder Representations from Transformers). De första testerna visar att KB:s modeller överträffar Googles flerspråkiga modell.

En språkförståelsemodell är ett omfattande artificiellt neuralt nätverk som tränats på stora mängder text för att få en flexibel och djup språkförståelse. KB:s BERT har lärt sig mekanismerna i svenska språket och kan analysera och strukturera text i stora underlag.

Tillsammans med grundmodellen släpper KB även en BERT som har finjusterats för att kunna extrahera objekt, tid, händelser, organisationer, platser och personer ur text. Dessutom publicerar KB en preliminär version av ALBERT – en utveckling av BERT som är markant mindre och därför mer tillgänglig.

Modellerna har tagits fram av KB-labb, som är Kungliga bibliotekets infrastruktur för datadriven forskning.

– Språkförståelsemodeller är ett genombrott för språkteknologin, som kommer få långtgående konsekvenser för all textbaserad forskning och utveckling. En svensk BERT bidrar till att Sveriges datadrivna forskning hänger med i det paradigmskifte som redan har startat i andra länder, säger Love Börjeson, föreståndare för KB-labb.

Hur används en modell för språkförståelse?

KB:s BERT kan till exempel tränas till att avgöra om en dagstidningstext kommer från en ledar- eller kultursida. Den kan spåra Selma Lagerlöfs stilistiska inflytande över 1900-talslitteraturen, men även identifiera skribenter från en trollfabrik baserat på stil och innehåll.

Modellen kan tränas till specifik språkförståelse, det vill säga lära sig förstå text inom särskilda ämnesområden och för olika frågeställningar. Det innebär att BERT kan användas till i princip vilken textbaserad uppgift som helst, inom forskning, myndigheter och industrin.

Varför tar KB fram språkförståelsemodeller?

KB:s omfattande samlingar är grunden för språkförståelsen hos den nyutvecklade BERT. Bredden i samlingarna gör att olika typer av svenska, och olika delar av samhället, representeras. Modellen har tränats på en kombination av öppet tillgängligt och upphovsrättskyddat material, inklusive svenska Wikipedia, svenska dagstidningar, offentliga utredningar, böcker, digitala publikationer, sociala medier och webbforum.

Var hittar jag KB:s modeller?

Modellerna och dokumentation om hur de kan användas finns på KB:s GitHub-konto. I ett första steg släpps en färdigtränad BERT-modell, en alfaversion av ALBERT samt en modell finjusterad för extraktion av bland annat namn och platser, så kallad Named Entity Recognition (NER).

Vad händer nu?

KB-labb kommer under 2020 ta fram fler språkmodeller. Fokus ligger på att förbättra testmetoder, att täcka in fler delar av det svenska samhället och språket, samt att göra modellerna så tillgängliga som möjligt för olika typer av användare. Utvecklingen sker i samarbete med bland annat det statliga forskningsinstitutet RISE och Språkbanken Text vid Göteborgs universitet.

Mer information
Love Börjeson, föreståndare för KB-labb
love.borjeson@kb.se
010-709 31 48

FAKTA: Datadriven forskning
Utmärkande för datadriven forskning är att den använder stora sammanlänkade datamängder i form av dataset. Det kan ställas i motsats till traditionell forskning på enskilda digitala objekt. 

I forskningspropositionen Kunskap i samverkan (2016/17:50) lyfter regeringen fram betydelsen av att bibliotek, arkiv och museer främjar datadriven forskning genom att ge tillgång till material i digital form.

KB har sedan maj 2019 etablerat KB-labb, en infrastruktur för forskare som vill utföra datorstödda analyser på KB:s digitala samlingar. Denna grund ska sedan kunna användas för forskning med datorstödd text-, ljud- och bildanalys som metod. Det gäller på sikt även material utanför KB:s samlingar.

Ämnen

Kategorier



Kungliga biblioteket

Kungliga biblioteket, KB, är Sveriges nationalbibliotek. Vi samlar in, bevarar och tillgängliggör allt som ges ut i Sverige, från handskrifter, böcker och tidningar till musik, tv-program och bilder. Dessutom har vi utländskt material med svensk anknytning.

KB är en statlig myndighet under Utbildningsdepartementet. Som nationalbibliotek utvecklar och främjar vi samverkan i den svenska bibliotekssektorn.

Kontakter

Lotta Serning

Lotta Serning

Presskontakt Kommunikationschef 070-007 33 21

Sveriges Nationalbibliotek

Kungliga biblioteket, KB, är Sveriges nationalbibliotek. Våra samlingar sträcker sig mer än tusen år bakåt i tiden och växer för varje dag. Vi samlar in, bevarar och tillgängliggör allt som ges ut i Sverige, från handskrifter, böcker och tidningar till musik, tv-program och bilder.

Dessutom har vi utländskt material med svensk anknytning – översatta böcker, spel av svenska upphovspersoner och film som handlar om Sverige.

KB är en statlig myndighet under Utbildningsdepartementet. Vi utvecklar och främjar samverkan i den svenska bibliotekssektorn. KB är även ett forskningsbibliotek inom humaniora och samhällsvetenskap.

Kungliga biblioteket
Humlegården
Stockholm