Det nasjonale lagringsanlegget NIRD står 60 meter under bakken, 700 meter inne i et fjell på Vestlandet. Her skal de viktige europeiske språkdataene lagres, godt beskyttet mot naturkatastrofer, krig og terror. Foto: Sigma2.

Pressemelding — 16. november 2022 09:17

Nå skal språkmodeller trenes i europeiske språk på en av verdens største tekstsamlinger

Oversettelsestjenester som Google Translate og Apples virtuelle assistent Siri er teknologi mange av oss bruker daglig. Tjenestene bygger på avanserte språkmodeller, gjerne fremstilt som kunstig intelligens med navn som BERT eller GPT, trent opp ved hjelp av maskinlæring. Språkmodellene eies av noen få amerikanske og kinesiske teknologiselskaper.

Dette gir ikke bare stor markedsmakt til enkelte aktører, det fører også til skjevheter i hvilke språk modeller trenes på. Kommersielt mindre viktige språk har ofte svakere, eller ingen spesialtilpassede modeller i det hele tatt.

Åpne språkmodeller med støtte for alle europeiske språk

High-Performance Language Technologies (HPLT) er navnet på et prosjekt som skal utfordre nåværende monopolsituasjon hvor noen få store teknologiselskap står bak verdensledende tjenester. HPLT skal sette søkelys på flerspråklighet og utvikle treningsmateriale og språkmodeller som støtter europeiske språk.

HPLT ledes av tsjekkiske Charles University, og er et samarbeid mellom fem universiteter (Oslo i Norge, Edinburgh i Skottland, Praha i Tsjekkia, Helsinki og Turku i Finland), to leverandører av høykapasitetstjenester (Sigma2 og tsjekkiske Cesnet), og et privat selskap (spanske Prompsit). HPLT har fått midler fra EUs Horisont Europa-program til å gjennomføre prosjektet, som har som mål å utvikle språkmodeller for dyplæring og maskinoversettelsesverktøy i stor skala, med støtte til alle offisielle europeiske språk, og mange flere. Resultatet skal bli åpent nedlastbare høykvalitetsmodeller. Noe av motivasjonen bak prosjektet er dessuten å ta vare på europeisk språk.

-Ved å trene opp språkmodeller for alle europeiske hovedspråk, kommer HPLT-prosjektet til å endre forutsetningene helt. Mange vil dra nytte av dette, særlig forskere utenfor store selskaper og oppstartsbedrifter som kan utvikle nye tjenester ved hjelp av språkmodellene. Dette kan selvsagt også inkludere videreutvikling av virtuelle assistenter som Siri, men denne gangen bygget med transparent og offentlig tilgjengelig teknologi under panseret, sier Andrey Kutuzov ved Institutt for informatikk ved Universitetet i Oslo, en av forskerne bak prosjektet.

Kutuzov har tidligere hatt en ledende rolle i å utvikle språkmodellen NorBERT, en av de første nevrale språkmodellene for norsk og nynorsk, utviklet i samarbeid med Nasjonalbiblioteket.

Modeller trenes på en kopi av Internett

Moderne språkteknologi er umulig uten trening og finjustering av store dyplæringsmodeller. Modellene trenes ved hjelp av nevrale nettverk, som er en grov forenklinger av menneskehjernen. Dyplæring er en metode innen maskinlæring, hvor et nevralt nettverk trenes opp til å løse avanserte oppgaver på egenhånd. Til å trene nevrale språkmodeller trengs store mengder data, og opplæring krever enormt mye parallell datakraft fra dusinvis eller hundrevis av grafiske prosesseringsenheter (GPUer).

Til å gjennomføre prosjektet skal HPLT-forskerne bruke tekstdata fra det såkalte Internettarkivet, som kanskje er best kjent for sin ikoniske Wayback Machine. Internettarkivet inneholder en enorm mengde nettsider på ulike språk. En samling som enkelt overgår de fleste datasett som til nå har vært brukt i trening av nyere språkmodeller.

Forskerne bak studien skal laste ned de mest relevante dataene fra europeiske domener og etablere kopier i Norge og i Tsjekkia. Så blir nettsidene rensket og tekstene hentes ut for å benyttes i opplæring av språkmodellene. Det er snakk om billiarder av ord med tekst. Prosjektet tar sikte på å utvikle den største åpne tekstsamlingen for andre språk enn engelsk noensinne.

Rask og sikker dataoverføring til Europas raskeste superdatamaskin

I størrelse er det snakk om omtrent syv petabyte med data. Det tilsvarer lagringskapasiteten til to millioner DVD-plater. Nå er det selvsagt uaktuelt å lagre Internettarkivet på DVD-plater. I stedet skal de syv petabytene med rådata lagres på den nye nasjonale lagringsinfrastrukturen, NIRD, som eies av Sigma2 og driftes av NRIS (Norwegian research infrastructure services).

Det er ingen enkel oppgave å overføre og lagre data i så store mengder. Datakapasitet og overføringshastighet mellom dataklynger i Norge og utlandet, inkludert Internettarkivets datasenter i California, er helt avgjørende for å gjennomføre forskningen. I Norge har vi Forskningsnettet, som driftes og utvikles av Sikt. Dette høykapasitetsnettverket er koblet til internasjonale forskningsnettverk slik at data raskt og sikkert kan overføres mellom de nasjonale systemene og Europas raskeste superdatamaskin LUMI i Finnland, hvor språktreningen skal utføres. Norge er deleier av LUMI gjennom Sigma2, og både norske og finske språkteknologiforskere er allerede blant LUMIs pilotbrukere.

Før treningen starter må tekstdataene både renses og forhåndsbehandles. Sammen med tsjekkiske Cesnet skal Sigma2 gi lokal CPU-kraft for å sikre robust nedlasting, lagring og forhåndsbehandling av nettarkivdataene.

- Dette er en kritisk del av prosjektet, som kreves både for å forbedre kvaliteten på treningssettene og for å redusere mengden data som kopieres til lagring på LUMI vesentlig. Det er suboptimalt og kostbart å lagre store mengder data på høyytelseslagring på regneanlegg som LUMI, derfor er det også viktig at datasettene er bearbeidet på forhånd, sier Lorand Szentannai, seniorrådgiver i Sigma2.

KI-ressurser blir stadig viktigere for norsk forskning

Superdatamaskinen LUMIs enorme datakapasitet er først og fremst basert på mange GPU-prosessorer, som er svært godt egnet til forskning som involverer kunstig intelligens, og spesielt dyplæring.

- Vi ser at etterspørselen etter KI-ressurser fra både akademia og industri stadig øker, og som nasjonal leverandør er det avgjørende at vi kan tilby beregnings- og lagringsressurser i verdensklasse. Der blir LUMI en nøkkel til å muliggjøre forskningsgjennombrudd på fagområder som drives av høykapasitetsberegninger og databehandling fremover, sier Gunnar Bøe, daglig leder i Sigma2.

Språkteknologi er en av de nyere vitenskapsgrenene som benytter høykapasitetsberegninger i forskning. Høykapasitetsberegninger har tradisjonelt vært dominert av naturvitenskapelig forskning, men stadig utvikling innen teknologi og digitale arbeidsmetoder gjør at flere og flere fagområder er avhengige av å prosessere og analysere stordata i sin forskning.

Både Norge og Tsjekkia er med i konsortiet av 10 land som sammen med Euro HPC Joint Undertaking eier LUMI. Euro HPC JU et europeisk fellesinitiativ som skal sikre europeiske forskere tilgang til superdatamaskiner i verdensklasse.

Emner

Kategorier

Sigma2 AS er ansvarlig for å anskaffe, drifte og utvikle den nasjonale e-infrastrukturen for høykapasitetsberegninger og -datalagring i Norge. Dette omfatter blant annet de nasjonale superdatamaskinene. Vi leverer tjenester i samarbeid med universitetene i Oslo, Tromsø, Bergen og NTNU. Samarbeidet går under navnet NRIS (Norwegian research infrastructure services).

Nå skal språkmodeller trenes i europeiske språk på en av verdens største tekstsamlinger

Åpne språkmodeller med støtte for alle europeiske språk

Modeller trenes på en kopi av Internett

Rask og sikker dataoverføring til Europas raskeste superdatamaskin

KI-ressurser blir stadig viktigere for norsk forskning

Emner

Kategorier

Kontakter

Kjersti Strømme

Relatert innhold

Europas kraftigste superdatamaskin skal løse globale utfordringer og fremme grønn omstilling

Snart får Norge mye større tilgang på KI-kapasitet

Sigma2 anskaffer ny nasjonal lagringsinfrastruktur

Nå skal språkmodeller trenes i europeiske språk på en av verdens største tekstsamlinger

Åpne språkmodeller med støtte for alle europeiske språk

Modeller trenes på en kopi av Internett

Rask og sikker dataoverføring til Europas raskeste superdatamaskin

KI-ressurser blir stadig viktigere for norsk forskning

Emner

Kategorier

Kontakter

Kjersti Strømme

Relatert media

Relatert innhold

Europas kraftigste superdatamaskin skal løse globale utfordringer og fremme grønn omstilling

Snart får Norge mye større tilgang på KI-kapasitet

Sigma2 anskaffer ny nasjonal lagringsinfrastruktur