Växjö universitet

Nya modeller för effektivare sökning på nätet - ny avhandling från Växjö universitet

Pressmeddelande   •   Nov 23, 2006 10:53 CET

De flesta av oss har någon gång letat information på Internet. Ett
utmärkt verktyg för att hitta vad man söker är Google och trots att
webben innehåller flera miljarder dokument så hittar Google ofta vad vi
söker. Men ibland är det svårt att komma på rätt sökord. Antingen får
man inga träffar alls eller också sida upp och sida ner med dokument som
helt enkelt inte innehåller den information man är ute efter. Problemet
kan vara att sökorden är för ovanliga eller för vanliga, kanske
tvetydiga eller så beskrivs det man söker efter med andra ord i
dokumenten. Ett sätt att precisera sin sökning och därmed få bättre
träffar är att använda flerordsuttryck, exempelvis "Växjö universitet",
"Former president Bill Clinton" eller "Göran Persson".

I en ny
avhandling från Växjö universitet presenterar Leif Grönqvist nya
datamodeller för en effektivare informationssökning på nätet.

Det finns en matematisk modell som kallas "Latent semantic indexing"
(LSI) och som används i en del söksystem. Principen är att man utifrån
en stor dokumentsamling tar fram en metod att omvandla ord och dokument
till vektorer. Dessa vektorer kan med enkel matematik jämföras så att
man kan se vilka ord som är betydelsemässigt relaterade och även vilka
dokument som handlar om liknande saker. Vid en typisk sökning så kan
modellen användas direkt genom att omvandla sökfrågan till en vektor och
därefter ta fram listan på dokument vars vektor ligger närmast
sökfrågevektorn. Denna metod har visat sig förbättra kvaliteten på
träffarna vid dokumentsökning.

Leif Grönqvists avhandling är en utredning om i vilken utsträckning LSI
kan omformuleras till att även hantera flerordsuttryck. För att avgöra
hur LSI påverkas av att lägga till flerordsuttryck, vilket är långt
ifrån oproblematiskt, har Grönqvist gjort en stor mängd experiment med
modeller anpassade på olika sätt. Under hela arbetet har han strävat
efter att hålla så mycket som möjligt av systemet språkoberoende för att
i framtiden möjliggöra sökning av dokument på alla tillgängliga språk.

Resultaten vad gäller förbättrad kvalitet på sökningar varierar men är
övervägande bättre för modeller som även innehåller flerordsuttryck.
Grönqvists undersökningar väcker också nya forskningsfrågor om hur man
skall ta tillvara på informationen från flerordsuttryck i sökfrågor och
dokument för att få bästa möjliga resultat. Arbetet har också lett fram
till generella resurser användbara vid liknande utvärderingar, i form av
en utvärderingsdatabas för svensk synonymtest, och nya utvärderingsmått
för dokumentsökning.

Leif Grönqvist arbetar idag på ett företag i Göteborg som utvecklar en
produkt för datavisualisering. Innan doktorandstudierna i Växjö var han
verksam vid Göteborgs universitet.

Avhandlingen "Exploring Latent Semantic Vector Models Enriched With
N-grams" försvaras den 29 november 2006, kl. 13:15 i sal Weber,
Universitetsplatsen 1, Växjö universitet. Opponent är professor Helena
Ahonen-Myka från Department of Computer Science, University of Helsinki.

* Ytterligare information*
För mer information kontakta Leif Grönqvist, e-post:
_leif.gronqvist@gmail.com

Beställ boken från Kerstin Brodén, Växjö University Press, 0470-70 82
67, e-post: vup@vxu.se

Kerstin Brodén
Växjö University Press
0470-70 82 67
Kerstin.Broden@vxu.se