Till innehåll på sidan

Språket inget problem när datorn sammanfattar

Publicerad 2007-06-05

Dagens överflöd av digital information gör det omöjligt för oss att manuellt sålla och välja vad vi ska ta till oss. På de stora världsspråken finns program för automatisk textsammanfattning. För små språk har kostnaderna tidigare lagt hinder i vägen men nu har KTH-forskaren Martin Hassel utvecklat en språkoberoende textsammanfattare.

Automatisk textsammanfattning innebär att en dator sammanfattar en längre text till en kortare, fri från överflödig information. I sin avhandling presenterar Martin Hassel en modell för hur en språkoberoende textsammanfattare kan sättas samman genom att grundläggande språkteknologiska verktyg kombineras. Det gör det möjligt att till en rimlig kostnad utveckla program för automatisk textsammanfattning även för små språk.

– Det största hindret när det gäller mindre språk är att det saknas datamängder som är ämnade för språkteknologisk forskning. Det saknas också ofta resurser för att bygga upp sådana datamängder eftersom det är tidskrävande och dessutom många gånger kräver mycket manuellt arbete, säger Martin Hassel.

Likväl behövs automatisk textsammanfattning för dessa språk för att tämja den konstant ökande mängden elektroniskt producerad text. Martin Hassel har fokuserat på automatisk sammanfattning av text med så liten mänsklig insats som möjligt. De resurser som används bör i så hög grad som möjligt redan existera och behöver inte vara skapade för automatisk textsammanfattning. Helst bör de ha kommit till som en naturlig del av en litterär process.

– Sammanfattningssystemet bör utan större ansträngning kunna sättas samman med hjälp av ett mindre antal mycket grundläggande språkteknologiska verktyg. Det ger en textsammanfattare som är nära nog språkoberoende, så att den lätt kan flyttas mellan olika språk, säger Martin Hassel.

Magnus Myrén

Innehållsansvarig:redaktion@kth.se
Tillhör: Om KTH
Senast ändrad: 2007-06-05