Labb 2

Rättstavning

Om du redovisar labben senast den 30 september får du en bonuspoäng på tentan. Labbteoriuppgifterna nedan kan redovisas för en bonuspoäng till tentan, och detta görs på övningen den 20 september (ingen annan redovisningsmöjlighet finns). Det är frivilligt att redovisa teoriuppgifterna, men för att klara av att göra labben bör du ha gjort dom.

I katalogen /info/adk16/labb2 finns ett Javaprogram som löser nedanstående problem. Din uppgift är att snabba upp programmet så att det går ungefär 10000 gånger snabbare. Korrekthet och effektivitet testas genom att din lösning skickas till Kattis. För att klara labben ska du bli godkänd av Kattis samt redovisa labben för en handledare. Börja med att logga in i Kattis och anmäla dig till adk16 i menyalternativet Kurser i översta menyn.

Problem
Editeringsavståndet mellan två ord är det minimala antalet bokstavsoperationer som krävs för att transformera det ena ordet till det andra. Det finns tre tillåtna bokstavsoperationer:

  1. ta bort en av bokstäverna i ordet

  2. lägg till en bokstav någonstans i ordet

  3. byt ut en bokstav i ordet mot en annan bokstav

Till exempel kan ordet alroitm transformeras till algoritm genom att bokstaven r byts ut mot g (regel 3) och bokstaven r skjuts in efter bokstaven o (regel 2). Kedjan

alroitm -> algoitm -> algoritm

visar att editeringsavståndet mellan alroitm och algoritm är högst 2. Eftersom det inte går att transformera alroitm till algoritm i en enda bokstavsoperation så är editeringsavståndet mellan orden precis 2.

Ett vanligt sätt att ta fram rättstavningsförslag till ett felstavat ord är att helt enkelt returnera dom ord i ordlistan som har minst editeringsavstånd till det felstavade ordet. Programmet ska givet en ordlista och ett antal felstavade ord beräkna rättstavningsförslag på detta sätt.

Specifikation
Indata består av två delar. Den första delen är ordlistan, som består av ett antal ord i utf-8-bokstavsordning, ett ord per rad. Denna del avslutas av en rad som bara innehåller ett '#'-tecken. Den andra delen är ett antal felstavade ord som ska rättstavas, ett ord per rad. Dom felstavade orden ingår inte i ordlistan. Varje ord i indata består bara av små bokstäver i svenska alfabetet (a-z, å, ä, ö), inga mellanslag, skiljetecken eller siffror.

Programmet ska för varje felstavat ord skriva ut en rad bestående av det felstavade ordet följt av det minimala editeringsavståndet inom parentes följt av en lista med alla ord i ordlistan som har minimalt editeringsavstånd till det felstavade ordet. Listan ska vara i bokstavsordning och varje ord i listan ska föregås av mellanslag. Ordlistan har högst en halv miljon ord och antalet felstavade ord i indata är högst 100.

Exempel på körning
En ordlistefil finns i /info/adk16/labb2/ordlista. Du kan provköra ditt program genom att skriva in några felstavade ord (till exempel labd och dabbbhud) på varsin rad i en fil (t.ex. testord.txt) och sedan köra

spel01$ cat /info/adk16/labb2/ordlista.txt testord.txt | java Main
labd (1) labb lagd land
dabbbhud (4) anbud dabba nabbad

Uppgift
Det givna Javaprogrammet löser visserligen ovanstående problem, men det tar timmar att få fram svaret. Du ska effektivisera programmet så att det hittar svaret inom den tidsgräns som Kattis ger.

Bra testfall att testa ditt program med finns på /info/adk16/labb2/testfall/

Teoriuppgifterna ger uppslag om olika sätt att effektivisera programmet. Ditt optimerade program ska ha samma in- och utmatning som det givna programmet och det måste fortfarande vara Java.

Kattis känner till problemet som kth.adk.spelling

Teoriuppgifter

Sätt dig in i hur det givna programmet fungerar och svara sedan på följande frågor.

  1. Formulera rekursionen (partDist i programmet) så kompakt som möjligt med matematisk notation.

  2. Beräkna partDist("labd", "blad", x, y) för alla x och y mellan 0 och 4 och för in värdena i en matris M. Vad blir M?

  3. Vad är det alltså metoden partDist(w1, w2, x, y) beräknar?

  4. Visa att tidskomplexiteten för Distance(w1, w2) är exponentiell i ordlängden. Du kan anta att w1 och w2 har samma längd.

  5. Visa hur man kan spåra vilka editeringsoperationer som görs i den kortaste editeringsföljden från "labd" till "blad" genom att titta på matrisen M.

  6. Visa med pseudokod hur rekursionen kan beräknas med dynamisk programmering, dvs hur en matris M kan skapas.

  7. Analysera tidskomplexiteten för att bestämma editeringsavståndet mellan ett n-bokstavsord och ett m-bokstavsord med dynamisk programmering.

  8. Beräkna dynprogmatrisen för editeringsavståndet mellan "labs" och "blad".

  9. Vilken del av matriserna för "labd"-"blad" och "labs"-"blad" skiljer?

  10. Allmänt sett, vilken del av matriserna för Y-X och Z-X skiljer när orden Y och Z har samma första p bokstäver?

Viggo Kann skapade sidan 19 augusti 2016

Lärare Viggo Kann ändrade rättigheterna 19 augusti 2016

Kan därmed läsas av lärare och ändras av lärare.

Lärare Viggo Kann ändrade rättigheterna 1 september 2016

Kan därmed läsas av alla och ändras av lärare.
kommenterade 12 september 2016

Länken till kattis(kth:adk:spelling) leder till en kattis-sida med fel 404. Jag hittade problemet(https://kth.kattis.com/problems/kth.adk.spelling) igenom att kolla på sidan för adk15. Är det lugnt att använda det gamla problemet?

kommenterade 13 september 2016

Hänvisningen till /info/adk16/labb2/ordlista får gärna ändras så att den slutar med filändelsen .txt, då filen gör det i den aktuella katalogen.

Lärare kommenterade 13 september 2016

Theodor och Martin, jag har nu uppdaterat labblydelsen med era rättelser. Tack!

En användare har tagit bort sin kommentar
kommenterade 16 september 2016

Med reservation för att jag inte har någon bestämmanderätt i frågan vill jag hänvisa till en mening i laborationsinstruktionerna: "Ditt optimerade program ska ha samma in- och utmatning som det givna programmet och det måste fortfarande vara Java."

Feedback Nyheter