Sökmotor

Den som söker han finner…eller?

Med över en miljon indexerade sidor i Google så kan man förstå att det inte alltid är så lätt som besökare att hitta det man söker efter på KTH.se. Det hade vi tänkt råda bot på och har en sedan en kort tid tillbaka startat ett sökprojekt. Men var börjar man och vad ska man tänka på?

Bild från: http://www.flickr.com/photos/oettingde/4991491334/in/photostream/

Nulägesanalys

För att veta vad man ska förbättra så måste man först ta reda på vad som inte fungerar med den nuvarande sökfunktionen. Något som kan vara svårare än det låter.

Vi har under åren hört att vår sökfunktion är dålig, men det räcker dock oftast med att ställa frågan “Vad är det som är dåligt med den?” så blir det “uttömmande” svaret “Man får inte träff på det man söker”.

Är det då givet att det är sökfunktionen som är dålig? Det kan ju också vara så att besökaren använder “fel” söktermer eller att källdatat är undermåligt? Även om man skaffar sig den bästa sökmotorn på marknaden så blir inte sökresultatet bättre än det faktiska källdatat. “Skit in, skit ut” som man brukar säga. Man kan inte trolla med en sökmotor, men många delar kan man förbättra och det tänkte vi göra i det nuvarande sökprojektet.

Hur ser det då ut idag?

Vad söker våra besökare efter?
Vilka kategorier av innehåll är de ute efter?
Vilka sökord ger ingen träff?
Varför lämnar man webbplatsen efter efter en sökning? 

Som jag tidigare nämnde så måste man veta en hel del om nuläget för att veta vilka bristerna är och vad som behöver förbättras. Robert Lawesson har tittat en del på statistiken och kommit till några slutsatser som han presenterade i de föregående  inlägget: Webbplatssök – en intern angelägenhet?

När man sätter sig ner och tittar på andra delar som vi idag inte kan hantera med den nuvarande söklösningen så ser vi bl.a följande brister:

  • Ingen möjlighet att söka bland lösenordsskyddat innehåll
  • Kan inte hantera synonymer
  • Kan inte hantera resultatsidans utseende fullt ut
  • Vi kan inte pusha/feeda innehåll till indexet
  • Dåliga möjligheter att öppna upp sitt data via sök
  • Kan inte på ett tillfredställande sätt analysera sökbeteendet
  • Autocomplete på sökbegrepp

Syfte

När man vet vilka de nuvarande bristerna är och vad man vill uppnå med projektet så kan det vara bra att tydligt klargöra vad syftet är med den nya sökfunktionen. Här kommer en kort beskrivning i punktform av vad vi vill åstadkomma:

Förbättra relevansen generellt i sökresultatengenom att bl.a.

  • Hantera duplicerat innehåll
  • Bygga upp en synonymordlista
  • Metadata-berika innehåll så att vi får bättre relevans, samt göra all data mer maskinläsbart
  • Göra skyddat innehåll sökbart för inloggade användare
  • Se till att prioriterade datakällor indexeras
  • Vikta prioriterat innehåll
  • Lyfta innehåll som ofta eftersöks med layout och design

Bygga bättre sökfunktioner som hanterar delmängder av innehåll

  • Personer
  • Kurser
  • Program
  • Lokaler
  • Platser
  • Blanketter
  • Regler
  • Nyheter

Övergripande förbättringar

  • Öka effektiviteten vid sök genom att berika sökresultatet med relevant information som gör att det är lättare att urskilja olika typer av innehåll.
  • Öka öppenheten av information genom att använda standarder som gör att andra kan nyttja vår data.
  • Öka innehållskvaliteten genom att belysa problem och involvera innehållsägare i verksamheten.
  • Hjälpa forskare och studenter att nå ut på ett tydligare och effektivare sätt (profilsök).
  • Ta bort “brus” ur sökresultatet genom att prioritera och begränsa vilka datakällor som levererar data till det sökbara indexet (d.v.s. definiera avgränsningar inom KTH:s datakällor).
  • Öka kunskapen om hur sök används generellt på KTH så att innehåll som ofta eftersöks kan framhävas i rätt sammanhang på ett prominent sätt.

Teknikval

Vi har under det senaste året gått igenom och tittat på flera sökmotorer och ställt de mot våra krav för att se vilken som skulle passa våra behov bäst. Några av de krav som vi har haft med är:

  • Integrationsmöjligheter med vår inloggningstjänst så att man kan möjliggöra sökning på skyddat material.
  • Sökresultatsidan ska kunna modifieras efter behov så att den är integrerad med övrig design och underlätta urskiljning av relevant innehåll.
  • Olika datakällor ska kunna adderas så att besökaren sömlöst kan söka i flera system via en och samma sökning.
  • Crawla och pusha/feeda innehåll till indexet.
  • Indexera binärfiler.
  • Facettera och filtrera olika typer av innehåll.
  • Lösningen ska medföra ett så lågt förvaltningsarv som möjligt.
  • Hjälpa användaren med felstavningar, synonymer och rekommendationer.

Valet kvarstår fortfarande och vi testar oss fram i mindre spike’s för att se vad som fungerar bäst efter våra behov.

Vad gör vi nu?

Vi har lagt upp en grov “road map” för vad vi kommer att arbeta med och i första etappen tar vi reda på hur stort index vi har att bearbeta, bygger en “proxy” som gör att vi kan hantera exempelvis duplicerat innehåll samt tittar på “proof of concepts” för synonymer, felstavningar och förslag via “auto complete”.

“to be continued…”

Om Niklas Olsson

Niklas heter jag och jobbar som systemutvecklare på KTH. Här tänkte jag dela med mig av saker jag funderar på eller av nyvunnen kunskap inom det webbrelaterade området.

2 reaktion på “Den som söker han finner…eller?

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *

Följande HTML-taggar och attribut är tillåtna: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">