Hur styr jag vad som finnns med i sökmotorer via robots.txt

För oss som jobbar med webb på KTH kan det vara bra att känna till hur sökmotorerna hittar och indexerar våra sidor. I de allra flesta fall vill man att innehållet ska vara sökbart men i vissa fall vill man undvika det. Det kan finnas olika anledningar till att man inte vill att sökmotorn ska indexera innehållet och här är några exempel:

Vi har flyttat vår skolas webbsidor till Polopoly eller annan plats men behöver ha kvar den gamla ett tag till.
När man flyttar stora informationsmängder och delvis arbetar om de så kan man vilja spara det gamla innehållet ett tag så att om det är något man har missat eller senare undrar över kan gå tillbaka och titta. Då kan det vara bra att ha kvar sidorna under en tid men man vill inte att vem som helst hittar de via sökfunktionen då de ofta är gammalt och inaktuellt innehåll.
Vi har en programvara som ska gå att ladda ned via webben men alla filer i den behöver inte indexeras
Sidan som berättar om programvaran bör så klart vara sökbar men alla filer som programvaran innehåller (iblan tusentals) behöver inte vara det.
Vi har ett gammalt system som vi inte vill stänga ner men som inte behöver indexeras
Vi har sett att en del forum, rumsbokningssyetem, kalenderapplikationer etc. kan innehålla länkstrukturer där man kan klicka sig oändligt långt in i framtiden. Ex: "Nästa dag ->" i en kalender.
Vi har en gammal webbstruktur på webbservern som inte ska vara tillgänglig alls
Om ni har en webb som längre inte är aktiv, och där materialet inte ska vara tillgängligt. Rekommenderar vi inte att ni använder regler i robots.txt utan använder er av en 301 Redirect. Var noga med att det är en 301:a och inte en 302 redirect.

Hur säger man till en sökmotor att inte indexera viss information?

De tre stora webbtjänsterna för sök, är väldigt duktiga på att utifrån ditt tidigare webb-beteende, plats och statistik, analysera vad det är för typ av resultat du vill ha och därmed minimera andelen brus i sökresultaten. Men mindre tjänster som inte har data-centers för att göra denna analys (läs: kth.se/search) kan behöva hjälp med att ta bort oväsentligt innehåll.

För att reducera sk. brus i sökfunktionen, d.v.s. sidor som inte är viktiga eller rent av felaktiga p.g.a. att informationen är gammal och utdaterad så kan man på webbservern placera en textfil i roten som man döper till robots.txt. Denna fil kan innehålla regler för hur sökmotorerna ska indexera filerna på den aktuella webbservern. Ex: www.kth.se/robots.txt

Nedan följer exempel på hur reglerna i en robots.txt fil kan se ut

Specificera sökmotor:

Först säger man vilken eller vilka sökmotorer som reglerna ska påverka:

User-agent: *

I detta fall gäller kommande regler för alla sökmotorer.

User-agen: kth-gsa-crawler

Nu gäller reglerna bara KTH:s interna sökmotor

Specificera innehåll:

Sökmotorn ska inte indexera något på denna server (host):

Disallow: /

Sökmotorn ska inte indexera innehåll under en viss katalog:

Disallow: /katalognamn/

Om man specificera djupare ner i ett träd:

Disallow: /katalog/underkatalog/

Exempel: Gör sidorna tillgänglia i alla söktjänster, utom i KTH-söket

User-agent: kth-gsa-crawler
Disallow: /

User-agent: *
Disallow:

Läs mer om sökmotor regler via robots.txt

Vill du lära dig mer om hur man haterar dessa regler så kan du läsa mer här:
www.robotstxt.org