Till KTH:s startsida Till KTH:s startsida

Visa version

Version skapad av Niklas Olsson 2013-11-22 13:09

Visa nästa >
Jämför nästa >

Regler för sökmotorer (robots.txt)

För oss som jobbar med webb på KTH kan det vara bra att känna till hur sökmotorerna hittar och indexerar våra sidor. I de allra flesta fall vill man att innehållet ska vara sökbart men i vissa fall vill man undvika det. Det kan finnas olika anledningar till att man inte vill att sökmotorn ska indexera innehållet och här är några exempel:

  • Vi har flyttat vår skolas webbsidor till Polopoly eller annan plats men behöver ha kvar den gamla ett tag till.
    När man flyttar stora informationsmängder och delvis arbetar om de så kan man vilja spara det gamla innehållet ett tag så att om det är något man har missat eller senare undrar över kan gå tillbaka och titta. Då kan det vara bra att ha kvar sidorna under en tid men man vill inte att vem som helst hittar de via sökfunktionen då de ofta är gammalt och inaktuellt innehåll.

  • Vi har en programvara som ska gå att ladda ned via webben men alla filer i den behöver inte indexeras
    Sidan som berättar om programvaran bör så klart vara sökbar men alla filer som programvaran innehåller (iblan tusentals) behöver inte vara det.

  • Vi har ett gammalt system som vi inte vill stänga ner men som inte behöver indexeras
    Vi har sett att en del forum, rumsbokningssyetem, kalenderapplikationer etc. kan innehålla länkstrukturer där man kan klicka sig oändligt långt in i framtiden. Ex: "Nästa dag ->" i en kalender.

Hur säger man till en sökmotor att inte indexera viss information?

För att reducera sk. brus i sökfunktionen, d.v.s. sidor som inte är viktiga eller rent av felaktiga p.g.a. att informationen är gammal och utdaterad så kan man på webbservern placera en textfil i roten som man döper till robots.txt. Denna fil kan innehålla regler för hur sökmotorerna ska indexera filerna på den aktuella webbservern. Ex: www.kth.se/robots.txt

Nedan följer exempel på hur reglerna i en robots.txt fil kan se ut.

Robots.txt-regler

Sökmotorn ska inte indexera innehåll under en viss katalog: