ROBOTS.TXT

Hvad er robots.txt?

Der kan være dele af en hjemmeside, man ikke ønsker skal være tilgængeligt for en søgemaskine. Dette er f.eks. hvis man har såkaldt ”duplicate content”, hvor man har samme indhold flere steder på en hjemmeside. Da dette kan påvirke ens rangeringer i negativ grad, kan det være en god idé at forhindre søgemaskinerne i at crawle de dele, der også står andre steder på en hjemmeside.

For at blokere søgemaskinerobotterne fra at læse de sider, man ikke ønsker, de skal læse, kan man benytte sig af robots.txt. Førnævnte er en fil i txt-format, der uploades i roden i et webhotel. Filen angiver for søgemaskiner, hvilket indhold den ikke må crawle på en hjemmeside. Hvis man ikke ønsker, at søgemaskiner som Google skal læse dele af ens hjemmeside, skal man derfor placere denne txt-fil på de sider, hvis indhold ikke må tilgås.

Derfor er det vigtigt for søgemaskiner først og fremmest at undersøge, om der findes en robots.txt. Grunden til dette er, at den i så fald vil manøvrere som den får besked på fra denne fil.

Udover at stoppe søgemaskiner fra at læse sider, kan robots.txt også forhindre søgemaskinernes adgang til scripts, værktøjer og andet programmæssig kode. Derudover kan man også benytte filen til at hjælpe søgemaskiner med at lokalisere et XML sitemap.

Man skal være varsom med at blokere for søgemaskiner, da man hurtigt kan komme til at spærre adgangen for søgerobotterne på hele ens hjemmeside, så intet indhold bliver læst. Der er en udbredt misforståelse om, at robots.txt kan stoppe søgemaskinernes robotter fra at indeksere dele eller hele hjemmesider.

Førnævnte fil kan kun stoppe søgerobotter fra at crawle. Hvis man ønsker at stoppe søgemaskinerne fra at indeksere ens indhold, skal man holde sig fra at bruge robots.txt og i stedet benytte sig af Meta robots-tagget.