Robots.txt Nedir?
Kısaca, web site sahipleri robots.txt kullanarak arama motorlarına kendi siteleri hakkında bilgilendirme verirler. Bu; The Robots Exclusion Protocol olarak adlandırılır.
Nasıl Çalışır?
Örnek olarak www.cssimbenim.com‘ u ele alalım. Bir arama robotu bu siteye girmek isterse ilk önce www.cssimbenim/robots.txt‘ e gider ve bu site hakkında bilgi alır, ne yapıp ne yapmayacağını anlar, daha sonra ana siteye giriş yapar.
Örnek bir robots.txt adresi şu şekilde olmalıdır;
www.cssimbenim/robots.txt
veya
www.xxx.com/robots.txt gibi.
Robots.txt dosyası sadece belirli bir şekilde düzenlenmiş metin içeriğine sahip olmalıdır ve asla HTML kodları içermemelidir. Aşağıdaki örnekleri inceleyelim;
Sitenizin tamamını indexletmek için;
User-agent: *
Disallow:
Not: Boş bir robots.txt dosyası da aynı mesajı verecektir.
Tüm robotların sitenizi indexlenmesini engellemek için;User-agent: *
Disallow: /
Sadece Google’ ın sitenizi indexlememesi için;User-agent:Googlebot
Disallow: /
Bir klasör(dizin) içeriğini tüm robotların indexlemesini engellemek için;
User-agent: *
Disallow: /dizin-adi/
Bir sayfanın tüm robotlar tarafından indexlenmesini engellemek için;
User-agent: *
Disallow: /dizin-adi/indexlenmeyecek-sayfa.html
Robots.txt dosyasında “œ/dizin-adi/*” veya “œ/dizin-adi/*.html” gibi ifadeler kullanamazsınız. Hariç tutulmasını istediğiniz sayfaları ve dizinleri teker teker belirtmek zorundasınız. Bir dizini engellerseniz içindeki sayfalarında indexlenmemesi için ayrı ayrı robots.txt’ e eklemeye gerek yoktur.
Örnek bir robots.txt dosyası aşağıdaki gibi olabilir;
User-agent: *
Disallow: /cgi-bin/
Disallow: /resimler/ozel-alan/
Disallow: /ozel-sayfa.html
CssimBenim.com, Hemen Host sunucularında barındırılmaktadır.
Yorumunuzu Gönderin