Robots.txt Nedir?
Kısaca, web site sahipleri robots.txt kullanarak arama motorlarına kendi siteleri hakkında bilgilendirme verirler. Bu; The Robots Exclusion Protocol olarak adlandırılır.

Nasıl Çalışır?
Örnek olarak www.cssimbenim.com‘ u ele alalım. Bir arama robotu bu siteye girmek isterse ilk önce www.cssimbenim/robots.txt‘ e gider ve bu site hakkında bilgi alır, ne yapıp ne yapmayacağını anlar, daha sonra ana siteye giriş yapar.

Örnek bir robots.txt adresi şu şekilde olmalıdır;

www.cssimbenim/robots.txt
veya
www.xxx.com/robots.txt gibi.

Robots.txt dosyası sadece belirli bir şekilde düzenlenmiş metin içeriğine sahip olmalıdır ve asla HTML kodları içermemelidir. Aşağıdaki örnekleri inceleyelim;
Sitenizin tamamını indexletmek için;
User-agent: *
Disallow:

Not: Boş bir robots.txt dosyası da aynı mesajı verecektir.

Tüm robotların sitenizi indexlenmesini engellemek için;User-agent: *
Disallow: /

Sadece Google’ ın sitenizi indexlememesi için;User-agent:Googlebot
Disallow: /

Bir klasör(dizin) içeriğini tüm robotların indexlemesini engellemek için;
User-agent: *
Disallow: /dizin-adi/

Bir sayfanın tüm robotlar tarafından indexlenmesini engellemek için;
User-agent: *
Disallow: /dizin-adi/indexlenmeyecek-sayfa.html

Robots.txt dosyasında “œ/dizin-adi/*” veya “œ/dizin-adi/*.html” gibi ifadeler kullanamazsınız. Hariç tutulmasını istediğiniz sayfaları ve dizinleri teker teker belirtmek zorundasınız. Bir dizini engellerseniz içindeki sayfalarında indexlenmemesi için ayrı ayrı robots.txt’ e eklemeye gerek yoktur.

Örnek bir robots.txt dosyası aşağıdaki gibi olabilir;

User-agent: *
Disallow: /cgi-bin/
Disallow: /resimler/ozel-alan/
Disallow: /ozel-sayfa.html

1 Yıldız2 Yıldız3 Yıldız4 Yıldız5 Yıldız (Daha önce hiç oy verilmemiş)
Loading ... Loading ...