Fisierul robots.txt informeaza robotii motoarelor de cautare ce pot accesa si ce nu in cadrul unui website. Acest fisier trebuie incarcat in radacina website-ului. Este un fisier text, simplu care foloseste doi parametrii principali:
- User-agent - parametru de selectie a robotilor
- Disallow – parametru de selectie a paginlor care sa fie scanate sau nu de catre robotii motoarelor de cautare
Exemple de comenzi pentru fisierle robots.txt
Pentru a permite tuturor robotilor acces complet utilizati: 
User-agent: *
Disallow:
Este recomandat si indicativul de sitemap pentru a spune robotilor exact locatia acestuia:
Sitemap: http://www.siteulmeu.ro/sitemap.xml
Pentru a exclude toti robotii de pe tot website-ul dumneavoastra utilizati:
User-agent: *
Disallow: /
Pentru a exclude robotii doar din anumite directoare ale website-ului utilizati:
User-agent: *
Disallow: /cgi-bin/
Disallow: /admin/
Disallow: /private/
Pentru a exclude o singura pagina din website utilizati:
User-agent: *
Disallow: /directory/file.html
Pentru a exclude un singur robot utilizati:
User-agent: BaiduBot
Disallow: /
Pentru a permite unui singur robot accesul pe website utilizati:
User-agent: Yahoo
Disallow:
User-agent: *
Disallow: /
Pentru a exclude toate fisierle mai putin una utilizati:
User-agent: *
Disallow: /~joe/stuff/
Exemplu de utilizare a comentariilor in cadrul unui fisier robots.txt:
# Comentariile apar dupa semnul “#” simbol ce poate aparea la inceputul unei linii sau la sfarsitul unei comenzi
User-agent: * # directiva pentru toti robotii
Disallow: / # nu au ce cauta pe site-ul meu in nici un director
Robotii motoarelor de cautare importante accepta directive de accesare a website-ului
User-agent: *
Crawl-delay: 7 # Acesta este timpul de asteptare intre doua accesari succesive pe website-ul dumneavoastra (utilizat de regula pentru a nu supraincarca serverul)
O varianta extinsa a utilizarii fisierului robots.txt ar fi urmatoarea:
User-agent: *
Disallow:
Sitemap: http://www.siteulmeu.ro/sitemap.xml
Request-rate: 1/4 #numarul de accesari este de o pagina la 4 secunde
Visit-time: 0300-0630 #este acceptata scanarea website-ului doar intre orele 3.00 si 6.30 UTC (GMT)
Exemple cu robotii motoarelor de cautare cele mai populare:
Google – googlebot
Google Image – googlebot-image
Google Mobile – googlebot-mobile
MSN Search – msnbot
MSN PicSearch – psbot
Yahoo – yahoo-slurp
Yahoo MM – yahoo-mmcrawler
Yahoo Blogs – yahoo-blogs/v3.9
Ask/Teoma – teoma
Cuil – twiceler
GigaBlast – gigabot
Scrub The Web – scrubby
DMOZ Checker – robozilla
Nutch – nutch
Alexa/Wayback – ia_archiver
Baidu – baiduspider
Naver – naverbot, yeti
SingingFish – asterias
Inginerul Matt Cutts de la Google ne explica in filmuletul urmator cateva functionalitati ale robotului googlebot si anumite erori care pot aparea la indexarea paginilor.


Super articol, insa care e varianta cea mai buna de folosit?
Depinde de ce platforma folosesti Iulian. Pentru WordPress eu am facut urmatoarea varianta:
"
User-Agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /tag/
Disallow: /*?*
Disallow: */trackback/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
# Nu indexa fisierele cu terminatia urmaotare
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
# Sitemap xml
Sitemap: http://www.siteultau.ro/sitemap.xml
# disable duggmirror
User-agent: duggmirror
Disallow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
User-agent: ia_archiver-web.archive.org
Disallow: /
"
Multumesc frumos pentru pont.
Mda. Va multumesc pentru raspuns insa nu prea ajuta. Spun asta pentru ca blogul meu este gazduit de blogspot si probabil sunt multi robotei de care eu nu am habar. am citit si pe alte forumuri. Cica unica solutie ar fi sa imi hostez blogul.
Dar ar mai fi o solutie simpla pe care eu nu stiu exact.
Nu stiu dar am mai citit ca ar mai putea fi si din cauza etichetelor (labels). Nu stiu cum sa le administrez.
Poate din cauza ca am pus aceleasi etichete la toate postarile? Ar putea fi din aceasta cauza?
Pentru fiecare postare trebuie alte etichete?
Poate pentru dumneavoastra sunt intrebari banale. Dar pentru mine ar insemna foarte mult niste raspunsuri exacte. Va multumesc
Nu au absolut nici o legatura etichetele cu fisierul robots.txt. Din pacate nu am cunostinte daca se poate accesa un fisier robots.txt pe Blogspot. Cea mai sigura cale ar fi hostarea individuala nu ca subdomentiu la Blogspot.
Buna ziua, am si eu o adresa URL blocata. Cauza blocarii am gasito in raportul adsense Fişier robots.txt zice ca este cauza blocarii. Nu prea sunt cunoscator al limbajului html. Nu am gasti nicaieri explicat unde anume trebuie sa pun
User-agent: Mediapartners-Google*
Disallow:
pentru a putea permite numai robotelului google
Deci daca dau edit html la blog unde ar trebui puse aceste randuri. Inainte de , dupa sau unde?
In instructiuni scrie asa doar.
,, Nu trebuie decât să adăugaţi următoarele două rânduri de text la începutul fişierului dvs. robots.txt:”
Fiind incepator nu pot intui unde anume trebuie puse aceste randuri.
Multumesc anticipat
,, Nu trebuie decât să adăugaţi următoarele două rânduri de text la începutul fişierului dvs. robots.txt:” – Cum spune si in mesaj in fisierul robots.txt . Acest fisier text se gaseste pe server in radacina website-ului tau (root). Ai nevoie de un acces ftp pentru a ajunge in aceasta zona.