Robots.txt - comenzi si informatii utile

Fisierul robots.txt informeaza robotii motoarelor de cautare ce pot accesa si ce nu in cadrul unui website. Acest fisier trebuie incarcat in radacina website-ului. Este un fisier text, simplu care foloseste doi parametrii principali:

User-agent – parametru de selectie a robotilor
Disallow – parametru de selectie a paginlor care sa fie scanate sau nu de catre robotii motoarelor de cautare

Exemple de comenzi pentru fisierle robots.txt

Pentru a permite tuturor robotilor acces complet utilizati: robots-txt
User-agent: *
Disallow:

Este recomandat si indicativul de sitemap pentru a spune robotilor exact locatia acestuia:

Sitemap: h t t p : / / w w w. siteulmeu .ro / sitemap . xml

Pentru a exclude toti robotii de pe tot website-ul dumneavoastra utilizati:
User-agent: *
Disallow: /
Pentru a exclude robotii doar din anumite directoare ale website-ului utilizati:
User-agent: *
Disallow: /cgi-bin/
Disallow: /admin/
Disallow: /private/

Pentru a exclude o singura pagina din website utilizati:
User-agent: *
Disallow: /directory/file.html
Pentru a exclude un singur robot utilizati:

User-agent: BaiduBot
Disallow: /

Pentru a permite unui singur robot accesul pe website utilizati:
User-agent: Yahoo
Disallow:

User-agent: *
Disallow: /
Pentru a exclude toate fisierle mai putin una utilizati:
User-agent: *
Disallow: /~joe/stuff/
Exemplu de utilizare a comentariilor in cadrul unui fisier robots.txt:

# Comentariile apar dupa semnul „#” simbol ce poate aparea la inceputul unei linii sau la sfarsitul unei comenzi

User-agent: * # directiva pentru toti robotii

Disallow: / # nu au ce cauta pe site-ul meu in nici un director

Robotii motoarelor de cautare importante accepta directive de accesare a website-ului
User-agent: *
Crawl-delay: 7 # Acesta este timpul de asteptare intre doua accesari succesive pe website-ul dumneavoastra (utilizat de regula pentru a nu supraincarca serverul)

O varianta extinsa a utilizarii fisierului robots.txt ar fi urmatoarea:
User-agent: *
Disallow:
Sitemap: h t t p : / /w w w. siteulmeu . ro / sitemap . xml
Request-rate: 1/4 #numarul de accesari este de o pagina la 4 secunde
Visit-time: 0300-0630 #este acceptata scanarea website-ului doar intre orele 3.00 si 6.30 UTC (GMT)

Exemple cu robotii motoarelor de cautare cele mai populare:

Google – googlebot
Google Image – googlebot-image
Google Mobile – googlebot-mobile
MSN Search – msnbot
MSN PicSearch – psbot
Yahoo – yahoo-slurp
Yahoo MM – yahoo-mmcrawler
Yahoo Blogs – yahoo-blogs/v3.9
Ask/Teoma – teoma
Cuil – twiceler
GigaBlast – gigabot
Scrub The Web – scrubby
DMOZ Checker – robozilla
Nutch – nutch
Alexa/Wayback – ia_archiver
Baidu – baiduspider
Naver – naverbot, yeti
SingingFish – asterias
Inginerul Matt Cutts de la Google ne explica in filmuletul urmator cateva functionalitati ale robotului googlebot si anumite erori care pot aparea la indexarea paginilor.

26 de comentarii la „Robots.txt – comenzi si informatii utile”

Dănuța
6 februarie 2024 la 18:43
Foarte util articolul! Mulțumesc pentru informații! Am reușit să setez corect robots.txt.
Răspunde
v24
23 iunie 2023 la 17:34
Buna am creat si eu un robots.txt pe siteul „v24.ro” ,nu ma prea pricep si as dorii un pic de sprijin,ce trebuie sa pun in acel fisier ca sa aibe acces toti robotii si toti crewlerii.
„https://v24.ro/robots.txt”
Multumesc
Răspunde
- gotic
  26 iunie 2023 la 8:17
  User-agent: *
  Disallow:
  Răspunde
Dana
29 iunie 2016 la 13:36
Buna ziua,
interesant si util articolul, acum l-am descoperit. Am o intrebare scurta pentru nepriceputi, ca sa permiti tuturor robotilor (google, yahoo, msn, etc) acces la intreg website fara exceptie, atat continut cat si imagini, este nevoie sa precizezi fiecare motor de cautare in parte sau este suficient sa pui in fisierul robots.txt doar atat?
User-agent: *
Disallow:
http://www.site.ro/sitemap.xml
Ma refer la un site blogger. Multumesc!
Răspunde
- Dulan Gabi
  29 iunie 2016 la 13:44
  Setarile propuse sunt corecte.
  Poti sa faci si un fisier robots.txt gol si rezultatul este acelasi.
  Ar mai merge si:
  User-agent: *
  Allow: /
  Răspunde
Electro & IT
7 martie 2015 la 11:03
Salut.
In primul rand vreau sa-ti multumesc pentru efortul depus in a explica pas cu pas rolul acestui fisier care deseori este ignorat de o buna parte a bloggerilor. Adevarul este ca sunt destul de greu de inteles toate aceste roluri, dar cu ajutorul unor articole scrise de persoane ca tine, valul necunoasterii se ridica incet – incet.
PS: Am aplicat recomandarile regasite in acest articol.
Răspunde
ionut
1 noiembrie 2013 la 23:51
Am si eu site-ul izamar ro de cca 1 luna si am facut cateva modificari in el pentru optimizare. aveam oroare pe server ca nu gaseste robots.txt… am citit pe acest site de acesta si l-am facut. existenta acestui fisier text ajuta la indexare, pozitie google etc?>
Răspunde
- Gabi Dulan
  2 noiembrie 2013 la 13:52
  Fisierul robots.txt gestioneaza robotii (crawler-ii web). Este facut gresit la tine. Sterge linia Disallow: si in locul ei adauga Allow: /
  Acest fisier nu te ajuta sa ajungi mai sus pe Google.
  Răspunde
Budau Daniel
23 octombrie 2013 la 2:23
Buna ziua,
Avei un articol super si am gasit lucruri interesante, dar am o problema de care ma lovesc de ceva timp.
De curand mi-am schimbat site-ul si acuma am erori ca pginile nu mai pot fi gasite deoarece am creat alte pagni cu alte denumiri. Primesc erori de crawler-e ca nu pot accesa paginile ca sunt link-uri ineistente. Cum pot face sa nu-mi mai apara erorile?
Va multumesc
Răspunde
- Gabi Dulan
  23 octombrie 2013 la 8:13
  Adauga un Redirect 301 pentru toate linkurile vechi cu trimitere catre cele noi, in fisierul .httacces din radacina site-ului. De exemplu „Redirect 301 /linkvechi.html /link-nou/”. Erorile nu vor disparea imediat. Deasemeni, trebuie sa mai verifici in Webmaster Tools ce linkuri fac trimitere catre paginile vechi si sa incerci sa schimbi acele linkuri.
  Răspunde
  - Budau Daniel
    24 octombrie 2013 la 2:05
    Va multumesc mult de raspuns
    Răspunde
ion
3 aprilie 2013 la 14:45
Buna ziua
Am o problema cu siteul meu,googleboot zice ca nu poate intra la robots.txt, ce pot face?
Multumesc
Răspunde
Dana
15 februarie 2013 la 13:40
Foarte interesant articolul. Imi puteti spune ce pot face in cazul in care caut pe google blogul meu si imi apare, dar cu descrierea: Lipsa unei descrieri privind acest rezultat este cauzată de fişierul robots.txt al acestui site. Aflaţi mai multe. ? Multumesc
Răspunde
- Gabi Dulan
  15 februarie 2013 la 14:00
  Trebuie sa setezi o descriere pentru prima pagina a site-ului. Din pacate, faptul ca folosesti un sitem de multibloging, nu stiu exact cum este configurat ca sa te pot indruma. Incearca sa ii intrebi pe cei care ofera serviciul respectiv cum poti seta o descriere pentru prima pagina.
  Răspunde
Cosmin
4 iulie 2012 la 12:30
Bun ziua, am si eu o problema care este in felul urmator:in webmaster tools imi arata k am 4.495 Adrese url blocate,astazi am modificat robots.txt si l-am lasat asa:intrebarea mea este…in cat timp google v-a procesa aceasta modificare a mea?
User-agent: Googlebot
Disallow: /*/trackback
Disallow: /*?*
Disallow: /*?
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /trackback
Răspunde
- Gabi Dulan
  4 iulie 2012 la 13:36
  Depinde de mai multi factori. Vezi ca ai un grafic cu accesarile Google tot in webmaster tools. Pot fi 1-2 zile dar si cateva saptamani. Incearca sa mai pui odata sitemap-ul (in Webmaster Tools).
  Răspunde
  - Cosmin
    4 iulie 2012 la 14:39
    am retrimis sitemap-ul, iar in webmaster tools la Adrese URL blocate imi arata daca testez urmatoarele lucruri:
    Fişier robots.txt Adrese URL blocate Ultima descărcare Stare
    http://deseneanimateonline.org/robots.txt 4.495 02.07.2012 200 (Succes) astept sa vad schimbari pentru k numai 900 de pagini am indexate din 4500….
    Răspunde
Stefan
26 martie 2012 la 12:35
Pentru blogspot ai posibilitatea sa-iti editezi fisierul robots.txt din Google Webmaster Tools. Iti faci cont pe acesta din urma cu adresa de email cu care ai creat si blogul iar astfel vei putea edita acest fisier.
Răspunde
Cristi
10 februarie 2012 la 14:19
Buna ziua, pentru inceput vreau sa va multumesc pentru articol, foarte util.
Dar cum nu am prea multe cunostinte despre wordpress, etc. ma cam incurc in stinta si vreau sa va intreb si rog sa ma ajutati.
De exeplu am inteles ca sunt pluginuri gen WordPress SEO Yoast la care pot seta sa nu indexeze tag-urile si categoriile.
Acuma daca voi folosii un astfel de fisier robots.txt probabil nu va mai fi nevoie sa includ in el Disallow: tag sau category nu ?
Mi frica sa nu am problema cu continutul duplicat, de aceea asi vrea sa adaug la blog si un astfel de fisier, in care sa opresc indexarea pozelor, arhivei, si chiar nu mai stiu ce ar fi necesar si important sa trec in acesta si cum ar trebui exact sa arate.
Va multumesc si va doresc o zi cat mai buna.
Răspunde
Iulian
29 noiembrie 2011 la 1:58
Super articol, insa care e varianta cea mai buna de folosit?
Răspunde
- Gabi Dulan
  29 noiembrie 2011 la 11:52
  Depinde de ce platforma folosesti Iulian. Pentru WordPress eu am facut urmatoarea varianta:
  "
  User-Agent: *
  Disallow: /cgi-bin/
  Disallow: /wp-admin/
  Disallow: /wp-includes/
  Disallow: /tag/
  Disallow: /*?*
  Disallow: */trackback/
  Disallow: /wp-content/plugins/
  Disallow: /wp-content/cache/
  # Nu indexa fisierele cu terminatia urmaotare
  Disallow: /*.php$
  Disallow: /*.js$
  Disallow: /*.inc$
  Disallow: /*.css$
  # Sitemap xml
  Sitemap: h t t p : / /w w w. siteultau . ro / sitemap . xml
  # disable duggmirror
  User-agent: duggmirror
  Disallow: /
  User-agent: Mediapartners-Google
  Allow: /
  User-agent: Adsbot-Google
  Allow: /
  User-agent: Googlebot-Image
  Allow: /
  User-agent: Googlebot-Mobile
  Allow: /
  User-agent: ia_archiver-web.archive.org
  Disallow: /
  "
  Răspunde
  - Iulian
    29 noiembrie 2011 la 13:06
    Multumesc frumos pentru pont.
    Răspunde
Emilian
19 august 2011 la 15:46
Mda. Va multumesc pentru raspuns insa nu prea ajuta. Spun asta pentru ca blogul meu este gazduit de blogspot si probabil sunt multi robotei de care eu nu am habar. am citit si pe alte forumuri. Cica unica solutie ar fi sa imi hostez blogul.
Dar ar mai fi o solutie simpla pe care eu nu stiu exact.
Nu stiu dar am mai citit ca ar mai putea fi si din cauza etichetelor (labels). Nu stiu cum sa le administrez.
Poate din cauza ca am pus aceleasi etichete la toate postarile? Ar putea fi din aceasta cauza?
Pentru fiecare postare trebuie alte etichete?
Poate pentru dumneavoastra sunt intrebari banale. Dar pentru mine ar insemna foarte mult niste raspunsuri exacte. Va multumesc
Răspunde
- Gabi Dulan
  19 august 2011 la 15:48
  Nu au absolut nici o legatura etichetele cu fisierul robots.txt. Din pacate nu am cunostinte daca se poate accesa un fisier robots.txt pe Blogspot. Cea mai sigura cale ar fi hostarea individuala nu ca subdomentiu la Blogspot.
  Răspunde
Emilian
18 august 2011 la 20:12
Buna ziua, am si eu o adresa URL blocata. Cauza blocarii am gasito in raportul adsense Fişier robots.txt zice ca este cauza blocarii. Nu prea sunt cunoscator al limbajului html. Nu am gasti nicaieri explicat unde anume trebuie sa pun
User-agent: Mediapartners-Google*
Disallow:
pentru a putea permite numai robotelului google
Deci daca dau edit html la blog unde ar trebui puse aceste randuri. Inainte de , dupa sau unde?
In instructiuni scrie asa doar.
,, Nu trebuie decât să adăugaţi următoarele două rânduri de text la începutul fişierului dvs. robots.txt:”
Fiind incepator nu pot intui unde anume trebuie puse aceste randuri.
Multumesc anticipat
Răspunde
- Gabi Dulan
  19 august 2011 la 9:05
  ,, Nu trebuie decât să adăugaţi următoarele două rânduri de text la începutul fişierului dvs. robots.txt:” – Cum spune si in mesaj in fisierul robots.txt . Acest fisier text se gaseste pe server in radacina website-ului tau (root). Ai nevoie de un acces ftp pentru a ajunge in aceasta zona.
  Răspunde