Robots.txt e a configuração do seu Site

Por Vinicius Paes - 5 set 2008

O robots.txt é um arquivo de configuração presente nos sites e que serve para guiar o comportamentos dos crawlers. Entenda como ele funciona e como você pode configurar o seu.

O Conceito do Robots.txt

Robots.txt: Dizendo aos robôs ( crawlers ) o que eles podem e não podem fazer

O robots.txt é um arquivo de configuração presente na raiz dos sites e que serve para guiar o comportamentos dos crawlers, dizendo para os mecanismos de busca o que eles podem e não podem indexar. O Robots.txt é a primeira coisa que os crawlers consultam quando chegam em um site, quando ele não está presente os bots então pressupõe que os site está usando a configuração padrão do Robots.txt que diz que o site todo está aberto para ser indexado. A principal função do Robots.txt como foi dito acima é dizer o que pode e o que não pode ser indexado dentro do seu site, mas o robots também pode ser usado para outros fins tais como ajudar a evitar conteúdo duplicado ( bloqueando pastas ou páginas do seu site que podem eventualmente gerar URLs duplicadas ) ou então para fins menos “nobres” tais como esconder alguma página black hat que não é para os crawlers não verem, mas como sempre repetimos aqui, nunca vale a pena usar nenhum artificio para black hat SEO para qualquer fim, no caso do uso do robots.txt para esconder o black hat por exemplo, se você bloquear a tal pagina, ela não está imune ao fato de alguém poder fazer um link para ela a partir de outro site e ela ser lida e indexada pelos mecanismos de busca do mesmo jeito.

Escrevendo o Robots.txt

A sintaxe ( modo de escrita ) do Robots.txt é padrão ( todos os crawlers em geral entendem o que você escreve do mesmo jeito ) e é bem simples também. Existem alguns comandos básicos:

  • Disallow: É o comando principal e mais usado no contexto do robots. Ele diz para os crawlers o que eles não deve acessar. Você pode usar o disallow para impedir que uma página individualmente não seja indexada ou então para que uma pasta inteira do seu servidor fique de fora da indexação. Para especificar que uma página individualmente não deve ser indexada basta usar:

    Disallow: /diretorio/subpasta/pagina.html

    Para dizer que uma pasta não deve ser indexada basta usar:

    Disallow: /diretorio/subpasta/

    Uma observação importante é que se você bloquear uma pasta que contenha outras subpastas ( como a pasta diretorio do exemplo acima ) todas as subpastas e arquivos internos vão estar bloqueados também, por isso planeje bem o que vai bloquear para não acabar deixando de fora o que deveria ser indexado.

  • User-agent: Comando usado para dizer para quais crawlers serão validas aquelas regras. Como o comportamento dos crawlers e as políticas das diferentes Search Engines tem pequenas diferenças, as vezes é interessante escrever trechos do robots.txt específicos para cada bot, um para o crawler Google, um para o do Yahoo!, etc… O comando User-agent é escrito da seguinte maneira:

    User-agent: <nome_do_crawler>

    Por exemplo usando o código abaixo:

    User-agent: googlebot

    Disallow: /diretorio/subpasta/

    A pasta ficará bloqueada somente para o Googlebot, sendo indexada normalmente por todos os outros. Nome dos crawlers da principais search engines ( para uso no User-agent ):

    • Google: googlebot
    • Yahoo!: slurp
    • MSN: msnbot
  • Sitemap: Ao contrario dos dois comandos citados acima o sitemap é mais simples e serve para indicar explicitamente para os crawlers a localização do seu sitemap e evitar o risco de eles não acharem. Exemplo desse comando:

    Sitemap: http://www.mundoseo.com.br/blog/sitemap.xml

  • Allow: Funciona exatamente do mesmo modo que o comando Disallow. Usando allow você diz claramente aos robots que determinadas páginas e pastas tem que ser visitadas. É um comando que só é utilizado em ocasiões muito específicas, já que é padrão para os crawlers encarar todas as pastas como permitidas. Um caso em que o Allow é util seria um caso em que o site inteiro está restrito e somente uma página ou pasta pode ser indexada, ai é interessante bloquear todas e depois liberar embaixo com allow o que pode ser encontrado.

Exemplo de um Arquivo Robots.txt Comentado

Abaixo um exemplo de um arquivo Robots.txt completo e a explicação para cada linha:

1. Sitemap: http://www.sitedeexemplo.com.br/sitemap.xml

2. User-agent: *

3. Disallow: /admin/

4. Disallow: /cgi-bin/

5. Disallow: /pictures/

6. Disallow: /tecnology/

7. Allow: /tecnology/computers

8. User-agent: googlebot

9. Disallow: /categories/

10: Disallow: /templates/

Explicação de cada comando:

Linha 1: utilização do comando sitemap para especificar a pasta onde se encontra o sitemap e o nome do arquivo.

Linha 2: este comando indica que as linhas abaixo ( linhas 3 a 7 ) serão lidas e seguidas por todos os crawlers de todas as search engines

Linhas 3 a 6: indicam quais pastas não serão indexadas para todos os crawlers

Linha 7: indica que apesar da pasta tecnology estar impedida de ser indexada, a subpasta computers poderá sim ser lida

Linha 8: indica que a partir dessa linha os comandos só vão valer para o Googlebot

Linhas 9 e 10: pastas que só o Googlebot ficou impedido de visitar

Por enquanto é isso, qualquer dúvida sobre Otimização de Sites é só perguntar deixando seu comentário, abraços !!

Sobre o Autor:
Autor
Mestre em Ciência e Tecnologia da Computação pela Universidade Federal de Itajubá, e fascinado pelo desenvolvimento em diversas tecnologias web. É possível encontrá-lo pelo Twitter, Facebook e Google+.

25 Comentários

  1. Alex Cristian disse:

    Parabéns pelo post.
    Estou começando na blogosfera e é bom ter estas dicas, vou dar uma olhadinha no meu robots.txt agora… xP
    Abraços,
    Al3x Eng

  2. Bethccruz disse:

    Adorei suas dicas, com certeza voltarei sempre aqui.
    Inclusive vou colocar o link do seu blog nos meus favoritos.
    Valeu,
    Abraço

  3. Olá Alex Cristian

    Que bom que você está gostando do nosso trabalho.
    O robots.txt é um elemento importantíssimo e deve estar sempre presente nos sites ou blogs. Mesmo que você não tenha nenhuma pasta ou página para bloquear é interessante usa-lo para indicar a localização do sitemap.
    Exemplo de um sitemap genérico ( sem nada bloqueado e indicando a localização do sitemap ):

    Sitemap: http://seusite.com.br/sitemap.xml
    User-agent: *
    Disallow:

  4. Olá Bethcruz

    Que bom que nossas dicas estão sendo úteis para você 🙂
    Qualquer dúvida sobre robots.txt ou sobre qualquer outro assunto do nosso blog, só deixar seu comentário.

    Abraço !

  5. Eli receitas disse:

    Olá Elisangela, suas dicas são bastante valiosas, dei uma olhada na situação do meu blog na central de ajuda para webmasters e descobri que meu blog tem 44 URLs restritos pelo robots.txt , como eu posso resolver esta situação, qual conselho você pode me passar?
    Abraços e obrigado desde já.

  6. Olá Elisangela…
    Eu cheguei aqui por causa da assustadora msg “URLs restritos pelo robots.txt” que a gente que é leigo encontra no Ferramentas para webmasters
    Ferramentas para Webmasters do Google e acaba sem saber o que fazer…
    Eu entrei pro Ferramentas ontem e hoje já achei isso…ASSUSTA mesmo…rsrs

    Pior que a gente olha, lê lá…lê artigos no google e continua na base do “o que é que eu faço?”

    E pelo jeito tem MUITA gente assim como eu na base do HELP…….rs

    Abraço

    E parabéns por entender disso MUITO complicado pro meu gosto…rs

  7. Benito Pepe disse:

    Olá Elisangela, Notei uma queda imensa no movimento do meu site/blog, fui verificar, e achei esse problema de URL restrito por robots.txt, achei de inicio 72, depois retirei algumas imagens com links que havia disponibilizado como um menu no meu blog, não sei se foi coincidência mas após retirá-las caiu o erro para 63, e hoje resolvi retirar também mais algo e caiu o erro para 55, não sei se foi por acaso, gostaria de saber como posso acabar com esse erro de uma vez, é possível?

    Abraços do Benito Pepe

  8. Edson disse:

    olá amigo, eu tenho uma dúvida, e gostaria que vc me desse uma dica!
    Eu uso o plugin da pagenavi no meu site da wordpress!
    Com isso todos os link da paginavi estava sendo indexado pelo google! ex do link /page/
    Com isso, gerou um monte de paginas duplicadas, fui descobrir o robots.txt um tempo depois, onde bloquiei para não indexar esses links!

    Mas, porém, todavia, ainda tem varias paginas que já tinha cido indexado antes que eu tivesse bloqueado, e isso está causando uma série de erros, com meta descrição duplicada, conteúdo duplicado e outros!

    Gostaria de saber como faço para retirar estes links das pesquisas do google!

    Já tentei remover url pelo webmaster da google, mas lá só apaga links que estão fora do ar!
    Por favor preciso de sua ajuda. obrigado!

    Estarei a espera!

  9. Olá Eli!
    Ter URL’s restritas pelo robots.txt não é sinal de problema em seu site. É necessário verificar, pois muitas URL podem gerar conteúdo duplicado, desta maneira, devem estar mesmo restritas!
    Beijos!

  10. Olá Arte!
    Visitei seu blog e achei muito interessante também! Parabéns!
    Obrigado pelo carinho, espero que o post tenha sido claro na especificação das URL’s restritas pelo robots.txt. Estas que nem sempre são problemáticas, mas que pelo contrário, servem para proteger seu site contra conteúdo duplicado, que seria uma técnica black hat SEO cabível de punição!
    Beijos!

  11. Oi Benito!
    Não é um erro! É um aviso apenas, para que verifique que estas URL deveriam mesmo estar restritas. Os blogs utilizam estrutura com acesso a banco de dados, com links e tags canônicas. Desta forma limitam certas url para evitar conteúdo duplicado!

  12. Olá Edson!
    Existem 2 maneiras! Primeiramente você pode esperar que que haja nova indexação e com o passar do tempo estes links sejam retirados normalmente.
    Ou é possível fazer redirecionamento permanente [301] de tais links para os locais desejados. Desta maneira, ao indexar será ratificado que ambas as URL’s são para mesmo destino. ;P

  13. Muito bom o post, muito bem exlpicado gostei muito, porem tem uma informação que eu gostaria muito de falar que é o caso de segurança, onde o Robot.txt é uma vazão de informação onde um atacante pode muito bem conseguir através da url do txt descobrir o caminho para a página default da administração do próprio site….

    quando você bota no txt “Disallow: /admin/” é uma informação que o atacante vai ficar muito feliz em saber 😛

    Grande Abraço muito booom seu blog !

  14. Uma dúvida, como faço para usuários mal intencionados não localizem/open o arquivo ROBOTS.TXT ?
    fiz um teste no google e ele mostra todos..

    robots filetype:txt

  15. Amigo então eu nao preciso ficar preocupado com URL restrito por robots.txt?
    Porque esto com um problemão com isso tambem..
    HTTP 0
    Inacessível 0
    Nos Sitemaps 0
    Não encontrado 17
    Não seguidos 0
    Restringido por robots.txt 41
    Tempo limite 0

    Araços.

  16. Boa tarde tudo bom?

    Inicialmente quero parabenizar pelo site e obrigado pelas dicas!
    Gostaria se pudesse me ajudasse não consigo enviar meu sitemap no google webmaster, o erro é a url está restrita por robots.

    Grato!

  17. Eu posso pegar o robots.txt de um outro site bem indexado e apenas fazer algumas pequenas mudanças pro meu?
    porq muitas paginas estão sendo restringias pelo googlebot e eu nao sei mais oque fazer…
    mim ajuda..
    meu s

  18. Junior-MaGgoT- disse:

    Eu posso pegar o robots.txt de um outro site bem indexado e apenas fazer algumas pequenas mudanças pro meu?
    porq muitas paginas estão sendo restringias pelo googlebot e eu nao sei mais oque fazer…
    mim ajuda..

    se alguem tiver uma dica de como eu tenho que fazermeu robots eu agradeço muito…

  19. Celso disse:

    Olá,
    Meu site começou a gerar erros de HTML detectados pelo ferramentas para webmasters e está aumentando a cada atualização.
    O que está acontecendo é a geração do conteúdo duplicado de uma mesma página, ex:
    2008/09/bee-gees-–-forever.html
    2008/09/bee-gees-forever.html
    está página é a mesma mas ele detecta como conteúdo duplicado conforme o exemplo, ele interpreta uma com o – e outra vez sem o -.
    Gostaria de saber como posso bloquear essa duplicação de páginas por causa do – que tem nos títulos das páginas através do robots.txt.
    Poderia me ajudar?
    Obrigado.

  20. David disse:

    Valeu, ja tinha esquecido como configura-lo!

    Ate mais

  21. leo bazilho disse:

    Nossa estou completamente perdido……….

  22. Rodrigo disse:

    Estou com um problema, criei um blog a mais ou menos 2 meses e não consigo encontra-lo nas pesquisas do google. Já fiz toda aquela parte de enviar a url, verificar prioridade e enviar sitemap para o google e até agora nada, se puder ajudar agradeço.

  23. Danilo Soares disse:

    Como eu faço para saber exatamente quais paginas nao estao indexadas ?.. só consigo saber do numero.

  24. joilson disse:

    Ola,queria saber como eu posso impedir que os buscadores não visitar minha paginas. Estou com problema no meu dns aonde eu encontro o erro vindo desta pagina. ( ex:onde fica o link do menu proxima 123). Se puder me ajudar ficaria grato

  25. joilson disse:

    Olá, queria uma dica como faço para bloquear as pagina do menu porque eu botei : Disallow:contato so que não bloque-ou eu queria uma dica. Será que pode me ajudar.

Deixe o seu comentário!

Cancelar Resposta