O arquivo robots.txt é utilizado para declarar aos mecanismos de busca o que eles não devem indexar em um site. Esta é uma técnica antiga, mas que ainda é muito útil e eficaz. No arquivo robots.txt você pode escolher os diretórios e os arquivos que você deseja excluir das ferramentas de busca. O uso mais comum é evitar a indexação de páginas logadas ou que possuam arquivos com conteúdo privado. Ele também é bastante flexível permitindo que várias regras sejam aplicadas no mesmo arquivo garantindo comportamento distinto entre os robôs dos mecanismos de busca.

A primeira coisa que você deve saber é que o arquivo robots.txt não é usado para indicar o que os mecanismos de buscas devem indexar, mas sim o que não devem indexar. Você vai precisar usar robots.txt, por exemplo, em uma intranet que funcione na web e que pode conter informações que dizem respeito exclusivamente a uma empresa. Áreas restritas, documentos pessoais que são armazenados no seu servidor em uma determinada pasta e que só estão lá por backup ou para compartilhar informações entre um pequeno grupo etc, são contextos possíveis em que os mecanismos de buscas não devem indexar o conteúdo.

Se você deseja que o Google ou qualquer outro mecanismo de busca indexe todo o seu conteúdo, você não precisa usar robots.txt. Mesmo que isso pareça óbvio, muitas pessoas se enganam sobre a utilização deste recurso.

Como utilizá-lo?
Deve-se tomar alguns cuidados ao criar um arquivo de robots.txt como:

  1. Robots.txt é apenas um arquivo de texto que pode ser criado no notepad ou qualquer outro editor de texto ASCII.
  2. Salve com a extensão .txt.

Lembre-se que não pode ser um HTML, tem que ser um TXT.

Este arquivo deve ficar na raiz do seu site pois é o primeiro arquivo que os bots de busca procuram em um site. O nome do arquivo deve ser todo em letras minúsculas (lowercase) e nunca com letras maiúsculas. Ou seja, para qualquer site que queira implementar ele deverá se chamar robots.txt
Basicamente existem duas regras a serem declaradas neste arquivo:

  1. User-Agent.
  2. Disallow.

A regra User-Agent é usada para declarar um user agent específico. Um user-agent neste contexto é um mecanismo de busca como por exemplo o Googlebot:

User-Agent: Googlebot

Se quiser que todos os user agents (e não somente o robô do Google) indexe o conteúdo, use asterisco como valor de User-Agent. Dessa forma você informa que todos os mecanismos de busca não devem indexar:

User-Agent: *

A regra Disallow é usada para indicar quais os locais onde os mecanismos de busca não devem “entrar”.

Para bloquear um site inteiro use uma barra como no exemplo abaixo:

Disallow: /

Para bloquear um diretório específico, use o nome do diretório entre barras como no exemplo:

Disallow: /private_directory/

Para bloquear uma página específica, use uma barra e o nome do arquivo.

Disallow: /private_file.html

Você pode usar quantas regras Disallow você quiser. Basta apenas iniciar outra linha. Lembre-se que urls são case sensitive. Se você tem um arquivo de HTML chamado Teste.html e no valor de Disallow coloca “teste.html”, o mecanismo de busca não vai considerar ambos como sendo o mesmo arquivo.

Em alguns casos, você pode querer declarar para os mecanismos de busca que não sigam determinada página na própria página utilizando a meta tag nofollow da seguinte maneira:

<meta name=”robots” content=”nofollow”>

Com robots.txt você tem controle do que não deve ser indexado em uma escala maior do que a meta tag nofollow. De qualquer maneira ambas as soluções tem exatamente o mesmo objetivo: impedir com que mecanismos de busca indexem o conteúdo referenciado.

Exemplos de uso do robos.txt
Este é um exemplo de arquivo que impediria a indexação do site inteiro por todas as ferramentas de busca:

User-agent: *
Disallow: /

O asterisco significa tudo, ou seja, todos os bots de busca devem seguir as regras abaixo.

Um exemplo prático seria evitar a indexação de pastas do seu site que tem programas ou partes privadas. O exemplo abaixo evitaria a indexação de quatro diretórios.

User-agent: *
Disallow: /cgi-bin/ #scripts e programas
Disallow: /logado/
Disallow: /tmp/ #parte de testes
Disallow: /private/ #arquivos da empresa

O sinal de tralha serve para comentários como informar o motivo da exclusão. O comentário não influencia em nada o bot, porém serve para facilitar o entendimento do motivo da exclusão para a equipe que administra o site.

Se um site não tiver este arquivo, a ferramenta de busca irá indexar normalmente o seu site. Se preferir, você pode criar o arquivo robots.txt que permite a indexação total:

User-agent: *
Disallow: