Este es el primero de dos post donde pretendo explicar más o menos en que consiste cada uno de estos ficheros, que estoy seguro que será de gran ayuda para los que empiezan a dar sus primeros pinitos en esto del SEO (Search Engine Optimization).
robots.txt
El fichero robots.txt, también conocido como el protocolo de la exclusión de robots, no es más que un archivo que contiene una serie de reglas que restringen el acceso a los robots de los motores de búsqueda que rastrean la Web. Como está claro, estos robots funcionan de manera automatizada y antes de empezar a recopilar información sobre determinada web hacen una verificación sobre la existencia de este fichero. Este archivo sólo es necesario si el sitio incluye contenido que no desea que los motores de búsqueda indexen. Mostraré un par de ejemplos:
Este código lo que está haciendo, es permitiendo el acceso a todos (el comodin * indica todos) los robots que se encuentran en el directorio raíz:
User-agent: *
Disallow:
Este otro hace todo lo contrario:
User-agent: *
Disallow: /
Este otro código, le indicado a los robots que estas secciones del sitio no deben ser indexadas, me bloquea el acceso:
User-agent: *
Disallow: /login/
Disallow: /cgi-bin/
Disallow: /images/
Pasando a un caso específico, mostraré un fichero exclusivo para los que usamos wordpress:
*Impedimos la indexacion de estas secciones de nuestro sitio y las busquedas
User-Agent: *
Allow: /wp-
Disallow: /wp-admin/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/
Disallow: /wp-admin/
Disallow: /?s=
Disallow: /search
*Permitimos la indexación de nuestro sitemap para el bot de google
User-agent: Googlebot/2.1
Sitemap: http://nuestrositio.com/sitemap.xml
Disallow:
Esta es una pequeña muestra de lo que podemos hacer con el fichero robots.txt, muchas otras opciones las encontramos en SIGT.net.
Para los que no están muy seguros de como hacer este archivo, les recomiendo visitar robots.txt builder, donde podrán crear facilmente este archivo, y si desean verificar que el fichero funciona de la manera deseada pueden hacer uso de una herramienta para webmaster de google.
Les deja?e un plus con algunas preguntas contestadas por la gente de google.
- ¿Dónde puedo colocar el archivo robots.txt?
- ¿Qué debo hacer para crear un archivo robots.txt?
- ¿Qué procedimiento debo seguir para bloquear o permitir el acceso de Googlebot?
- ¿Cómo se utilizan las metaetiquetas de los robot?
- ¿Cómo se bloquea totalmente el acceso a mi sitio?
- ¿Cómo se bloquea un directorio o una página en mi sitio?
Leer Más: The Web Robots Pages

