Archivo robots.txt y su función e importancia para Google

febrero 7, 2020

El archivo robots.txt le indica al buscador de Google que archivos y directorios deseas que sean considerados para ser indexados. Ahora veamos las funciones básicas del archivo robots.txt.

El archivo robots.txt se basa en un protocolo denominado Robots Exclusion Protocol, que es un estándar universal que consta de un pequeño pequeño grupo de comandos que indican a los robots de los buscadores que deben considerar y que debe excluir al llegar a tu sitio.

Comandos más importantes del archivo robots.txt

Aunque existen algunos más, los comandos más usuales en cuanto a archivos robots.txt son los siguientes:

  • Disallow. Se utiliza para denegar el acceso a un directorio o una página concreta.
  • Allow. Sirve permitir que los robots rastreadores de Google y otros buscadores sí accedan a determinados enlaces.
  • User-agent. Hace referencia a qué tipo de robots, también denominados crawlers, deben seguir las indicaciones de los comandos.
  • Sitemap. Este comando indica la ruta exacta en la que se encuentra el mapa del sitio que es una archivo XML.
  • Crawl-delay. Es una indicación sobre el tiempo, expresado en segundos, que debe esperar el robot entre cada página.

Las reglas de sintaxis del contenido robots.txt

Siguiendo el protocolo establecido, los comandos nombrados anteriormente deben seguir las siguientes reglas:

  • Se deben respetar: las mayúsculas y minúsculas, la puntuación y los espacios establecidos.
  • Cada grupo User-agent/Disallow ha de ir separado por una línea en blanco.
  • Existe la posibilidad de incluir comentarios, utilizando para ello la almohadilla o símbolo de hash (#).
  • En principio, únicamente pueden utilizarse los comandos citados anteriormente.
archivo robots.txt y Google sitemap
archivo robots.txt y Google sitemap

Algunas cosas a considerar sobre los archivos robots.txt

  • Es necesario tener acceso a la raíz del dominio para poder crear un archivo robots.txt. Si no la conoces o tienes problemas con esta cuestión, deberás ponerte en contacto con tu proveedor de alojamiento web.
  • Hay que tener en cuenta que las instrucciones de los robots.txt son solamente indicaciones o recomendaciones. Es decir, aunque los rastreadores suelen hacerles caso, no están obligados a cumplirlas. Por otro lado, puede haber algunas discrepancias o interpretaciones distintas de las instrucciones de los comandos entre los diferentes rastreadores de Google.
  • El archivo robots.txt proporciona información pública, por lo que para proteger información de carácter privado es conveniente utilizar otros métodos, como la protección con contraseña de determinados directorios desde el propio servidor.
  • Existe una herramienta de Google, denominada probador de robots.txt, que te servirá para comprobar si estás consiguiendo el efecto que deseas con los comandos que has implementado.

¿Qué puede aportar a mi página el archivo robots.txt?

Aunque, como hemos comentado, no existe una ley que obligue a los rastreadores a seguir las indicaciones de los archivos robots.txt, se sabe que, normalmente, lo primero que hacen las arañas de Google cuando aterrizan en tu página es buscar el archivo robots.txt y tener en cuenta sus indicaciones a la hora de realizar el análisis y la valoración de tu sitio.

Por lo tanto, los robots.txt facilitan el trabajo a los rastreadores, lo que nos puede ayudar a conseguir un mejor posicionamiento SEO. En definitiva, la inclusión de este tipo de comandos debe entenderse como una acción más para conseguir estar lo más arriba posible en las entradas de Google. Y ya se sabe que el éxito del SEO está en ir sumando puntos para, al final, lograr ventaja frente a las páginas de la competencia.

En conclusión, la gran ventaja de estos comandos es que posibilitan restringir el acceso de los robots a tu página de una forma selectiva, teniendo tú el control en cuestiones como:

  • Evitar que determinados enlaces de nuestra página que no nos interesan (aunque sea de forma temporal) sean accesibles para los buscadores.
  • Bloquear también el acceso a archivos sin utilidad para los robots y los usuarios, como pueden ser ciertos códigos de programación.
  • Evitar ser penalizados por Google porque sus robots lleguen a indexar contenido duplicado en tu sitio.
  • Facilitar el acceso al sitemap y, de esta forma, provocar que Google conozca rápidamente la estructura y los contenidos básicos de nuestra web.

Hasta la próxima…

¿Quieres saber si el SEO de tu sitio está al día? Te podemos ayudar.

Lo último

Marketing de contenido: 7 estrategias esenciales

El marketing de contenido, como parte de cualquier estrategia de contenido digital exitosa para 2021, debe ofrecer contenido de alto valor que realmente ayude a tus audiencias. Es por eso que este año, es esencial desarrollar una estrategia de marketing de contenido...

Cómo medir el marketing digital con KPI adecuados

Cada año que inicia, planeas tu estrategia de marketing digital. Sin embargo, muchos esfuerzos se pierden porque no defines como tú en particular debes medir el marketing digital. Toda estrategia de marketing digital inicia con la definición de los KPI relevantes para...

Reputación online: protégela desde tu Email

Tu reputación online es uno de tus activos más preciados. Debido a esto, debes hacer todo lo que esté a tu alcance para protegerla. El problema es que cuanto más poderosa se vuelve tu reputación en línea, más vulnerable es. Más personas con malas intenciones querrán...

Hosting de sitios web: identifica los costos ocultos

Al hablar de hosting de sitios web es importante entender los costo relacionados y a que te enfrentarás una vez que tu sitio web crece en espacio y en tráfico. No importa si estás creando tu primer sitio web o si ya tienes uno o varios: desea ahorrar dinero. Un área...

Carlos Dieter

31 años de experiencia en marketing estratégico, SEO, Inbound, redes sociales y desarrollo web. Apasionado del buceo y de la conservación de la flora y fauna marina.

0 Comments

Blogs relacionados

Ellos confian en nosotros