¿Qué es Disallow en robots.txt y para qué sirve?

Disallow es una directiva del archivo robots.txt que impide que los motores de búsqueda rastreen ciertas páginas de un sitio web. No elimina las páginas del índice, solo bloquea el rastreo.

¿Puedo combinar Disallow con Noindex?

Sí, pero con cuidado. Si bloqueas una página en robots.txt con Disallow, Google no podrá acceder a ella para leer la etiqueta Noindex, lo que podría dejarla en el índice.

¿Dónde se coloca Disallow en robots.txt?

Se coloca dentro del archivo robots.txt, ubicado en la raíz del sitio web. Se usa junto con “User-agent” para indicar a qué motores de búsqueda se aplica la regla.

¿Disallow bloquea a todos los buscadores?

Si usas User-agent: *, la regla de Disallow aplicará a todos los buscadores. Si quieres bloquear solo a Google, usa User-agent: Googlebot.

¿Disallow afecta al tráfico orgánico de mi web?

Depende. Si bloqueas contenido valioso con Disallow, los buscadores no podrán rastrearlo y podrías perder tráfico orgánico. Usa esta directiva con precaución.

¿Disallow impide que las imágenes se indexen en Google?

Sí, puedes evitar que Google indexe imágenes específicas o una carpeta entera con imágenes bloqueándolas en robots.txt.

¿Cuál es la diferencia entre Disallow y Noindex?

Disallow impide el rastreo, pero la página puede seguir indexada. Noindex le dice a Google que no debe incluir la página en los resultados de búsqueda.

¿Disallow es útil para el SEO?

Sí, si se usa correctamente. Permite optimizar el rastreo de Google, evitando que gaste recursos en páginas irrelevantes, lo que mejora la eficiencia del sitio.

¿Google ignora Disallow en algunos casos?

Sí, si hay enlaces hacia una página bloqueada con Disallow, Google podría seguir indexándola sin rastrear su contenido.

Qué es disallow y cómo se usa: configuración y ejemplos

Si te preocupa el posicionamiento de tu web y cómo Google rastrea tu contenido, seguro que has oído hablar de Disallow en robots.txt. Pero ¿sabes realmente cómo funciona y cuándo deberías usarlo?

En el mundo del posicionamiento SEO, no todo el contenido de una web debería aparecer en los resultados de búsqueda. Algunas páginas pueden ser irrelevantes, duplicadas o simplemente no aportan valor a los usuarios. Aquí es donde entra en juego la configuración de robots.txt, una herramienta clave para bloquear páginas en Google y mejorar la estrategia de indexación.

Vamos a ver cómo usar Disallow en SEO de forma efectiva, cuáles son las reglas de robots.txt y cuándo conviene más utilizar Noindex en lugar de Disallow.

Cómo usar Disallow en SEO correctamente

Para aplicar Disallow en SEO de manera efectiva, es fundamental entender bien cómo funciona y en qué casos conviene utilizarlo. No se trata solo de bloquear páginas en Google sin más, sino de hacerlo estratégicamente para evitar problemas de rastreo e indexación.

Si los usas sin un plan claro, podrías acabar impidiendo que Google acceda a contenido importante o, por el contrario, no lograr que ciertas páginas desaparezcan de los resultados de búsqueda. Por eso, vamos a ver paso a paso cómo configurarlo correctamente.

Identifica qué páginas debes bloquear

Antes de tocar el archivo robots.txt, lo primero es definir qué páginas realmente no deberían ser rastreadas. No se trata de bloquear por bloquear, sino de optimizar la forma en que los motores de búsqueda acceden a tu web. Aquí te dejamos algunos casos donde es útil:

Secciones privadas. Como paneles de administración o cuentas de usuario.
Páginas de carrito de compra. Procesos de pago que no aportan valor en SEO.
Contenido duplicado. No queremos que compita con otras páginas en los resultados.
Archivos o recursos internos. Como PDFs o scripts, que no deben indexarse.

Si no estás seguro de qué páginas excluir, puedes revisar los informes de rastreo en Google Search Console o analizar el tráfico de cada URL con herramientas como Google Analytics.

Edita y configura el archivo robots.txt

Una vez tengas claro qué páginas bloquear, el siguiente paso es modificar el archivo robots.txt. Este archivo debe estar en la raíz del dominio y es el primero que los motores de búsqueda revisan al rastrear un sitio.

Para aplicar Disallow en robots.txt, usa la siguiente sintaxis:

Donde:

User-agent: * significa que la regla se aplica a todos los motores de búsqueda.
Disallow: /ruta/ indica qué parte del sitio no debe rastrearse.

Por ejemplo, si quieres bloquear la página de administración, el código sería:

Este simple ajuste evita que Google y otros buscadores accedan a esa sección.

Comprueba que las reglas de Disallow funcionan

No basta con configurar el archivo robots.txt y darlo por hecho. Es crucial verificar que realmente está funcionando como esperas. Para hacerlo, puedes utilizar lo siguiente:

Google Search Console. En la sección de robots.txt Tester, puedes probar las reglas y ver si una URL específica está bloqueada.
Herramienta de inspección de URL. Permite comprobar si Google puede rastrear o indexar una página concreta.
Comprobación manual. Si accedes a tudominio.com/robots.txt, deberías ver el archivo y sus reglas activas.

Si después de aplicar Disallow en robots.txt notas que algunas páginas siguen apareciendo en Google, recuerda que bloquear el rastreo no significa que se eliminen del índice.

Asegura que Disallow no afecta páginas importantes

Uno de los errores más comunes al usar Disallow en SEO es bloquear sin querer páginas clave para el posicionamiento. Si, por ejemplo, bloqueas una sección completa sin revisar bien las URLs, podrías estar impidiendo que Google rastree contenido relevante. Para evitar este problema haz lo siguiente:

Usa la directiva Allow. En caso de necesitar excepciones dentro de una carpeta bloqueada.
Revisa regularmente el archivo robots.txt. Cuando hagas cambios en la estructura de tu web.
No bloquees CSS o archivos JavaScript. Son esenciales para el funcionamiento del sitio.

Por ejemplo, si bloqueas /blog/, pero quieres que una entrada específica siga siendo rastreada, puedes hacer esto:

Así, toda la carpeta estará bloqueada, pero la página «post-importante» seguirá accesible para Google.

Siguiendo estos pasos, evitarás problemas de indexación y usarás Disallow en robots.txt de forma óptima dentro de tu estrategia SEO.

Bloquear páginas en Google con Disallow

Si lo que quieres es evitar la indexación con Disallow, debes saber que bloquear una URL en robots.txt no la elimina del índice de Google si ya ha sido rastreada antes.

Si Google ya conoce la URL, podría seguir mostrándola en los resultados, aunque no pueda acceder a su contenido. Para asegurarte de que desaparezca, combina Disallow con la metaetiqueta Noindex en el código de la página o usa la opción de eliminación de URL en Search Console. Aquí te mostramos un ejemplo:

Si solo aplicas Disallow en robots.txt, la URL podría seguir apareciendo en los resultados de búsqueda con un aviso de “No hay información disponible sobre esta página”.

Para evitar esto, usa Noindex en el encabezado de la página:

Esta combinación es la mejor manera de bloquear páginas en Google de forma efectiva.

Diferencia entre Disallow y Noindex

Una de las dudas más frecuentes cuando se trata de controlar la indexación en Google es si usar Disallow en robots.txt o Noindex en el código de la página. Aunque ambos cumplen funciones similares, no son lo mismo y elegir el incorrecto puede afectar la visibilidad de tu web en los motores de búsqueda.

Disallow le dice a Google que no rastree ciertas páginas, mientras que Noindex le indica que no las muestre en los resultados de búsqueda. Dependiendo de lo que quieras conseguir, uno será más efectivo que el otro. Vamos a ver en detalle cuál es la diferencia y cuándo deberías usar cada uno.

¿Qué hace exactamente Disallow en robots.txt?

Disallow en robots.txt es una directiva que impide que los motores de búsqueda rastreen determinadas páginas o carpetas de un sitio web. Sin embargo, esto no significa que esas páginas desaparezcan del índice de Google.

Si una URL ya ha sido indexada antes de aplicar Disallow, es posible que siga apareciendo en los resultados, aunque Google no pueda acceder a su contenido. Esto puede provocar que la página aparezca con el mensaje «No hay información disponible sobre esta página», lo cual no siempre es ideal desde un punto de vista SEO.

Por ejemplo, si bloqueamos una sección con Disallow en robots.txt:

Google no rastreará el contenido dentro de «/privado/», pero si alguna URL de esa carpeta ya estaba indexada, seguirá en los resultados hasta que Google la elimine por otros medios.

¿Cómo funciona Noindex y en qué se diferencia?

Noindex, por otro lado, es una directiva que se coloca dentro del código HTML de una página y le indica a los motores de búsqueda que no deben incluirla en su índice.

Al contrario de Disallow, Noindex sí garantiza que la página desaparecerá de los resultados de búsqueda, siempre y cuando Google pueda acceder a ella para leer la directiva.

Se implementa en el <head> de la página con esta etiqueta:

Esto le dice a Google que no debe indexar la página ni seguir los enlaces dentro de ella. Sin embargo, si esta página está bloqueada en robots.txt, Google no podrá leer la directiva Noindex y la página podría seguir indexada.

¿Cuándo usar Disallow y cuándo Noindex?

La elección entre Disallow y Noindex depende del objetivo que tengas. Aquí te dejamos los motivos principales:

Usa Disallow si solo quieres impedir el rastreo. Esto es útil para evitar que Google gaste recursos en páginas irrelevantes, como páginas de login o archivos internos.
Usa Noindex si quieres que una página desaparezca de los resultados de búsqueda. Es la mejor opción para contenido que no quieres que se indexe, como páginas temporales o duplicadas.

En algunos casos, puede ser necesario usar ambas directivas juntas, pero siempre asegurándote de que Noindex se implemente antes de bloquear la página en robots.txt, de lo contrario, Google no podrá leer la directiva y la URL podría seguir indexada.

Si aplicas bien estas reglas, evitarás problemas de indexación y mejorarás la gestión de tu contenido en los motores de búsqueda.

Ejemplos de uso de Disallow en SEO

Disallow en robots.txt es una herramienta flexible que puedes usar para distintas situaciones. Aquí tienes algunos ejemplos.

Bloquear toda la web (no recomendado en sitios en producción).

Esto evita que Google rastree todo el sitio. Solo úsalo en webs en desarrollo.

Bloquear solo carpetas específicas.

Ideal para restringir áreas con información sensible.

Bloquear solo ciertos archivos.

Útil para evitar que se indexen documentos PDF o imágenes privadas.

Permitir el rastreo de algunas páginas dentro de una carpeta bloqueada.

Si bien se bloquea la carpeta del blog, se permite el acceso a una página en concreto.

Como has visto, Disallow en robots.txt es una herramienta esencial para controlar el rastreo de tu web y evitar la indexación de contenido irrelevante. Sin embargo, es importante usarlo correctamente para no afectar el posicionamiento.

Si tienes dudas sobre la configuración de robots.txt o quieres optimizar el SEO de tu sitio, en nuestra agencia de posicionamiento SEO en Asturias podemos ayudarte a mejorar tu estrategia digital. ¿Listo para llevar tu posicionamiento web al siguiente nivel? Contáctanos y diseñemos juntos la mejor estrategia para tu negocio.

Disallow en robots.txt: la clave para controlar la indexación en Google