SEO Técnico

Robots.txt, Sitemap.xml e Canonical: como guiar corretamente o Googlebot

Robots.txt, Sitemap.xml e Canonical: como guiar corretamente o Googlebot

Controle de rastreamento e indexação começa com três pilares de SEO técnico: robots.txt para dizer o que pode ser rastreado, sitemap.xml para indicar o que merece ser descoberto e rel=”canonical” para consolidar sinais entre URLs equivalentes. Abaixo, um guia objetivo e prático para WordPress e qualquer stack.Índice

  1. Robots.txt: permissões, bloqueios e armadilhas
  2. Sitemap.xml: priorização e saúde de indexação
  3. Tag Canonical: quando e como usar
  4. Matriz de decisões: robots vs noindex vs canonical
  5. WordPress: configurações rápidas e seguras
  6. Diagnósticos e verificação no GSC
  7. Checklist final
  8. FAQ
  9. Tags

1) Robots.txt: permissões, bloqueios e armadilhas

O arquivo /robots.txt define o que os robôs podem rastrear, mas não determina diretamente a indexação. Bloquear pastas de sistemas, parâmetros inúteis e endpoints de busca pode economizar orçamento de rastreamento. Evite bloquear páginas que você deseja posicionar ou que precisam ser avaliadas para sinais de qualidade.

Exemplo seguro (geral)

# /robots.txt (exemplo padrão)
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

# Evitar index interno e páginas de busca
Disallow: /?s=
Disallow: /search

# Evitar feeds, se redundantes na sua estratégia
Disallow: /*/feed/

# Apontar o sitemap
Sitemap: https://www.seusite.com.br/sitemap_index.xml

Cuidado: não bloqueie via robots.txt URLs que precisem usar noindex. Se o Google não puder rastrear, ele pode não ver a meta noindex e a página permanecerá indexada via links externos.

Testes rápidos

# Verifique se o robots está acessível
curl -I https://www.seusite.com.br/robots.txt

# Teste de simulação: use a Ferramenta de Inspeção do GSC
# (Google Search Console > Inspeção de URL)

2) Sitemap.xml: priorização e saúde de indexação

O sitemap.xml não garante indexação, mas acelera descoberta, especialmente em sites grandes ou com arquitetura complexa. Liste apenas URLs canônicas, 200 OK, não-bloqueadas e que realmente merecem aparecer no Google. Atualize <lastmod> quando o conteúdo mudar de verdade.

Exemplo mínimo

&lt;?xml version="1.0" encoding="UTF-8"?&gt;
&lt;urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"&gt;
  &lt;url&gt;
    &lt;loc&gt;https://www.seusite.com.br/&lt;/loc&gt;
    &lt;lastmod&gt;2025-08-15&lt;/lastmod&gt;
    &lt;changefreq&gt;weekly&lt;/changefreq&gt;
    &lt;priority&gt;1.0&lt;/priority&gt;
  &lt;/url&gt;
  &lt;url&gt;
    &lt;loc&gt;https://www.seusite.com.br/servicos/&lt;/loc&gt;
    &lt;lastmod&gt;2025-08-12&lt;/lastmod&gt;
    &lt;changefreq&gt;monthly&lt;/changefreq&gt;
    &lt;priority&gt;0.8&lt;/priority&gt;
  &lt;/url&gt;
&lt;/urlset&gt;

Dica: use sitemaps separados por tipo (posts, páginas, categorias, produtos). Em WordPress, plugins como Rank Math/LiteSpeed/Yoast fazem isso automaticamente.

Boas práticas

  • Não inclua URLs com noindex, 3xx temporário, 4xx ou 5xx.
  • Mantenha o tamanho < 50.000 URLs por arquivo (ou < 50 MB descompactado).
  • Envie o sitemap no GSC e referencie-o no robots.txt.

3) Tag Canonical: quando e como usar

A canônica consolida sinais de ranking entre URLs equivalentes (mesmo conteúdo acessível por múltiplas rotas/parametrizações). Use-a para versões com parâmetros UTM, páginas com filtros de listagem, duplicações por paginação/ordenamento e URL com/sem trailing slash.

HTML na <head>

&lt;link rel="canonical" href="https://www.seusite.com.br/produto/kit-profissional/"&gt;

Via cabeçalho HTTP (arquivos, PDFs)

HTTP/1.1 200 OK
Content-Type: application/pdf
Link: &lt;https://www.seusite.com.br/guias/ebook-seo/&gt;; rel="canonical"

Regras de ouro:

  • Canônica deve apontar para a própria URL final (self-canonical) quando não há duplicata.
  • Evite canônicas cruzadas em loop (A→B e B→A).
  • Mantenha consistência com sitemap (apenas URLs canônicas no sitemap).

Parâmetros e filtros

# Exemplo de equivalência:
https://www.seusite.com.br/camisetas/?cor=preto&amp;ordenar=preco
# &gt; Canonical para:
https://www.seusite.com.br/camisetas/

Evite: usar canonical para mascarar conteúdo diferente. Se a página muda substancialmente (ex.: variações de produto com conteúdo único), considere URL própria ou dados estruturados corretos.

4) Matriz de decisões: robots vs noindex vs canonical

CenárioRobots.txtNoindexCanonicalObservação
Área administrativa / endpoints técnicosDisallowEconomiza crawl budget
Resultados de busca internaDisallow (opcional)<meta name="robots" content="noindex,follow">Não deixe indexar; mantenha follow
Parâmetros UTM e ordenaçõesPreferir AllowCanonical para a versão limpaConsolida sinais
Páginas legadas a desindexarAllownoindex (+ 410 quando remover)Permita rastrear para o Google ver o noindex

5) WordPress: configurações rápidas e seguras

  • Visibilidade: em Configurações > Leitura, mantenha “Desencorajar mecanismos de busca” desmarcado em produção.
  • Plugins SEO (Rank Math/Yoast): ative sitemaps por tipo, use noindex em taxonomias inúteis e crie canônica automática.
  • Robots.txt virtual: edite pelo plugin SEO, não crie arquivos conflitantes via FTP.
  • Paginação de categorias: mantenha index apenas se houver valor (texto introdutório, curadoria, links internos).

Meta robots por template (exemplo)

&lt;?php
// single.php (indexável por padrão)
// archive-search.php (buscar interna)
if ( is_search() ) {
  echo '&lt;meta name="robots" content="noindex,follow"&gt;';
}
?&gt;

6) Diagnósticos e verificação no GSC

  1. Inspeção de URL: valide renderização, robots, canonical e cobertura.
  2. Relatório de Páginas: procure “Indexada, não enviada no sitemap” e “Excluída por noindex”.
  3. Estatísticas de rastreamento: monitore picos e responda com otimizações (links internos, performance e menos URLs inúteis).

Checks rápidos por terminal

# Ver meta robots e canonical
curl -s https://www.seusite.com.br/servicos/ | grep -iE 'robots|canonical'

# Conferir status HTTP em massa (lista.txt com URLs)
xargs -n1 -P8 curl -o /dev/null -s -w "%{http_code} %{url_effective}\n" &lt; lista.txt

7) Checklist final

  • Robots.txt acessível, sem bloquear páginas que precisem de noindex.
  • Sitemaps com somente URLs canônicas, 200 OK, atualizadas.
  • Canonical consistente (self-canonical por padrão; consolidar parâmetros/duplicatas).
  • Meta robots coerente: index,follow por padrão; noindex,follow para busca interna, tags órfãs, obrigado, etc.
  • Validar tudo no GSC (Inspeção de URL + Cobertura + Sitemaps).

FAQ

1) Robots.txt impede indexação?

Não diretamente. Ele só impede o rastreamento. Se a URL for citada externamente, pode aparecer no índice sem conteúdo em cache. Para remover do índice, use noindex (ou retorno 410) permitindo o rastreamento.

2) Posso usar canonical para páginas diferentes?

Use canonical apenas quando o conteúdo for equivalente. Se houver diferenças substanciais (ex.: especificações, preço, estoque), prefira URLs únicas e evite consolidar.

3) Preciso de múltiplos sitemaps?

Em sites médios/grandes, sim: separe por tipo de conteúdo (posts, páginas, produtos, categorias). Facilita monitorar erros e cobertura.

4) Deixo categorias indexáveis?

Depende. Se otimizadas como hubs (texto introdutório, links, FAQs), valem a indexação. Se forem fracas/órfãs, use noindex,follow até fortalecer.

5) “noindex, nofollow” é recomendado?

Evite “nofollow” no site interno. Em geral, use “noindex, follow” para preservar a fluidez do PageRank interno.

6) Como tratar parâmetros UTM?

Permita rastrear e canonicize para a URL limpa. Opcionalmente, configure exclusões de UTM no GA/GTM e no próprio CMS para evitar indexação de variantes.

7) Preciso de <lastmod> exato?

Use <lastmod> somente quando houver alteração significativa. Não atualize artificialmente; isso pode reduzir confiança no sitemap.

8) Canonical e hreflang: ordem importa?

Sim, todas as versões devem apontar a si mesmas com canonical e referenciar reciprocamente o hreflang. Inconsistência quebra o cluster internacional.

9) PDF deve ter canonical?

Sim, via cabeçalho HTTP Link: rel="canonical" apontando para a landing equivalente em HTML quando existir.

10) Posso bloquear /wp-content/uploads/?

Não. Imagens precisam ser rastreadas para aparecer no Google Imagens e compor sinais de qualidade (alt text, entidades). Bloqueie apenas execução de PHP nessa pasta, não o rastreamento.

Tags

robots.txt sitemap.xml rel=canonical Googlebot SEO técnico indexação rastreamento WordPress Rank Math Search Console noindex crawl budget hreflang arquitetura de informação dados estruturados

Leia também

Pegue Sua Análise SEO Gratuita

Receba um diagnóstico inicial gratuito e descubra como os buscadores enxergam o seu site.

ENTRE EM CONTATO

Venha tirar seu site do anonimato.

Contato

© copyright 2022!! Feito com muita dedicação por  Negócio Digital – Sua Empresa na Internet