Robots.txt, Sitemap.xml e Canonical: como guiar corretamente o Googlebot
Controle de rastreamento e indexação começa com três pilares de SEO técnico: robots.txt para dizer o que pode ser rastreado, sitemap.xml para indicar o que merece ser descoberto e rel=”canonical” para consolidar sinais entre URLs equivalentes. Abaixo, um guia objetivo e prático para WordPress e qualquer stack.Índice
- Robots.txt: permissões, bloqueios e armadilhas
- Sitemap.xml: priorização e saúde de indexação
- Tag Canonical: quando e como usar
- Matriz de decisões: robots vs noindex vs canonical
- WordPress: configurações rápidas e seguras
- Diagnósticos e verificação no GSC
- Checklist final
- FAQ
- Tags
1) Robots.txt: permissões, bloqueios e armadilhas
O arquivo /robots.txt define o que os robôs podem rastrear, mas não determina diretamente a indexação. Bloquear pastas de sistemas, parâmetros inúteis e endpoints de busca pode economizar orçamento de rastreamento. Evite bloquear páginas que você deseja posicionar ou que precisam ser avaliadas para sinais de qualidade.
Exemplo seguro (geral)
# /robots.txt (exemplo padrão)
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
# Evitar index interno e páginas de busca
Disallow: /?s=
Disallow: /search
# Evitar feeds, se redundantes na sua estratégia
Disallow: /*/feed/
# Apontar o sitemap
Sitemap: https://www.seusite.com.br/sitemap_index.xml
Cuidado: não bloqueie via robots.txt URLs que precisem usar noindex. Se o Google não puder rastrear, ele pode não ver a meta noindex e a página permanecerá indexada via links externos.
Testes rápidos
# Verifique se o robots está acessível
curl -I https://www.seusite.com.br/robots.txt
# Teste de simulação: use a Ferramenta de Inspeção do GSC
# (Google Search Console > Inspeção de URL)
2) Sitemap.xml: priorização e saúde de indexação
O sitemap.xml não garante indexação, mas acelera descoberta, especialmente em sites grandes ou com arquitetura complexa. Liste apenas URLs canônicas, 200 OK, não-bloqueadas e que realmente merecem aparecer no Google. Atualize <lastmod> quando o conteúdo mudar de verdade.
Exemplo mínimo
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://www.seusite.com.br/</loc>
<lastmod>2025-08-15</lastmod>
<changefreq>weekly</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>https://www.seusite.com.br/servicos/</loc>
<lastmod>2025-08-12</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
</urlset>
Dica: use sitemaps separados por tipo (posts, páginas, categorias, produtos). Em WordPress, plugins como Rank Math/LiteSpeed/Yoast fazem isso automaticamente.
Boas práticas
- Não inclua URLs com
noindex, 3xx temporário, 4xx ou 5xx. - Mantenha o tamanho < 50.000 URLs por arquivo (ou < 50 MB descompactado).
- Envie o sitemap no GSC e referencie-o no
robots.txt.
3) Tag Canonical: quando e como usar
A canônica consolida sinais de ranking entre URLs equivalentes (mesmo conteúdo acessível por múltiplas rotas/parametrizações). Use-a para versões com parâmetros UTM, páginas com filtros de listagem, duplicações por paginação/ordenamento e URL com/sem trailing slash.
HTML na <head>
<link rel="canonical" href="https://www.seusite.com.br/produto/kit-profissional/">
Via cabeçalho HTTP (arquivos, PDFs)
HTTP/1.1 200 OK
Content-Type: application/pdf
Link: <https://www.seusite.com.br/guias/ebook-seo/>; rel="canonical"
Regras de ouro:
- Canônica deve apontar para a própria URL final (self-canonical) quando não há duplicata.
- Evite canônicas cruzadas em loop (A→B e B→A).
- Mantenha consistência com sitemap (apenas URLs canônicas no sitemap).
Parâmetros e filtros
# Exemplo de equivalência:
https://www.seusite.com.br/camisetas/?cor=preto&ordenar=preco
# > Canonical para:
https://www.seusite.com.br/camisetas/
Evite: usar canonical para mascarar conteúdo diferente. Se a página muda substancialmente (ex.: variações de produto com conteúdo único), considere URL própria ou dados estruturados corretos.
4) Matriz de decisões: robots vs noindex vs canonical
| Cenário | Robots.txt | Noindex | Canonical | Observação |
|---|---|---|---|---|
| Área administrativa / endpoints técnicos | Disallow | — | — | Economiza crawl budget |
| Resultados de busca interna | Disallow (opcional) | <meta name="robots" content="noindex,follow"> | — | Não deixe indexar; mantenha follow |
| Parâmetros UTM e ordenações | Preferir Allow | — | Canonical para a versão limpa | Consolida sinais |
| Páginas legadas a desindexar | Allow | noindex (+ 410 quando remover) | — | Permita rastrear para o Google ver o noindex |
5) WordPress: configurações rápidas e seguras
- Visibilidade: em Configurações > Leitura, mantenha “Desencorajar mecanismos de busca” desmarcado em produção.
- Plugins SEO (Rank Math/Yoast): ative sitemaps por tipo, use noindex em taxonomias inúteis e crie canônica automática.
- Robots.txt virtual: edite pelo plugin SEO, não crie arquivos conflitantes via FTP.
- Paginação de categorias: mantenha index apenas se houver valor (texto introdutório, curadoria, links internos).
Meta robots por template (exemplo)
<?php
// single.php (indexável por padrão)
// archive-search.php (buscar interna)
if ( is_search() ) {
echo '<meta name="robots" content="noindex,follow">';
}
?>
6) Diagnósticos e verificação no GSC
- Inspeção de URL: valide renderização, robots, canonical e cobertura.
- Relatório de Páginas: procure “Indexada, não enviada no sitemap” e “Excluída por noindex”.
- Estatísticas de rastreamento: monitore picos e responda com otimizações (links internos, performance e menos URLs inúteis).
Checks rápidos por terminal
# Ver meta robots e canonical
curl -s https://www.seusite.com.br/servicos/ | grep -iE 'robots|canonical'
# Conferir status HTTP em massa (lista.txt com URLs)
xargs -n1 -P8 curl -o /dev/null -s -w "%{http_code} %{url_effective}\n" < lista.txt
7) Checklist final
- Robots.txt acessível, sem bloquear páginas que precisem de
noindex. - Sitemaps com somente URLs canônicas, 200 OK, atualizadas.
- Canonical consistente (self-canonical por padrão; consolidar parâmetros/duplicatas).
- Meta robots coerente:
index,followpor padrão;noindex,followpara busca interna, tags órfãs, obrigado, etc. - Validar tudo no GSC (Inspeção de URL + Cobertura + Sitemaps).
FAQ
1) Robots.txt impede indexação?
Não diretamente. Ele só impede o rastreamento. Se a URL for citada externamente, pode aparecer no índice sem conteúdo em cache. Para remover do índice, use noindex (ou retorno 410) permitindo o rastreamento.
2) Posso usar canonical para páginas diferentes?
Use canonical apenas quando o conteúdo for equivalente. Se houver diferenças substanciais (ex.: especificações, preço, estoque), prefira URLs únicas e evite consolidar.
3) Preciso de múltiplos sitemaps?
Em sites médios/grandes, sim: separe por tipo de conteúdo (posts, páginas, produtos, categorias). Facilita monitorar erros e cobertura.
4) Deixo categorias indexáveis?
Depende. Se otimizadas como hubs (texto introdutório, links, FAQs), valem a indexação. Se forem fracas/órfãs, use noindex,follow até fortalecer.
5) “noindex, nofollow” é recomendado?
Evite “nofollow” no site interno. Em geral, use “noindex, follow” para preservar a fluidez do PageRank interno.
6) Como tratar parâmetros UTM?
Permita rastrear e canonicize para a URL limpa. Opcionalmente, configure exclusões de UTM no GA/GTM e no próprio CMS para evitar indexação de variantes.
7) Preciso de <lastmod> exato?
Use <lastmod> somente quando houver alteração significativa. Não atualize artificialmente; isso pode reduzir confiança no sitemap.
8) Canonical e hreflang: ordem importa?
Sim, todas as versões devem apontar a si mesmas com canonical e referenciar reciprocamente o hreflang. Inconsistência quebra o cluster internacional.
9) PDF deve ter canonical?
Sim, via cabeçalho HTTP Link: rel="canonical" apontando para a landing equivalente em HTML quando existir.
10) Posso bloquear /wp-content/uploads/?
Não. Imagens precisam ser rastreadas para aparecer no Google Imagens e compor sinais de qualidade (alt text, entidades). Bloqueie apenas execução de PHP nessa pasta, não o rastreamento.
Tags
robots.txt sitemap.xml rel=canonical Googlebot SEO técnico indexação rastreamento WordPress Rank Math Search Console noindex crawl budget hreflang arquitetura de informação dados estruturados



