Tempo de leitura: 9 minutos
É possível realizar a indexação de 100% das páginas do seu site na teoria, mas provavelmente não será possível na prática.
O Google tradicionalmente afirma que sites grandes com mais de 1 milhão de páginas ou sites de tamanho médio com alterações frequentes de conteúdo têm um orçamento de rastreamento. Esta reivindicação sempre existiu.
Recentemente, mecanismos de pesquisa como o Google foram questionados com mais frequência em sites de mídia social como o Twitter sobre indexação e rastreamento.
As alterações nos relatórios do Google Search Console devido a sites de SEO ocorrem com mais frequência do que o normal. Isso aconteceu recentemente devido a mudanças no tamanho e na frequência dos sites. Este efeito foi observado através da experiência pessoal.
Observou-se que algumas mudanças importantes na cobertura da página da web se correlacionam com as atualizações do Google e os sensores SERP. Embora nenhum dos sites tenha pilhas ou nichos técnicos semelhantes, foi observada alta volatilidade. Isso sugere que 100% de indexação não é possível agora e está tudo bem?
Isso tudo faz sentido.
Os documentos do Google afirmam que a web cresce mais rápido do que sua capacidade de indexar todas as páginas.
O Google lista vários tópicos em sua documentação que discutem como a rastreabilidade do site é afetada, incluindo a demanda de rastreamento, que é definida como:
- URLs e conteúdo que são populares recebem elogios;
- Rançoso;
- site responde rapidamente;
- A percepção do Google dos URLs do nosso site como inventário.
O Google John Mueller disse às pessoas no Twitter que a popularidade de um site não está necessariamente ligada à popularidade da marca ou domínio ao qual está associado.
Certos sites consideram o conteúdo inferior se estiver disponível apenas em uma assinatura paga. Por exemplo, os artigos de uma grande editora podem ser considerados de qualidade inferior porque não estão disponíveis na Internet gratuitamente. Em essência, conteúdo inferior é o conteúdo que não está incluído nas páginas de resultados do mecanismo de pesquisa, ou SERPs.
É sempre ter em mente que páginas 100% indexadas não são necessariamente um sucesso.
Indexação de camadas e fragmentos
O Google detalha extensivamente como seu sistema de indexação funciona.
Seu índice de serviço armazena dados atendidos por mecanismos de pesquisa em vários servidores de data center. Isso permite que eles forneçam acesso mais rápido ao conteúdo, colocando-o em servidores de alta qualidade.
O acima pode ser simplificado ainda mais.
O conteúdo da página web é semelhante a um glossário; é facilmente pesquisável. Depois que o documento HTML é tokenizado, ele é dividido em muitas partes menores chamadas shards.
O Google considera os problemas de indexação como problemas técnicos de SEO na maioria das vezes. Se um site tiver um noindex, problemas técnicos ou inconsistências que impeçam o Google de indexar conteúdo, isso é considerado um problema técnico de SEO. No entanto, esses problemas geralmente são causados por uma proposta de valor ruim.
Benefício e valor de inclusão SERP
O Guia do Avaliador de Qualidade do Google contém dois conceitos chamados de proposta de valor. Estes são:
O objetivo do benéfico é beneficiar as pessoas.
A página é de alta qualidade.
A combinação dos dois cria valor de inclusão SERP, que é como eu chamo.
A categoria "Descobertas - Não indexadas" do Google Search Console geralmente se aplica a páginas da Web por esse motivo.
O Google diz isso em QRGs:
Páginas sem um propósito útil devem sempre receber uma pontuação do Sistema de Classificação de Baixa Qualidade. Isso inclui páginas sem necessidades atendidas ou páginas bem projetadas.
O Google indexará apenas as páginas que agregam valor aos seus visitantes. Se uma página contiver conteúdo semelhante a outras páginas do site, o Google não poderá incluí-lo em seus resultados de pesquisa. Para serem indexadas, as páginas devem segmentar palavras-chave específicas e atender a determinados critérios.
O Google determina se uma página atende ao limite de qualidade ao avaliar se a página deve ser indexada.
A fluidez em tempo real é fundamental para a funcionalidade do limiar de qualidade.
Gary Illyes, do Google, confirmou via Twitter que os URLs são indexados quando são descobertos pela primeira vez. Eles também podem ser descartados quando URLs novos e melhores são encontrados. Os URLs também podem receber um aumento na atualização se forem enviados manualmente no Google Search Console.
Descubra se você tem um problema
Você deve primeiro determinar se o relatório de cobertura do Google Search Console mostra as páginas passando de incluídas para excluídas.
Fora do contexto, esse gráfico causaria uma preocupação significativa à maioria dos profissionais de marketing.
Quais destas páginas são valiosas para você? Como resultado, com quantos deles você se importa?
Verificando sua plataforma de análise primeiro, você notará se o tráfego ou os leads estão diminuindo. Você também pode ver se perdeu visibilidade nos mecanismos de pesquisa e classificação geral por meio de ferramentas de terceiros.
O Google Search Console categoriza as páginas excluídas em diferentes categorias. Depois de identificar quais páginas são valiosas, você deve entender por que elas foram excluídas e em quais outras categorias essas páginas se enquadram.
Rastreado - atualmente não indexado
Percebi essa tendência no comércio eletrônico, no setor imobiliário e em outros setores mais do que em qualquer outro vertical.
Nos EUA, o número de novos registros de aplicativos de negócios bateu recordes em 2021. Embora isso tenha aumentado a quantidade de novos conteúdos disponíveis, é improvável que forneça informações novas ou exclusivas. Mais empresas também estavam competindo por usuários, o que significava que mais conteúdo era publicado.
Descoberto - atualmente não indexado
A implantação de grandes programas para criar conteúdo em um site pode resultar em problemas de indexação que geralmente vêm com muitas páginas adicionadas de uma só vez.
O Google considera sites com muitas páginas desinteressantes. A razão para isso é que esses sites aumentam repentinamente o número de páginas rastreáveis e indexáveis. Quando isso acontece, o orçamento de rastreamento geralmente se torna um problema, assim como novos URLs contendo muito conteúdo.
Para passar o page rank e aumentar a importância das páginas recém-criadas, você pode usar sitemaps XML, sitemaps HTML e bons links internos. Há outras pequenas coisas que você pode fazer para ajudar, mas, em última análise, não há muito que você possa fazer para afetar isso.
Sites programáticos com uma grande variedade de produtos semelhantes contêm muito conteúdo que pode ser difícil de classificar. Além disso, sites de comércio eletrônico com conteúdo de baixa qualidade também podem ter dificuldade de classificação.
O Google considera os URLs como padrões. Se o mecanismo de pesquisa visitar uma determinada porcentagem dessas páginas e não encontrar valor, ele assumirá que os documentos HTML das páginas são de baixa qualidade. É possível que o Google decida não rastrear esses documentos, mesmo que sejam relevantes para uma pesquisa.
O Google pode optar por não indexar páginas de baixo valor que tenham conteúdo semelhante a outras páginas já indexadas. Isso se aplica a páginas que o Google não pesquisa com frequência ou que não atraem muitos visitantes. Isso inclui páginas programáticas de comparação e localização que podem não conter conteúdo exclusivo.
Você precisa considerar se os objetivos do projeto podem ser alcançados com um número limitado de páginas que os mecanismos de pesquisa não podem rastrear. Depois disso, você deve decidir se vale a pena listar essas páginas no site.
Conteúdo duplicado
Conteúdo duplicado é comum em plataformas de e-commerce, publicações e programáticas.
O Google não está interessado em indexar páginas com conteúdo duplicado de outros sites ou páginas internas. Isso inclui páginas que contêm propostas de valor.
O conteúdo não indexado pelo Google geralmente não possui uma proposta de valor ou propósito exclusivo. Isso ocorre porque o Google prefere sites com perspectivas e conteúdo únicos. Muitos sites grandes como o YouTube e a Wikipedia tiveram seu conteúdo não encontrado porque era idêntico a outros sites.
Tome providências
À medida que a quantidade de conteúdo na web cresce, fica mais difícil para o Google indexar todos os sites de grande e médio porte.
O conteúdo abaixo do limite de qualidade deve ser melhorado ou removido.
Links descritivos de páginas de alto nível podem impactar positivamente outras páginas do site. Isso não se limita às páginas com mais backlinks; em vez disso, refere-se a páginas que classificam para um grande número de palavras-chave e têm boa visibilidade.
A remoção de conteúdo de baixa qualidade e baixo valor pode afetar significativamente a usabilidade do seu site. Por exemplo, o Google não pode indexar páginas consideradas de baixo valor ou baixa qualidade. Se as páginas não indexadas contiverem conteúdo que não gera nenhum valor, como visualizações de página ou conversões, elas devem ser removidas. Isso ocorre porque manter essas páginas vivas desperdiça os recursos de rastreamento do Google quando ele escolhe indexar essas páginas. Isso pode afetar seus rankings de SEO se você confiar nos padrões de correspondência de URL e no inventário percebido do seu site.