Skip to content
Crawl budget: ghid complet de optimizare pentru site-uri de orice dimensiune

Crawl budget: ghid complet de optimizare pentru site-uri de orice dimensiune

Crawl budget reprezintă numărul de pagini pe care Googlebot le accesează și le procesează pe site-ul dvs. într-un interval de timp dat. Deși nu este un concept cu care toți proprietarii de site-uri se confruntă direct, înțelegerea și optimizarea crawl budget-ului devine critică pe măsură ce un site crește și acumulează sute sau mii de pagini.

Pe cisnet.ro există deja articole despre cum funcționează indexarea Google și despre sitemap-ul XML. Crawl budget este conceptul care explică de ce unele pagini nu sunt indexate chiar dacă există în sitemap și sunt tehnic accesibile.

Cum funcționează crawl budget-ul: mecanismul complet

Google alocă fiecărui site un crawl budget determinat de interacțiunea a doi factori principali:

Crawl rate limit determină cât de rapid poate Googlebot accesa site-ul dvs. fără a supraîncărca serverul. Dacă serverul dvs. răspunde lent (TTFB ridicat) sau returnează erori frecvente, Google reduce automat viteza de crawl pentru a nu afecta experiența utilizatorilor reali. Un server care răspunde în sub 200ms permite Googlebot să acceseze semnificativ mai multe pagini pe sesiune față de unul cu TTFB de 1-2 secunde.

Crawl demand determină cât de des vrea Google să re-crawleze paginile dvs. Paginile populare (cu backlink-uri externe, cu trafic organic ridicat) sunt re-crawlate mai frecvent. Paginile actualizate des primesc prioritate față de cele statice. Site-urile cu autoritate ridicată primesc un crawl demand mai mare față de site-urile noi.

Bugetul zilnic de crawl este produsul celor doi factori. Un site cu server rapid, mult crawl demand și autoritate ridicată poate fi crawlat de sute sau mii de ori pe zi. Un site nou, cu server lent și puțin crawl demand, de câteva ori pe săptămână.

Cauzele principale de risipă a crawl budget-ului

URL-uri duplicate generate dinamic

Aceasta este cauza numărul unu de risipă a crawl budget-ului pentru site-uri medii și mari:

  • Parametri de filtrare și sortare: /produse/?sort=pret&order=asc&pagina=3 creează sute de variante ale aceleiași pagini
  • Parametri de sesiune: ?session_id=abc123 creează o pagină unică pentru fiecare sesiune
  • Parametri de tracking UTM: ?utm_source=newsletter&utm_medium=email creează versiuni duplicate ale fiecărei pagini
  • Versiuni www/non-www sau HTTP/HTTPS neconsolidate prin redirectări 301 corecte

Pagini de calitate scăzută indexabile inutil

  • Pagini de căutare internă cu zeci de mii de combinații posibile de căutare
  • Pagini de paginare excesivă pentru categorii cu sute de produse
  • Pagini de tag-uri WordPress cu conținut similar sau duplicat
  • Pagini de arhivă WordPress: pe lună, pe an, pe autor, pe tip de postare
  • Pagini de coș, checkout și cont personal ale utilizatorilor

Pagini cu erori care consumă budget inutil

  • Pagini 404 care primesc linkuri interne sau externe, Googlebot le crawlează în căutarea conținutului
  • Redirecționări în lanț: A → B → C în loc de redirecționare directă A → C
  • Pagini cu erori 500 sau 503 recurente, Googlebot le re-crawlează sperând că revin

Soluțiile tehnice principale

Robots.txt: prima linie de apărare

Blocați prin robots.txt secțiunile care nu trebuie indexate și care consumă crawl budget inutil. Aceasta este soluția cea mai rapidă și cu impact imediat:

User-agent: Googlebot

# Pagini de sistem WordPress
Disallow: /wp-admin/
Disallow: /wp-includes/

# Pagini de căutare internă
Disallow: /?s=
Disallow: /cautare/

# Coș și checkout (nu trebuie indexate)
Disallow: /cos/
Disallow: /checkout/
Disallow: /contul-meu/

# Parametri de filtrare și sortare
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?orderby=
Disallow: /*?pagina=

# Parametri de tracking
Disallow: /*?utm_source=
Disallow: /*?utm_medium=
Disallow: /*?fbclid=
Disallow: /*?gclid=

# Arhive WordPress cu valoare SEO scăzută
Disallow: /tag/
Disallow: /author/
Disallow: /date/

Canonical tags pentru consolidarea duplicatelor

Configurați canonical tags pentru toate variantele duplicate ale aceleiași pagini. Aceasta semnalează Google că nu trebuie să indexeze variantele, economisindu-se crawl budget pentru pagini noi valoroase:

<!-- Pe pagina: /produse/?sort=pret -->
<link rel="canonical"
  href="https://www.cisnet.ro/produse/" />

<!-- Pe pagina de paginare: /blog/pagina/2/ -->
<link rel="canonical"
  href="https://www.cisnet.ro/blog/" />

Noindex pentru pagini de valoare scăzută

Paginile de paginare, paginile cu filtre multiple și paginile de tag-uri cu puțin conținut unic pot fi marcate cu noindex prin meta robots sau header HTTP:

<!-- Meta robots pentru pagini individuale -->
<meta name="robots" content="noindex, follow">

<!-- PHP pentru header HTTP (mai rapid, ideal pentru WordPress) -->
<?php header('X-Robots-Tag: noindex, follow', true); ?>

Monitorizarea crawl budget-ului în Google Search Console

Google Search Console, secțiunea Settings, Crawl Stats, oferă date complete despre comportamentul Googlebot pe site-ul dvs. în ultimele 90 de zile:

  • Total crawl requests: numărul total de cereri Googlebot zilnic. O tendință descrescătoare poate indica probleme tehnice sau reducerea crawl demand-ului
  • Total download size: volumul total de date transferat. Creșteri mari pot indica pagini noi cu conținut bogat sau probleme de blocare a resurselor
  • Average response time: TTFB mediu pentru cererile Googlebot. Peste 300ms necesită investigare
  • By response: distribuția pe coduri de răspuns HTTP. Procentul de răspunsuri 404 și 500 trebuie să fie sub 5%
  • By file type: distribuția pe tipuri de fișiere. Dacă CSS și JS consumă procent ridicat, posibil că blocați resursele importante în robots.txt

Crawl budget și viteza serverului: conexiunea directă

Optimizarea TTFB are un impact direct și imediat asupra crawl budget-ului disponibil. Ghidurile noastre despre optimizarea performanței serverului și despre viteza site-ului sunt complementare cu optimizarea crawl budget-ului: un server mai rapid înseamnă un crawl budget mai mare.

Concluzie

Optimizarea crawl budget-ului produce beneficii imediate pentru site-urile cu probleme de indexare și beneficii preventive pentru site-urile în creștere. Principiul fundamental: fiecare pagină inutilă accesată de Googlebot înseamnă o pagină valoroasă care nu a fost procesată și potențial nu este indexată corect. Eliminați risipa sistematic și Google va aloca resursele de crawl mai eficient paginilor care contează cu adevărat.

Completați cu ghidul nostru despre SEO tehnic: crawlability, indexare și arhitectura site-ului.

Cisnet.ro este primul nostru nume de domeniu. A fost lansat în anul 1997. Website-ul este administrat de Domnul Dorel Tănase, din Alba iulia, specialist în servicii speciale de optimizare și promovare pentru motoarele de căutare.

Dorel Tănase este un specialist român în marketing digital, optimizare SEO și web design, cu peste 28 de ani de experiență în tehnologie și comunicare online.

Absolvent al Academiei de Studii Economice din București (Cibernetică, 1988-1993), născut pe 19 mai 1964. Pe LinkedIn, are peste 700 de conexiuni și postează despre SEO și provocări business în România.

Back To Top