web analytics

AI bot traffic WordPress: gestire GPTBot, ClaudeBot e crawler AI nel 2026

14/06/2026

Introduzione: il crawler AI non è un visitatore qualunque

Perdieci anniabbiamo gestito il traffico dei bot pensando a Googlebot, Bingbot, Baiduspider. Buoni e cattivi, certo. Ma il 2026 ha portato una nuova categoria: i crawler AI, che si comportano in modo radicalmente diverso da quelli tradizionali. Scaricano pagine intere (non solo HTML, anche CSS, JS, risorse), usano banda, riempiono log, esauriscono thread PHP. E su un sito WordPress non ottimizzato, possono facilmente esaurire le risorse del server.

In questa guida vediamo come gestirli in modo strategico, basandoci su dati reali di 10 miliardi di richieste e sull'analisi del comportamento dei principali crawler AI nel 2026.

Se invece ti interessa il tema AEO (diventare fonte citata dai modelli), leggi AEO WordPress: come farsi citare da ChatGPT, Perplexity e Claude. Per la sicurezza lato codice, vedi Supply chain attack nei plugin WordPress: come l'AI ha scoperto l'invisibile.

Cosa sono i crawler AI e come differiscono dai bot tradizionali

Un bot tradizionale (Googlebot, Bingbot) indicizza pagine per mostrarle nei risultati di ricerca. Un crawler AI raccoglie dati per allenare, aggiornare o interrogare un modello linguistico. Tre famiglie principali:

1. Crawler per addestramento. Raccoglie grandi quantità di testo per ri-allenare i modelli. Esempi: GPTBot (OpenAI), ClaudeBot (Anthropic), CCBot (Common Crawl, dataset usato da molti LLM), Google-Extended (training separato da ricerca Google), Applebot-Extended (per Apple Intelligence).

2. Crawler per ricerca in tempo reale. Alimenta funzionalità di search/answer engine in tempo reale. Esempi: OAI-SearchBot (ChatGPT Search), ChatGPT-User (prompt utente con browsing), PerplexityBot, Perplexity-User.

3. Crawler per assistenti personali. Raccoglie dati su richiesta quando l'utente chiede al suo assistente. Esempi: Claude-User, ChatGPT-User, Perplexity-User.

La differenza operativa è cruciale: i crawler di addestramento hanno volumi enormi e pattern regolari; i crawler di ricerca hanno volumi medio-alti con picchi; i crawler utente hanno volumi bassi ma imprevedibili.

I dati reali: 10 miliardi di richieste

L'analisi più citata del 2026 (Kinsta, primo semestre) parla chiaro:

  • +300% di traffico AI bot in 12 mesi (gennaio 2025 - gennaio 2026).
  • GPTBot è il singolo crawler più aggressivo, con picchi di 5.000 richieste al minuto su siti medio-grandi.
  • ClaudeBot è il più costante, con pattern orari prevedibili (lavora in finestre 9-17 UTC).
  • PerplexityBot ignora robots.txt nel 12% dei casi (analisi su 50.000 siti).
  • CCBot è il meno identificabile, spesso si presenta con user agent generici.
  • I bot AI generano il 23% del traffico non umano su siti editoriali, il 6% su e-commerce.

Impatto tecnico su un sito WordPress

Vediamo i numeri reali su un'installazione WordPress standard (hosting condiviso medio, 2 vCPU, 4GB RAM, PHP 8.2, MySQL 8, 200 articoli, 50 plugin):

PHP-FPM. Ogni richiesta a index.php consuma un worker PHP. Con 200 worker/ora da GPTBot e un tempo medio di risposta 200ms, l'occupazione è trascurabile. Ma con 2.000 worker/ora (sito medio da 50.000 pagine viste/mese) si entra in conflitto con il traffico umano: i picchi AI arrivano nelle ore di minor traffico utente, spesso di notte, e saturano la coda.

MySQL. I crawler AI eseguono le stesse query degli utenti (post meta, option, term relationships). Su siti con wp_options gonfio (transient scaduti, autoload pesante), una raffica di crawler può trasformare una query da 50ms a 800ms.

Banda. Una pagina WordPress media (HTML + CSS + JS + immagini) pesa 1.5-3MB. Un crawler aggressivo che scarica tutto, incluse immagini, fa 5-10MB per pagina. 50.000 pagine/mese = 250-500GB di banda solo per quel bot.

Log. I log di accesso esplodono. Su un sito con 100.000 visite reali/mese, i log di un mese con traffico AI pesante arrivano a 8-10GB. Difficile da analizzare, archivio complicato.

Identificare i crawler AI nei log

Primo passo: sapere chi bussa. Ecco uno script bash per estrarre il traffico AI dai log Apache/Nginx:

# top 20 bot AI per richieste totali
grep -E 'GPTBot|ClaudeBot|PerplexityBot|OAI-SearchBot|ChatGPT-User|CCBot|Google-Extended|Applebot-Extended' /var/log/nginx/access.log \
  | awk -F'"' '{print $6}' | sort | uniq -c | sort -rn | head -20

# banda totale consumata dai bot AI
grep -E 'GPTBot|ClaudeBot|PerplexityBot' /var/log/nginx/access.log \
  | awk '{ sum += $10 } END { printf "Banda AI bot: %.2f MB\n", sum/1024/1024 }'

# picchi orari di GPTBot
awk '/GPTBot/ {print substr($4,14,2)}' /var/log/nginx/access.log | sort | uniq -c | sort -rn | head -10

Se non hai accesso diretto ai log, plugin come Wordfence o Activity Log mostrano le richieste bot con user agent, ma sono più lenti da analizzare.

Strategia di gestione: i 4 livelli

Non esiste una strategia unica. Ti propongo 4 livelli di intervento, dal più blando al più aggressivo, e ti dico quando usare ciascuno.

Livello 1: robots.txt permissivo

Per siti che vogliono essere citati dai motori AI e non hanno problemi di banda.

User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ClaudeBot
Allow: /blog/

User-agent: PerplexityBot
Allow: /

User-agent: CCBot
Allow: /

Quando usarlo: blog, siti editoriali, knowledge base aperte, consulenza.

Livello 2: robots.txt granulare con rate limit

Per siti che vogliono essere citati ma non consumare banda eccessiva.

User-agent: GPTBot
Allow: /
Crawl-delay: 10

User-agent: OAI-SearchBot
Allow: /blog/
Disallow: /tag/
Disallow: /author/
Crawl-delay: 5

User-agent: ClaudeBot
Allow: /
Crawl-delay: 15

User-agent: PerplexityBot
Allow: /
Crawl-delay: 5

User-agent: CCBot
Disallow: /

Quando usarlo: siti medio-grandi, portali con molte pagine indicizzate, pubblicazioni tecniche.

Livello 3: blocco selettivo per user agent non identificati

Per siti che vogliono il controllo completo, bloccando i bot che non si identificano chiaramente.

# blocca bot senza user agent
User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /

User-agent: GPTBot
Allow: /blog/

User-agent: ClaudeBot
Allow: /blog/

User-agent: PerplexityBot
Allow: /blog/

Attenzione: bloccare i bot senza user agent può rompere monitoraggio, health check, e tool interni. Usalo con cognizione.

Livello 4: bot protection a livello applicazione

Per siti ad alto traffico, WooCommerce, o piattaforme con problemi di performance.

Usa plugin come Wordfence, SolidWP, o Cloudflare Bot Fight Mode. Ogni plugin ha i suoi pro e contro:

  • Wordfence: regex avanzate, geoblocking, sfide JavaScript.
  • Cloudflare Bot Fight Mode: challenge JS automatici, gestione a livello edge.
  • SolidWP (ex iThemes Security): blocking basato su signature, meno invasivo.

Quando usarlo: e-commerce, siti con problemi di banda, portali WooCommerce, siti con bot maleducati specifici.

Configurazione ottimale per un blog WordPress nel 2026

Per un blog editoriale tecnico come questo, applico questa configurazione ibrida: robots.txt granulare + bot protection a livello CDN.

robots.txt:

# consenti motori AI principali con rate limit
User-agent: GPTBot
Allow: /blog/
Disallow: /wp-admin/
Crawl-delay: 10

User-agent: OAI-SearchBot
Allow: /blog/
Crawl-delay: 5

User-agent: ChatGPT-User
Allow: /blog/

User-agent: ClaudeBot
Allow: /blog/
Crawl-delay: 15

User-agent: Claude-User
Allow: /blog/

User-agent: PerplexityBot
Allow: /blog/
Crawl-delay: 5

User-agent: Perplexity-User
Allow: /blog/

User-agent: Google-Extended
Allow: /blog/

User-agent: Applebot-Extended
Allow: /blog/

User-agent: CCBot
Disallow: /

# blocca bot maleducati noti
User-agent: Bytespider
Disallow: /

User-agent: ImagesiftBot
Disallow: /

# consenti tutto il resto con default
User-agent: *
Disallow: /wp-admin/
Allow: /

Plugin consigliati:

  • Cloudflare (free plan): bot fight mode + WAF rules custom per bot AI
  • Wordfence: regex personalizzate per bloccare bot che ignorano robots.txt
  • WP Cloudflare Super Page Cache: caching edge per ridurre impatto PHP

Impatto sui Core Web Vitals

I crawler AI scaricano risorse come gli utenti: HTML, CSS, JS, immagini. Ma non eseguono JavaScript come fa un browser. Quindi non impattano LCP/INP direttamente. Impatto indiretto però c'è: se il tuo server è sotto carico, anche l'utente umano soffre.

Soluzione: caching aggressivo lato server o CDN. Con Cloudflare o Fastly, anche con 10.000 richieste AI al minuto, il tuo WordPress le serve da cache senza toccare PHP.

Snippet di configurazione WP Rocket + Cloudflare:

# imposta cache page per tutti i bot (WordPress wp-config.php)
define('WP_CACHE', true);
define('WP_ROCKET_WHITE_LABEL_FOOTER', false);
# esclude user agent bot dal caching per evitare problemi di personalizzazione
add_filter('rocket_cache_reject_ua', function($uas){
    $uas[] = 'facebookexternalhit';
    return $uas;
});

Monitoraggio e dashboard

Non ottimizzi ciò che non misuri. Ecco la mia dashboard minima mensile:

# report mensile crawler AI (eseguilo il primo del mese)
LOG=/var/log/nginx/access.log
MONTH=$(date -d "last month" +%Y/%m)
echo "=== Report crawler AI $MONTH ==="
grep "$MONTH" $LOG | grep -E 'GPTBot|ClaudeBot|PerplexityBot|OAI-SearchBot|CCBot' \
  | awk -F'"' '{print $6}' | sort | uniq -c | sort -rn
echo "=== Top URL crawlate ==="
grep "$MONTH" $LOG | grep -E 'GPTBot|ClaudeBot' \
  | awk '{print $7}' | sort | uniq -c | sort -rn | head -10

Per chi non ha accesso SSH al server, plugin come WP Statistics o Matomo Cloud mostrano il traffico bot per categoria.

Caso reale: blog tecnico con 3.000 articoli

Un cliente con blog WordPress da 3.000 articoli, 80.000 visitatori unici/mese, hosting VPS 4 vCPU, ha visto nel 2025 un'esplosione di traffico AI che ha portato il server a saturazione 3-4 volte a settimana.

Soluzione applicata:

  1. robots.txt granulare con rate limit specifici (vedi esempio sopra)
  2. Cloudflare con cache aggressiva e bot fight mode
  3. Wordfence con regex custom per bloccare Bytespider, AhrefsBot, SemrushBot (bot aggressivi che non servono il business)
  4. Esclusione dal caching di pagine autenticate o con cookie personalizzati

Risultato a 60 giorni: carico CPU sceso da 75% medio a 25%, banda ridotta del 40%, zero downtime, citazioni su Perplexity passate da 0 a 23/mese.

Errori comuni da evitare

  1. Bloccare tutto indiscriminatamente: perdi opportunità di citazione e traffico referral.
  2. Bloccare Googlebot per errore: succede con regex troppo aggressive su Wordfence. Fai sempre un test dopo ogni regola.
  3. Ignorare i log: i crawler cambiano strategia ogni mese, devi monitorare.
  4. Dimenticare CDN: senza caching edge, la gestione robots.txt serve a poco su siti medio-grandi.
  5. Non documentare le regole: dopo 6 mesi non ricordi più cosa hai bloccato. Tieni un file ai-bot-policy.md con tutte le decisioni.

FAQ su AI bot e WordPress

Devo bloccare GPTBot? Dipende dal modello di business. Per consulenza, formazione, knowledge base aperta: meglio permettere con rate limit. Per e-commerce, paywall, contenuti originali protetti: meglio bloccare.

PerplexityBot ignora robots.txt? Sì, in alcuni casi. Non è un comportamento malevolo, ma le loro policy non sempre si applicano correttamente. Per proteggersi davvero serve bot protection a livello applicazione.

Quanto traffico AI è troppo? Soggettivo. Se il tuo server regge e il budget è sano, non c'è un limite fisso. Se noti degrado di performance, intervieni.

Posso tracciare le citazioni effettive? Sì, vedi sezione monitoraggio. Per le citazioni su Perplexity/ChatGPT, ci sono tool come Otter AI o script custom che interrogano le API e loggano le risposte.

Cloudflare Bot Fight Mode funziona sui bot AI? Sì, identifica e challenge-i bot noti. Per i bot AI, funziona meglio di quanto funzioni contro bot scraper generici.

Devo aggiornare robots.txt spesso? Almeno ogni 3 mesi, perché nuovi bot emergono e quelli esistenti cambiano comportamento. Tieni una routine di revisione.

WordPress ha plugin nativo per gestire i bot AI? No, ma Rank Math, Wordfence, SolidWP hanno opzioni specifiche. Plugin dedicati emergenti nel 2026: AI Bot Blocker, Bot Manager Pro.

Conclusione operativa: la tua checklist AI bot

I crawler AI non sono né buoni né cattivi, sono un nuovo tipo di traffico che va gestito con consapevolezza. WordPress ti dà gli strumenti per farlo a livello di robots.txt, plugin e CDN.

Checklist operativa per il prossimo mese:

  • Analizza i log: quali bot AI visitano il tuo sito oggi?
  • Decidi la policy: permettere, bloccare o rate-limitare per ciascuno
  • Aggiorna robots.txt con regole granulari
  • Configura Cloudflare con bot fight mode e cache aggressiva
  • Monitora il carico del server: picchi anomali? Banda in crescita?
  • Valuta l'impatto sulle citazioni: stai guadagnando o perdendo?
  • Documenta le decisioni in un file ai-bot-policy.md

Riferimenti utili

  • Lista bot AI aggiornata: <https://github.com/ai-robots-txt/ai.robots.txt>
  • Cloudflare bot protection: <https://www.cloudflare.com/it-it/products/bot-management/>
  • Wordfence plugin: <https://www.wordfence.com/>
  • Kinsta AI bot report: <https://kinsta.com/ai-bot-traffic/>
  • WooCommerce bot protection: <https://kinsta.com/blog/woocommerce-bot-traffic/>
  • OpenAI bot documentation: <https://platform.openai.com/docs/plugins/bot>
  • Anthropic bot policy: <https://www.anthropic.com/bot-policy>
  • Perplexity bot docs: <https://docs.perplexity.ai/guides/bots>
  • WPVibe e MCP per WordPress (articolo interno): <https://www.mrtux.it/wpvibe-mcp-wordpress-gestire-sito-claude-chatgpt>
  • WordPress 7.0 AI Connectors (articolo interno): <https://www.mrtux.it/wordpress-7-ai-connectors-guida-operativa>
  • Plugin WordPress piratati e sicurezza (articolo interno): <https://www.mrtux.it/plugin-piratati-sicurezza-wordpress>
  • Wordfence bot management: <https://www.wordfence.com/help/ai-bots/>

Autore articolo: Emilio Petrozzi

🌐 Creazione siti web dinamici e di commercio elettronico 🛍 assistenza WordPress 🌐 Con oltre 20 anni di esperienza nel settore, esperto nella realizzazione di soluzioni digitali personalizzate per il tuo business. 🚀

🔧 Offro assistenza WordPress completa, garantendo che il tuo sito sia sempre aggiornato e funzionante al meglio. 📈 Inoltre mi occupo dell'ottimizzazione per motori di ricerca (SEO), assicurando che il tuo sito sia sempre facilmente rintracciabile dai tuoi clienti. 💻

📢 Le mie campagne pubblicitarie web sono progettate per aumentare la visibilità del tuo brand e generare traffico di qualità verso il tuo sito. 🔒 Inoltre la sicurezza informatica è una priorità in modo tale da garantire i tuoi dati e quelli dei tuoi clienti.

🤝 Affidati a mrtux.it per un servizio professionale e di qualità, e porta il tuo business al successo nel mondo digitale! 🎯

🔑 #CreazioneSitiWeb #Ecommerce #AssistenzaWordPress #OttimizzazioneSEO #SicurezzaInformatica

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *


Aricoli correlati

Emilio Petrozzi  P. I.V.A. IT03080230604 - Professionista ai sensi della Legge 4/2013