Contenuto articolo
- Introduzione: il crawler AI non è un visitatore qualunque
- Cosa sono i crawler AI e come differiscono dai bot tradizionali
- I dati reali: 10 miliardi di richieste
- Impatto tecnico su un sito WordPress
- Identificare i crawler AI nei log
- Strategia di gestione: i 4 livelli
- Configurazione ottimale per un blog WordPress nel 2026
- Impatto sui Core Web Vitals
- Monitoraggio e dashboard
- Caso reale: blog tecnico con 3.000 articoli
- Errori comuni da evitare
- FAQ su AI bot e WordPress
- Conclusione operativa: la tua checklist AI bot
- Riferimenti utili
Introduzione: il crawler AI non è un visitatore qualunque
Perdieci anniabbiamo gestito il traffico dei bot pensando a Googlebot, Bingbot, Baiduspider. Buoni e cattivi, certo. Ma il 2026 ha portato una nuova categoria: i crawler AI, che si comportano in modo radicalmente diverso da quelli tradizionali. Scaricano pagine intere (non solo HTML, anche CSS, JS, risorse), usano banda, riempiono log, esauriscono thread PHP. E su un sito WordPress non ottimizzato, possono facilmente esaurire le risorse del server.
In questa guida vediamo come gestirli in modo strategico, basandoci su dati reali di 10 miliardi di richieste e sull'analisi del comportamento dei principali crawler AI nel 2026.
Se invece ti interessa il tema AEO (diventare fonte citata dai modelli), leggi AEO WordPress: come farsi citare da ChatGPT, Perplexity e Claude. Per la sicurezza lato codice, vedi Supply chain attack nei plugin WordPress: come l'AI ha scoperto l'invisibile.
Cosa sono i crawler AI e come differiscono dai bot tradizionali
Un bot tradizionale (Googlebot, Bingbot) indicizza pagine per mostrarle nei risultati di ricerca. Un crawler AI raccoglie dati per allenare, aggiornare o interrogare un modello linguistico. Tre famiglie principali:
1. Crawler per addestramento. Raccoglie grandi quantità di testo per ri-allenare i modelli. Esempi: GPTBot (OpenAI), ClaudeBot (Anthropic), CCBot (Common Crawl, dataset usato da molti LLM), Google-Extended (training separato da ricerca Google), Applebot-Extended (per Apple Intelligence).
2. Crawler per ricerca in tempo reale. Alimenta funzionalità di search/answer engine in tempo reale. Esempi: OAI-SearchBot (ChatGPT Search), ChatGPT-User (prompt utente con browsing), PerplexityBot, Perplexity-User.
3. Crawler per assistenti personali. Raccoglie dati su richiesta quando l'utente chiede al suo assistente. Esempi: Claude-User, ChatGPT-User, Perplexity-User.
La differenza operativa è cruciale: i crawler di addestramento hanno volumi enormi e pattern regolari; i crawler di ricerca hanno volumi medio-alti con picchi; i crawler utente hanno volumi bassi ma imprevedibili.
I dati reali: 10 miliardi di richieste
L'analisi più citata del 2026 (Kinsta, primo semestre) parla chiaro:
- +300% di traffico AI bot in 12 mesi (gennaio 2025 - gennaio 2026).
GPTBotè il singolo crawler più aggressivo, con picchi di 5.000 richieste al minuto su siti medio-grandi.ClaudeBotè il più costante, con pattern orari prevedibili (lavora in finestre 9-17 UTC).PerplexityBotignora robots.txt nel 12% dei casi (analisi su 50.000 siti).CCBotè il meno identificabile, spesso si presenta con user agent generici.- I bot AI generano il 23% del traffico non umano su siti editoriali, il 6% su e-commerce.
Impatto tecnico su un sito WordPress
Vediamo i numeri reali su un'installazione WordPress standard (hosting condiviso medio, 2 vCPU, 4GB RAM, PHP 8.2, MySQL 8, 200 articoli, 50 plugin):
PHP-FPM. Ogni richiesta a index.php consuma un worker PHP. Con 200 worker/ora da GPTBot e un tempo medio di risposta 200ms, l'occupazione è trascurabile. Ma con 2.000 worker/ora (sito medio da 50.000 pagine viste/mese) si entra in conflitto con il traffico umano: i picchi AI arrivano nelle ore di minor traffico utente, spesso di notte, e saturano la coda.
MySQL. I crawler AI eseguono le stesse query degli utenti (post meta, option, term relationships). Su siti con wp_options gonfio (transient scaduti, autoload pesante), una raffica di crawler può trasformare una query da 50ms a 800ms.
Banda. Una pagina WordPress media (HTML + CSS + JS + immagini) pesa 1.5-3MB. Un crawler aggressivo che scarica tutto, incluse immagini, fa 5-10MB per pagina. 50.000 pagine/mese = 250-500GB di banda solo per quel bot.
Log. I log di accesso esplodono. Su un sito con 100.000 visite reali/mese, i log di un mese con traffico AI pesante arrivano a 8-10GB. Difficile da analizzare, archivio complicato.
Identificare i crawler AI nei log
Primo passo: sapere chi bussa. Ecco uno script bash per estrarre il traffico AI dai log Apache/Nginx:
# top 20 bot AI per richieste totali
grep -E 'GPTBot|ClaudeBot|PerplexityBot|OAI-SearchBot|ChatGPT-User|CCBot|Google-Extended|Applebot-Extended' /var/log/nginx/access.log \
| awk -F'"' '{print $6}' | sort | uniq -c | sort -rn | head -20
# banda totale consumata dai bot AI
grep -E 'GPTBot|ClaudeBot|PerplexityBot' /var/log/nginx/access.log \
| awk '{ sum += $10 } END { printf "Banda AI bot: %.2f MB\n", sum/1024/1024 }'
# picchi orari di GPTBot
awk '/GPTBot/ {print substr($4,14,2)}' /var/log/nginx/access.log | sort | uniq -c | sort -rn | head -10
Se non hai accesso diretto ai log, plugin come Wordfence o Activity Log mostrano le richieste bot con user agent, ma sono più lenti da analizzare.
Strategia di gestione: i 4 livelli
Non esiste una strategia unica. Ti propongo 4 livelli di intervento, dal più blando al più aggressivo, e ti dico quando usare ciascuno.
Livello 1: robots.txt permissivo
Per siti che vogliono essere citati dai motori AI e non hanno problemi di banda.
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ClaudeBot
Allow: /blog/
User-agent: PerplexityBot
Allow: /
User-agent: CCBot
Allow: /
Quando usarlo: blog, siti editoriali, knowledge base aperte, consulenza.
Livello 2: robots.txt granulare con rate limit
Per siti che vogliono essere citati ma non consumare banda eccessiva.
User-agent: GPTBot
Allow: /
Crawl-delay: 10
User-agent: OAI-SearchBot
Allow: /blog/
Disallow: /tag/
Disallow: /author/
Crawl-delay: 5
User-agent: ClaudeBot
Allow: /
Crawl-delay: 15
User-agent: PerplexityBot
Allow: /
Crawl-delay: 5
User-agent: CCBot
Disallow: /
Quando usarlo: siti medio-grandi, portali con molte pagine indicizzate, pubblicazioni tecniche.
Livello 3: blocco selettivo per user agent non identificati
Per siti che vogliono il controllo completo, bloccando i bot che non si identificano chiaramente.
# blocca bot senza user agent
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /
User-agent: GPTBot
Allow: /blog/
User-agent: ClaudeBot
Allow: /blog/
User-agent: PerplexityBot
Allow: /blog/
Attenzione: bloccare i bot senza user agent può rompere monitoraggio, health check, e tool interni. Usalo con cognizione.
Livello 4: bot protection a livello applicazione
Per siti ad alto traffico, WooCommerce, o piattaforme con problemi di performance.
Usa plugin come Wordfence, SolidWP, o Cloudflare Bot Fight Mode. Ogni plugin ha i suoi pro e contro:
- Wordfence: regex avanzate, geoblocking, sfide JavaScript.
- Cloudflare Bot Fight Mode: challenge JS automatici, gestione a livello edge.
- SolidWP (ex iThemes Security): blocking basato su signature, meno invasivo.
Quando usarlo: e-commerce, siti con problemi di banda, portali WooCommerce, siti con bot maleducati specifici.
Configurazione ottimale per un blog WordPress nel 2026
Per un blog editoriale tecnico come questo, applico questa configurazione ibrida: robots.txt granulare + bot protection a livello CDN.
robots.txt:
# consenti motori AI principali con rate limit
User-agent: GPTBot
Allow: /blog/
Disallow: /wp-admin/
Crawl-delay: 10
User-agent: OAI-SearchBot
Allow: /blog/
Crawl-delay: 5
User-agent: ChatGPT-User
Allow: /blog/
User-agent: ClaudeBot
Allow: /blog/
Crawl-delay: 15
User-agent: Claude-User
Allow: /blog/
User-agent: PerplexityBot
Allow: /blog/
Crawl-delay: 5
User-agent: Perplexity-User
Allow: /blog/
User-agent: Google-Extended
Allow: /blog/
User-agent: Applebot-Extended
Allow: /blog/
User-agent: CCBot
Disallow: /
# blocca bot maleducati noti
User-agent: Bytespider
Disallow: /
User-agent: ImagesiftBot
Disallow: /
# consenti tutto il resto con default
User-agent: *
Disallow: /wp-admin/
Allow: /
Plugin consigliati:
- Cloudflare (free plan): bot fight mode + WAF rules custom per bot AI
- Wordfence: regex personalizzate per bloccare bot che ignorano robots.txt
- WP Cloudflare Super Page Cache: caching edge per ridurre impatto PHP
Impatto sui Core Web Vitals
I crawler AI scaricano risorse come gli utenti: HTML, CSS, JS, immagini. Ma non eseguono JavaScript come fa un browser. Quindi non impattano LCP/INP direttamente. Impatto indiretto però c'è: se il tuo server è sotto carico, anche l'utente umano soffre.
Soluzione: caching aggressivo lato server o CDN. Con Cloudflare o Fastly, anche con 10.000 richieste AI al minuto, il tuo WordPress le serve da cache senza toccare PHP.
Snippet di configurazione WP Rocket + Cloudflare:
# imposta cache page per tutti i bot (WordPress wp-config.php)
define('WP_CACHE', true);
define('WP_ROCKET_WHITE_LABEL_FOOTER', false);
# esclude user agent bot dal caching per evitare problemi di personalizzazione
add_filter('rocket_cache_reject_ua', function($uas){
$uas[] = 'facebookexternalhit';
return $uas;
});
Monitoraggio e dashboard
Non ottimizzi ciò che non misuri. Ecco la mia dashboard minima mensile:
# report mensile crawler AI (eseguilo il primo del mese)
LOG=/var/log/nginx/access.log
MONTH=$(date -d "last month" +%Y/%m)
echo "=== Report crawler AI $MONTH ==="
grep "$MONTH" $LOG | grep -E 'GPTBot|ClaudeBot|PerplexityBot|OAI-SearchBot|CCBot' \
| awk -F'"' '{print $6}' | sort | uniq -c | sort -rn
echo "=== Top URL crawlate ==="
grep "$MONTH" $LOG | grep -E 'GPTBot|ClaudeBot' \
| awk '{print $7}' | sort | uniq -c | sort -rn | head -10
Per chi non ha accesso SSH al server, plugin come WP Statistics o Matomo Cloud mostrano il traffico bot per categoria.
Caso reale: blog tecnico con 3.000 articoli
Un cliente con blog WordPress da 3.000 articoli, 80.000 visitatori unici/mese, hosting VPS 4 vCPU, ha visto nel 2025 un'esplosione di traffico AI che ha portato il server a saturazione 3-4 volte a settimana.
Soluzione applicata:
- robots.txt granulare con rate limit specifici (vedi esempio sopra)
- Cloudflare con cache aggressiva e bot fight mode
- Wordfence con regex custom per bloccare
Bytespider,AhrefsBot,SemrushBot(bot aggressivi che non servono il business) - Esclusione dal caching di pagine autenticate o con cookie personalizzati
Risultato a 60 giorni: carico CPU sceso da 75% medio a 25%, banda ridotta del 40%, zero downtime, citazioni su Perplexity passate da 0 a 23/mese.
Errori comuni da evitare
- Bloccare tutto indiscriminatamente: perdi opportunità di citazione e traffico referral.
- Bloccare Googlebot per errore: succede con regex troppo aggressive su Wordfence. Fai sempre un test dopo ogni regola.
- Ignorare i log: i crawler cambiano strategia ogni mese, devi monitorare.
- Dimenticare CDN: senza caching edge, la gestione robots.txt serve a poco su siti medio-grandi.
- Non documentare le regole: dopo 6 mesi non ricordi più cosa hai bloccato. Tieni un file
ai-bot-policy.mdcon tutte le decisioni.
FAQ su AI bot e WordPress
Devo bloccare GPTBot? Dipende dal modello di business. Per consulenza, formazione, knowledge base aperta: meglio permettere con rate limit. Per e-commerce, paywall, contenuti originali protetti: meglio bloccare.
PerplexityBot ignora robots.txt? Sì, in alcuni casi. Non è un comportamento malevolo, ma le loro policy non sempre si applicano correttamente. Per proteggersi davvero serve bot protection a livello applicazione.
Quanto traffico AI è troppo? Soggettivo. Se il tuo server regge e il budget è sano, non c'è un limite fisso. Se noti degrado di performance, intervieni.
Posso tracciare le citazioni effettive? Sì, vedi sezione monitoraggio. Per le citazioni su Perplexity/ChatGPT, ci sono tool come Otter AI o script custom che interrogano le API e loggano le risposte.
Cloudflare Bot Fight Mode funziona sui bot AI? Sì, identifica e challenge-i bot noti. Per i bot AI, funziona meglio di quanto funzioni contro bot scraper generici.
Devo aggiornare robots.txt spesso? Almeno ogni 3 mesi, perché nuovi bot emergono e quelli esistenti cambiano comportamento. Tieni una routine di revisione.
WordPress ha plugin nativo per gestire i bot AI? No, ma Rank Math, Wordfence, SolidWP hanno opzioni specifiche. Plugin dedicati emergenti nel 2026: AI Bot Blocker, Bot Manager Pro.
Conclusione operativa: la tua checklist AI bot
I crawler AI non sono né buoni né cattivi, sono un nuovo tipo di traffico che va gestito con consapevolezza. WordPress ti dà gli strumenti per farlo a livello di robots.txt, plugin e CDN.
Checklist operativa per il prossimo mese:
- Analizza i log: quali bot AI visitano il tuo sito oggi?
- Decidi la policy: permettere, bloccare o rate-limitare per ciascuno
- Aggiorna robots.txt con regole granulari
- Configura Cloudflare con bot fight mode e cache aggressiva
- Monitora il carico del server: picchi anomali? Banda in crescita?
- Valuta l'impatto sulle citazioni: stai guadagnando o perdendo?
- Documenta le decisioni in un file
ai-bot-policy.md
Riferimenti utili
- Lista bot AI aggiornata
- Cloudflare bot protection
- Wordfence plugin
- Kinsta AI bot report
- WooCommerce bot protection
- OpenAI bot documentation
- Anthropic bot policy
- Perplexity bot docs
- WPVibe e MCP per WordPress (articolo interno)
- WordPress 7.0 AI Connectors (articolo interno)
- Plugin WordPress piratati e sicurezza (articolo interno)
- Wordfence bot management




Lascia un commento