Crawlerul care nu mai cere voie

Dacă ai un site și urmărești logurile de server, probabil ai observat deja: ceva s-a schimbat în ultimele luni. Un crawler pe care nu-l chema Googlebot a început să bată la ușă mai des, mai rapid și cu mai multă insistență. Și nu e vorba de un bot obscur care scanează prețuri sau copiază conținut. E crawlerul oficial al ChatGPT.

Un studiu recent publicat pe Search Engine Journal, bazat pe analiza a 24,4 milioane de request-uri proxy, confirmă ce mulți suspectam: crawlerul ChatGPT-User a generat 133.361 de request-uri față de doar 37.426 ale Googlebot. Asta înseamnă un volum de 3,6 ori mai mare. Nu e o fluctuație statistică. E o tendință structurală.

Noi, la difrnt., monitorizăm crawl-urile AI pe site-urile clienților din Q3 2025. Și ce vedem acolo confirmă numerele din studiu. Dar mai important decât volumul e ce faci cu informația asta, pentru că modul în care tratezi crawlerii AI azi va determina cât de vizibil ești în rezultatele lor mâine.

Doi crawleri OpenAI, două scopuri complet diferite

Primul lucru pe care trebuie să-l înțelegi: OpenAI nu are un singur crawler. Are doi, și fac lucruri fundamental diferite. Confuzia dintre ei e una dintre cele mai frecvente greșeli pe care le vedem în audit-urile tehnice.

ChatGPT-User e crawlerul care accesează pagini în timp real, atunci când un utilizator pune o întrebare în ChatGPT și sistemul are nevoie de informații actuale. Practic, e echivalentul unui utilizator care dă click pe un link, doar că o face de milioane de ori pe zi. Acest crawler generează trafic referral real, care apare în Google Analytics 4 ca sursă de vizite.

GPTBot e crawlerul care colectează date pentru antrenarea modelelor. E cel pe care majoritatea site-urilor l-au blocat instinctiv prin robots.txt imediat ce a apărut. Problema? Mulți au blocat și ChatGPT-User în același timp, fără să realizeze că sunt crawleri complet diferiți, cu user agents diferiți.

Și aici e ironia situației: blochezi GPTBot ca să nu-ți folosească conținutul la training, dar blochezi și ChatGPT-User, care tocmai ar fi putut trimite trafic real către site-ul tău. E ca și cum ai pune lacăt pe ușa magazinului ca să nu-ți fure cineva marfa, dar uiți că și clienții intră pe aceeași ușă.

Am văzut site-uri de e-commerce din România care și-au blocat complet accesul boților OpenAI printr-un singur rând în robots.txt: User-agent: *GPT*. Rezultatul? Zero prezență în răspunsurile ChatGPT, în timp ce competitorii lor apar constant.

De ce Googlebot pierde teren (și de ce nu e neapărat o problemă)

Datele din studiu arată că Googlebot are o rată de succes de 96,3% în request-uri, față de 99,99% pentru ChatGPT-User. Diferența vine din faptul că Googlebot menține un index uriaș cu URL-uri vechi, redirecturi și pagini care nu mai există de ani de zile. Crawlerul ChatGPT, neavând un index istoric, accesează doar ce e relevant acum.

Și la viteză diferențele sunt semnificative: 11 milisecunde pe request pentru ChatGPT-User, față de 84 milisecunde pentru Googlebot. De aproape 8 ori mai rapid. Asta înseamnă că într-un interval de timp echivalent, crawlerul ChatGPT poate procesa exponențial mai multe pagini.

Asta nu înseamnă că Googlebot devine irelevant. Google rămâne sursa principală de trafic organic pentru majoritatea site-urilor din România și din lume. Dar era agenților AI aduce noi consumatori de conținut care nu navighează ca oamenii. Ei cer, primesc și pleacă. Și dacă conținutul tău nu e acolo când cer, pur și simplu citează pe altcineva.

Conform Cloudflare, request-urile ChatGPT-User au crescut cu 2.825% year-over-year, iar crawling-ul total al boților AI a crescut de 15 ori în 2025. Cifrele sunt prea mari ca să le ignori, indiferent de dimensiunea business-ului tău.

Ce poți face practic, începând de azi

Nu e vorba să alegi între Google și AI. E vorba să fii pregătit pentru amândoi. Iată ce recomandăm clienților noștri și ce implementăm noi pe proiectele din portofoliu:

Verifică robots.txt linie cu linie. Asigură-te că nu blochezi ChatGPT-User dacă vrei să apari în răspunsurile ChatGPT. Blochează GPTBot separat dacă nu vrei ca datele tale să fie folosite la training. Sunt user agents diferiți și trebuie tratați ca atare. Un robots.txt bine configurat arată cam așa: permite ChatGPT-User, blochează GPTBot, permite OAI-SearchBot.

Monitorizează crawl-urile AI din loguri. Verifică logurile de server și identifică volumul real de request-uri de la boții AI. Dacă nu ai acces la loguri raw, instrumente ca Cloudflare Analytics sau chiar Vercel Analytics pot identifica traficul. Setează alerte pentru spike-uri neașteptate. Unii clienți ai noștri au descoperit că boții AI consumau 40% din bandwidth fără ca ei să știe.

Optimizează pentru răspunsuri, nu doar pentru ranking. Crawlerii AI caută conținut care răspunde direct la întrebări concrete. Structurează paginile cu date clare, arhitectură AI-ready și markup semantic. FAQ-urile, tabelele comparative și paragrafele care dau răspunsuri concrete au cele mai mari șanse să fie citate în răspunsurile AI.

Ține cont de cum ajunge conținutul tău în AI. Nu e doar despre crawling. E despre ce faci cu conținutul tău ca să fie selectat, citat și atribuit corect de către motoarele AI. Structured data, autor clar, date actualizate, surse citate.

Gândește crawl budget-ul din perspectiva AI. Dacă ChatGPT-User face de 3,6 ori mai multe request-uri decât Googlebot, serverul tău trebuie să fie pregătit pentru asta. Verifică timpii de răspuns sub load, asigură-te că CDN-ul funcționează corect și că infrastructura nu devine un bottleneck tocmai când un motor AI vrea să-ți indexeze conținutul.

Perspectiva de ansamblu

Trecerea de la un web dominat de Googlebot la unul în care crawlerii AI sunt jucătorii principali nu e un eveniment punctual. E un proces care se accelerează vizibil, iar datele din 2026 confirmă ce anticipam de un an: web-ul se consumă tot mai mult prin intermediari AI, nu prin browsere clasice.

Site-urile care tratează boții AI ca pe un inconvenient vor pierde vizibilitate în locurile unde tot mai mulți oameni caută informații. Iar în marketing, vizibilitatea pe care nu o ai e clientul pe care nu-l câștigi.

La difrnt., recomandarea noastră e simplă: nu bloca ce nu înțelegi și nu ignora ce nu măsori. Verifică-ți robots.txt, monitorizează-ți logurile și adaptează-te la noua realitate a crawling-ului. Cu date, nu cu instinct.