Co boty AI naprawdę robią na stronie: analiza logów serwera

Zofia Żak · Założycielka · ROI and Shine

Opublikowano: 2 czerwca 2026

Własne badanie logów ROI & Shine: 18% „Googlebota” to spoof, fetchery AI nie renderują JavaScriptu i biorą o wiele więcej, niż odsyłają. Nasze dane, nasza analiza.

Co boty AI naprawdę robią na stronie: analiza logów serwera

TL;DR

4,3% całego deklarowanego ruchu botów nie przeszło weryfikacji, a 18% żądań „Googlebota" to podszywanie się (spoofing). Podszywacze celują w najbardziej zaufaną markę; Bing, Apple i Perplexity zweryfikowane w 100%.
Zero żądań crawlerów treningowych przez cały miesiąc (GPTBot, ClaudeBot, CCBot, Bytespider, Google-Extended), mimo robots.txt „pozwól na wszystko". Świeża, mała witryna jest po prostu poniżej progu masowego crawlu.
Fetchery AI (boty pobierające stronę na żywo) wzięły 0% assetów, żadnych plików JS, CSS, obrazów. Klasyczne boty wyszukiwarek: 42 do 79%. Silniki AI nie renderowały JavaScriptu. HTML server-side (gotowy po stronie serwera) to warunek konieczny, nie optymalizacja.
Crawl-to-refer (ile stron bot pobiera na jedno odesłanie użytkownika) wyniósł ∞ dla ChatGPT i Apple, 103:1 dla Binga, 3,5:1 dla Google. Tylko Google odwzajemnił się mniej więcej po równo, lepiej niż globalny punkt odniesienia ~5:1.
„Skok Claude" o 821 żądaniach okazał się naszym własnym serwerem MCP w WordPressie, nie widocznością. To korekta, którą większość analiz po cichu zaksięgowałaby jako ruch AI.

Każdy bot AI zostawia w logach serwera ślad. Które strony pobiera. Czy wykonuje twój JavaScript. Jak rzadko odsyła człowieka z powrotem. Ten ślad to jedyny twardy pomiar widoczności w AI, jaki istnieje. Cała reszta to ankieta.

Pierwszy raz przy tym temacie? Zacznij od wyjaśnienia mechanizmu: GEO vs SEO: jak AI wybiera źródła.

Większość treści o GEO nigdy nie robi tego, co zrobiłam tutaj. Wzięłam świeżo zmigrowaną domenę, nową witrynę testową z nowym kontentem. Podpięłam logi serwera od pierwszego dnia. I patrzyłam, co boty LLM naprawdę robią.

A wszystko to, zanim jakikolwiek dashboard pokazał choćby jedno cytowanie.

Próba jest mała. I o to właśnie chodzi. Nowa, mała witryna to dokładnie ten przypadek, którego nikt nie mierzy. Dlatego „zera", które znalazłam, to wyniki, nie braki w danych.

Mówią dwie rzeczy. Pierwsza: co maszyna masowego crawlu (bulk crawl, hurtowe pobieranie stron do bazy) po prostu ignoruje. Druga: co odpala się w sekundzie, gdy żywy człowiek pyta chatbota o ciebie.

Próba, uczciwie: N = 43 345 żądań HTTP w 26 dni (3 do 29 maja 2026), jedna świeżo zmigrowana domena testowa, bez CDN i proxy z przodu, 100% sparsowanych linii logu. IP botów sprawdzone wobec opublikowanych zakresów OpenAI/Anthropic/Perplexity oraz przez forward-confirmed reverse DNS (dwukierunkowe potwierdzenie nazwy i adresu IP) dla Google/Bing/Apple. Ograniczenia są realne i zaznaczam je w tekście: mała próba z jednej domeny, jeden miesiąc, brak połączenia z Google Search Console.

Kto to przeprowadził i dlaczego akurat logi?

Logi serwera czytam od 2013 roku, na długo, zanim „crawler AI" stał się w ogóle pojęciem. Z moim zespołem SEO zbudowaliśmy własny system analizy logów na Kibanie, gdy nie istniało jeszcze żadne gotowe narzędzie do tego zadania. Później czytałam logi na takich marketplace'ach jak Machineryzone, Agriaffaires i leboncoin oraz w e-commerce typu expondo.

AI nie zmieniło tu jednej reguły. Każda migracja, każdy audyt zaczyna się od logu. GEO dokłada tylko nowych aktorów do tego samego pliku dostępu. Przez dwanaście lat czytania logów wzorzec, który się nie zmienia, jest jeden: log mówi prawdę, dashboard opowiada historię. To badanie jest moje, od początku do końca, metodologia, parsowanie, weryfikacja.

Dlaczego więc w erze AI logi liczą się bardziej, nie mniej? Narzędzia GEO oparte na ankiecie wielokrotnie odpytują modele i zliczają twoje wzmianki. To przydatne. Ale to sondaż tego, co model mówi.

Log to jedyne miejsce, gdzie widać, co model robi. Każde pobranie, każdy bajt, każdy kod statusu, przypisany do zweryfikowanego IP. Moja zasada jest prosta: jeśli tezy o GEO nie da się prześledzić do konkretnej linijki logu, potraktuj ją jak marketing.

Pod tym wszystkim leży jedno europejskie zastrzeżenie. Logi zapisują adresy IP, a w świetle prawa UE adres IP to dane osobowe. Odpowiedzialna praca z logami oznacza więc: pseudonimizuj wcześnie, trzymaj krótko, nigdy nie pokazuj surowych IP w raporcie. Ta dyscyplina nie jest podatkiem od analizy, ona jest analizą. Bo ta sama staranność, która chroni odwiedzającego, łapie podszywacza.

Ile „ruchu botów" jest fałszywe? 4,3% ogółem, 18% Googlebota

Jeśli liczysz boty po user-agencie (etykiecie, którą bot sam o sobie podaje), liczysz kłamców. Z 3 161 żądań, które zadeklarowały się jako znany bot, 135 (4,3%) nie przeszło weryfikacji wobec opublikowanych zakresów IP i forward-confirmed reverse DNS.

Ale średnia ukrywa prawdziwą historię. Podszywanie się nie rozłożyło się równo. Skupiło się na jednej, najbardziej zaufanej nazwie w sieci:

Deklarowany bot	Odsetek podszyć	Weryfikacja
Googlebot	18,1% (100/554)	FCrDNS
Claude-User	3,6% (31/852)	CIDR Anthropic
ChatGPT-User	1,1% (4/356)	CIDR OpenAI
Bingbot, Applebot, Googlebot-Image, Perplexity	0%	FCrDNS / CIDR

Pod Googlebota podszywało się 68 różnych adresów IP. Pięćdziesiąt dziewięć z nich nie miało żadnego rekordu reverse DNS. Dziewięć rozwiązywało się do hostów, które z Google nie mają nic wspólnego, colocationamerica.com, acedatacenter.com, amazonaws.com, pbiaas.com, porozrzucanych po tanim hostingu w Rosji, Ukrainie i Niemczech. Prawdziwy Googlebot (52 IP) zawsze rozwiązuje się do nazwy kończącej się na googlebot.com lub google.com. Bez wyjątków.

Co tu się więc naprawdę dzieje? Podszywanie się to sztuczka na pożyczonym autorytecie. Nikt nie zadaje sobie trudu, by udawać Applebota, nie ma tam zaufania, które warto by ukraść.

Udają Googlebota, bo trzydzieści lat zasady „po prostu przepuść Googlebota" jest wpisane w każdą regułę firewalla na świecie. Widziałam to przez kilka cykli migracji i cel nigdy się nie przesuwa: podszywacze zawsze gromadzą się wokół tej jednej nazwy, którą wszyscy machają ręką.

Jedno zastrzeżenie: to test prawdziwości, nie intencji. Nie powiem ci, którzy podszywacze byli scraperami konkurencji SEO, a którzy działali złośliwie. Endpoint z opublikowanym zakresem IP Google podczas mojego biegu zwracał pustkę. Dlatego forward-confirmed reverse DNS, własna, kanoniczna metoda Google, był moją jedyną weryfikacją dla Google i Binga.

Odsetek podszytych żądań wg deklarowanego bota, badanie logów ROI & Shine, maj 2026

Czy crawlery treningowe się pojawiły? Ani razu

To pierwsze celowe „zero". Przez cały miesiąc GPTBot, ClaudeBot, CCBot, Bytespider, Google-Extended i Amazonbot wykonały zero żądań. Ani jednego. A robots.txt (z czasów WordPressa z Yoastem) miał pustą dyrektywę Disallow:, drzwi stały otworem na oścież, także dla crawlerów treningowych.

Crawler treningowy, dla jasności, to bot, który zbiera strony, by zasilić zbiór treningowy modelu. Żaden z nich nie przyszedł.

To przeczy nagłówkom z głównych raportów makro. I właśnie ta sprzeczność jest wynikiem. Botify, analizując ~7 mld plików logów, raportuje, że crawl OpenAI potroił się od premiery GPT-5, a aktywność GPTBota wzrosła 2,9×. W skali całej sieci, prawda. Ale te same dane Botify pokazują, że crawl OpenAI to ledwie ~4% wolumenu Google (887 mln vs 18,2 mld zdarzeń na 30 dni).

A świeżo zmigrowana mała witryna jest poniżej progu, którym masowy crawler treningowy w ogóle się przejmuje. Wersja makro brzmi: „AI crawluje wszystko, mocniej niż kiedykolwiek". Mikro-rzeczywistość nowej domeny jest prostsza. Maszyna treningowa jeszcze cię nie zauważyła. Ograniczenie: jeden miesiąc, brak punktu odniesienia sprzed migracji.

Które więc boty AI przyszły, i w jakim trybie?

Boty AI faktycznie się pojawiły, ale nierówno. Zweryfikowane, organiczne pobrania AI:

Aktor AI	Zweryfikowane żądania	Unikalne URL	Uwaga
ChatGPT-User	352	45	Pobranie wywołane przez użytkownika
Perplexity (User + Bot)	4		Marginalne
OAI-SearchBot	0		Brak masowego crawlu wyszukiwania
Claude (organicznie)	0		Patrz korekta MCP niżej

To znów wywraca trend makro do góry nogami. Botify raportuje, że OAI-SearchBot globalnie wyprzedził już GPTBota, a ruch ChatGPT-User spadł o 28% (XII 2025 → III 2026). Na mojej domenie OAI-SearchBot to zero, a ChatGPT-User rozdaje karty.

Odczyt jest czysty. Świeża, mała witryna dostaje pobrania wywołane przez użytkownika, ktoś pyta ChatGPT o stronę, a model idzie i czyta ją na żywo. Nie ma za to masowego indeksowania przez SearchBota.

To zupełnie inny świat niż u dużego, ugruntowanego wydawcy. I mówi dokładnie, skąd bierze się wczesna widoczność w AI: z człowieka wpisującego pytanie, nie z budżetu crawlu.

Czy boty AI renderują JavaScript? Nie, pobrały 0% assetów

To najważniejszy wynik w praktyce, i jednoznaczny. Udział żądań o assety (pliki JS, CSS, obrazy) w podziale na boty:

Bot	Udział żądań o assety
ChatGPT-User	0%
Perplexity	0%
Bingbot	42,1%
Googlebot	60,1%
Applebot	78,9%

Fetchery AI pobrały HTML i nic więcej. Żadnych arkuszy stylów, żadnych skryptów, żadnych obrazów. Klasyczne boty wyszukiwarek pobierały assety tak, jak musi to robić każdy silnik renderujący stronę.

Wniosek pisze się więc sam. Fetchery AI nie renderują, nie wykonują JavaScriptu strony. Fetcher to bot, który pobiera stronę na żywo, by odpowiedzieć na jedno pytanie. Jeśli twoja treść doczytuje się dopiero po stronie przeglądarki, fetcher po prostu nigdy jej nie zobaczy.

To nie jest „miło mieć". Dla widoczności w AI treść musi być w HTML gotowym po stronie serwera, SSR albo SSG. Kropka.

I to jest cały powód, dla którego zejście ze stosu zależnego od JS to warunek konieczny pojawienia się w odpowiedziach AI. Nie kosmetyka pod kątem szybkości, którą można zrobić później. Zastrzeżenie: brak żądań o assety to mocny, ale pośredni dowód braku renderowania, sygnał zastępczy, nie podsłuch ruchu sieciowego.

Udział żądań o assety wg bota, fetchery AI pobierają tylko HTML, ROI & Shine, maj 2026

Jaki jest realny crawl-to-refer? ChatGPT bierze 352, odsyła 0

Crawl-to-refer to liczba stron, które platforma pobiera na jednego odesłanego z powrotem człowieka. To metryka, którą do obiegu wprowadził Cloudflare. Oto moja, jako proporcja, obok globalnych punktów odniesienia:

Platforma	Nasz crawl : refer	Benchmark globalny (Cloudflare / SEOmator 2026)
OpenAI / ChatGPT	352 : 0 (∞)	~1 252 : 1 (było 785:1 → 1 851:1 → 1 252:1)
Apple	869 : 0 (∞)
Bing	516 : 5 (103 : 1)
Google	464 : 131 (3,5 : 1)	~5 : 1
Perplexity	4 : 1 (4 : 1)	~95 : 1
Anthropic / Claude	0 organicznie : 33 (0 : 1)	~13 528 : 1 (do 20 583:1)

Dwa odczyty, oba uczciwe. Kierunek potwierdzam. AI bierze ogromnie dużo i oddaje niemal nic. Tylko Google gra mniej więcej fair, moje 3,5:1 jest nawet lepsze niż globalny punkt odniesienia ~5:1. Ten sam wzorzec, który Cloudflare i SEOmator widzą w całej sieci, odtworzył się na jednej świeżej domenie.

Ale liczbie Anthropic przeczę, a powód to korekta, którą rozplątuję tuż niżej. Globalnie Anthropic to najbardziej zachłanny bot w historii pomiarów (~13 528:1). Na mojej domenie pokazuje zero organicznego crawlu i 33 odesłania (0:1), pozornie najbardziej wzajemny ze wszystkich.

To odwrócenie jest artefaktem, nie triumfem. I właśnie w jego rozplątaniu kryje się cały rygor. Zastrzeżenie: liczby odesłań są zaniżone, bo platformy AI usuwają nagłówek Referer:, samych odesłań jest bardzo mało, a nie mam połączenia z Google Search Console, te proporcje są orientacyjne, nie precyzyjne.

Korekta: „skok Claude", którym byliśmy my sami

Sądząc po samym user-agencie, Claude-User wyglądał na zdecydowanego lidera ruchu AI, 852 żądania, jakieś 4× tyle co ChatGPT-User. Byłby z tego świetny nagłówek. Był też całkowicie błędny.

821 z tych 852 żądań to POST-y na adres /wp-json/stifli-flex-mcp/v1/messages. To endpoint serwera MCP we wtyczce WordPressa, odpytywany z 5 adresów IP z zakresu wyjściowego Anthropic (160.79.104.0/21). To wywołania protokołu Model Context Protocol, moja własna automatyzacja, nie crawl pod widoczność. Mówiąc wprost: moje narzędzie rozmawiało z moją stroną.

Po ich odsianiu organiczna widoczność Claude wynosi zero. Zgadza się to z punktem wyjścia mojego trackera GEO, 0/30 wzmianek.

Gdybym tego nie rozdzieliła, każda kolejna metryka byłaby skażona, tabela crawl-to-refer, tytuł „lidera ruchu AI", wszystko. To dokładnie ten typ korekty, którego narzędzie ankietowe zrobić nie potrafi, a większość dashboardów logów nigdy nie robi. Liczą POST-y jako Anthropic i jadą dalej. Założenie: to ruch właściciela, w przeważającej mierze prawdopodobne przy wąskim zakresie 5 IP i nieustannym wzorcu POST.

A „ciężki kaliber", Bing i pożeracze assetów?

Dwa kolejne wyniki warte uwagi praktyka, oba z moich własnych danych.

Bing pobrał 117,9 MB, 3× więcej transferu niż wszystkie pozostałe boty razem. Bing to 73% całego transferu botów przy zaledwie 23% żądań. Googlebot działa na odwrót: dużo żądań, mało bajtów, oszczędny i oparty na metodzie HEAD. Applebot 29,5 MB, ChatGPT-User 10,4 MB, Googlebot 3,5 MB.
To Bingbot pokrył witrynę najszerzej, 290 unikalnych adresów URL, około 2× tyle co Googlebot (99). Applebot 119, ChatGPT-User 45. Na małej, świeżej domenie to Bing crawluje najszerzej. A to przeczy reputacji Google jako lidera wolumenu. Zastrzeżenie: szerokość crawlu to nie to samo co jakość indeksacji.

A o bezpieczeństwie, obraz był spokojny. Zero trafień zweryfikowanych botów w ścieżki wrażliwe, żadnego wp-login.php, żadnego xmlrpc.php, nic w wp-admin poza admin-ajax. Jedyny wyjątek to Googlebot, który raz trafił w /wp-json/complianz, czyli API zgód na cookies.

Witryna była całkowicie otwarta: robots.txt „pozwól na wszystko", bez dyrektyw dla AI. Formalnie więc zero naruszeń, ale też zero ochrony przed crawlerami treningowymi.

I stąd świadoma decyzja na nowym stosie. Po migracji robots.txt powinien celowo zająć stanowisko wobec GPTBot, CCBot i Google-Extended, zgoda czy odmowa na trening. Nie powinien przez przypadek dziedziczyć pustej dyrektywy Disallow:.

Szerszy kontekst: pole cytowań się zagęszcza

Dla świeżej domeny trend makro ma znaczenie. Pomiar Resoneo (za Dataconomy) pokazał, jak zmieniło się cytowanie źródeł przez ChatGPT po przejściu na GPT-5.3 Instant. Średnia liczba domen cytowanych na jedną odpowiedź spadła o ~20% (z 19 do 15), a adresów URL, z 24 do 19. Zmierzono to na 27 000 odpowiedzi (400 promptów dziennie × 14 tygodni). Mój ChatGPT-User crawlował płytko, raptem 45 unikalnych URL-i. Pasuje to do schematu „mniej witryn, ale głębiej".

Jest tu też warstwa europejska. Te wzorce cytowań mierzy się głównie na promptach po angielsku. Ale rynki, na których pracuję, polski, niemiecki, francuski, mają każdy własną, płytszą pulę cytowań. Tam pojedyncze zaufane źródło waży nieporównanie więcej. W wielojęzycznej sieci bycie tą cytowaną domeną we własnym języku to osobny rodzaj fosy.

Dla świeżo zmigrowanej domeny przy starcie GEO 0/30 to rosnąca bariera wejścia. Pole cytowań zagęszcza się na coraz mniejszej liczbie zaufanych domen, dokładnie wtedy, gdy próbujesz się do niego wbić. To korelacja, nie przyczyna, ale kierunek jest dość jasny: buduj zaufanie do swojej marki jako encji wcześnie i ostro.

Dokąd poszedł ruch botów: zero crawla treningowego, cienka warstwa fetcherów AI, klasyczny search robi robotę, ROI & Shine, maj 2026

Co to badanie oznacza dla twojej konfiguracji w 2026

Weryfikuj boty po IP, nigdy po user-agencie. Nawet 18% twojego „Googlebota" może być oszustami.
Podawaj HTML gotowy po stronie serwera. Fetchery AI nie renderują JavaScriptu. SSR/SSG to warunek konieczny widoczności w AI, nie upgrade.
Policz swój crawl-to-refer z własnych logów. Punkty odniesienia rzędu 13 528:1 to średnie sieciowe, nie twoja liczba.
Odetnij własną automatyzację, MCP, monitoring, narzędzia wewnętrzne, zanim cokolwiek zmierzysz. Inaczej policzysz samego siebie jako bota.
Świadomie zdecyduj o robots.txt. „Pozwól na wszystko" z rozpędu to brak decyzji o twoich danych treningowych.
Traktuj IP jako dane osobowe. Pseudonimizuj, trzymaj krótko, nigdy nie publikuj surowych adresów. W świetle prawa UE to obowiązek, i wyostrza analizę, a nie spowalnia.

Raporty makro mają rację co do całej sieci. Milczą za to o świecie, w którym naprawdę żyje nowa, mała witryna. A ten świat widać tylko w jednym miejscu: w twoich własnych logach.

Chcesz to odpalić na swojej domenie? Zobacz usługi GEO i SEO ROI & Shine albo wejdź głębiej w nasz hub wiedzy GEO & SEO. Towarzysz na poziomie mechanizmu: GEO vs SEO: jak AI wybiera źródła.

Najczęstsze pytania

Jak odróżnić prawdziwego bota AI od fałszywego?

Po IP, nie po user-agencie. Sprawdź adres wobec opublikowanych zakresów (OpenAI, Anthropic i Perplexity je publikują) i przez forward-confirmed reverse DNS dla Google/Bing/Apple. W moim badaniu (maj 2026) 4,3% deklarowanych botów nie przeszło weryfikacji, a 18% żądań „Googlebota" to było podszywanie się.

Czy crawlery AI renderują JavaScript?

W moich logach, nie. Fetchery AI (ChatGPT-User, Perplexity) wzięły 0% assetów JS/CSS/obrazów, podczas gdy Googlebot pobrał 60%, a Applebot 79%. Jeśli treść doczytuje się po stronie przeglądarki, fetcher AI jej nie widzi, wymagany jest HTML gotowy po stronie serwera.

Który bot AI odwiedza świeżą witrynę pierwszy?

Fetcher wywołany przez użytkownika, nie crawler masowy. Na mojej świeżo zmigrowanej domenie królował ChatGPT-User (352 żądania), a OAI-SearchBot i crawlery treningowe (GPTBot, ClaudeBot) nie wykonały ani jednego żądania. Wczesna widoczność w AI bierze się stąd, że ktoś pyta chatbota o ciebie.

Jaki crawl-to-refer jest dobry?

Im niższy, tym bardziej wzajemny. Google miał na mojej domenie 3,5:1 (lepiej niż globalny ~5:1). ChatGPT i Apple były praktycznie nieskończone, brały strony, nie odsyłały nikogo. Policz swój z własnych logów, wartości w stylu ~13 528:1 dla ClaudeBota to średnie sieciowe.

Dlaczego „Claude" wyglądał na największego gościa AI, choć nim nie był?

Bo 821 z 852 żądań Claude-User to mój własny serwer MCP w WordPressie (automatyzacja własna), a nie crawl pod widoczność. Odetnij własną automatyzację przed pomiarem, inaczej policzysz samego siebie. Prawdziwa organiczna widoczność Claude na domenie wynosiła zero.

Czy blokować crawlery treningowe AI w robots.txt?

To powinna być świadoma decyzja, nie odziedziczona pusta dyrektywa Disallow:. Moja witryna testowa była w pełni otwarta i nie zobaczyła żadnego nadużycia ze strony crawlerów treningowych, ale też miała zero ochrony. Stanowisko wobec GPTBot, CCBot i Google-Extended wybierz świadomie już przy migracji.