136 млн запросов от ботов, 1000 доменов в анализе, 3 месяца наблюдений — всё что нужно знать о бот-трафике
Мы проанализировали 1000 доменов на наличие бот-трафика. В выборку попали сайты новостного формата — чтобы не было искажений.
Почему именно эта выборка? На информационниках очень активно обучаются языковые модели.
Пятёрка самых активных ИИ-ботов за 3 месяца:
Facebook - 34 502 888 запросов
Bytespider (TikTok) - 10 286 154 запросов
Huawei - 10 045 766 запросов
GPTBoot - 8 653 502 запросов
Amazon Bot - 6 477 078 запросов
Claude Bot - 4 728 798 запросов
Причём они посещают все 1000 сайтов, давая колоссальную нагрузку. В среднем по нашей статистике на сайт ежедневно заходит от 50 до 200 разных ботов.
У нас в базе больше 500 ботов, из них реальную нагрузку дают чуть больше половины. Причём несколько раз в месяц попадаются новые неидентифицированные боты, которые вручную приходится идентифицировать.
К примеру, парсеры и архиваторы:
Heritrix (веб-архиватор) - 769 350 запросов
WebScraper Bot - 512 438 запросов
Начиная от поисковых ботов, заканчивая парсерами типа Ahrefs, Semrush, ИИ-агентами.
Статистика поисковых ботов по тем же 1000 сайтам:
BingBot - 4 714 253 запросов
GoogleBot - 2 793 227 запросов
YandexBot - 1 910 840 запросов
AppleBot - 5 667 390 запросов
Плюсом сюда можно добавить специализированных ботов:
Yandex Images - 320 858 запросов
Google Images - 284 094 запросов
Yandex Favicons - 18 381 запросов
Яндекс Метрика - 22 855 запросов
А если учесть, что у Google и Яндекса под 20 ботов у каждого — вырисовывается колоссальная нагрузка.
Топ SEO-сервисов по запросам:
SERanking - 4 806 849 запросов
Semrush - 1 749 955 запросов
Babbar - 1 713 023 запросов
Moz - 1 241 103 запросов
DataForSEO - 1 132 370 запросов
Serpstat - 1 114 325 запросов
Ahrefs - 438 352 запросов
Keys.so - 154 026 запросов
Был интересный кейс. У человека форум по футболу — просто обычный форум. За месяц его посетило 1 500 000 ботов, из них Amazon и Facebook суммарно сделали под миллион запросов.
ИИ-модели просто обучались. А у человека сайт вечно падал с ошибкой 500 — обычный хостинг не справлялся с нагрузкой.
Вот ещё один наш эксперимент.
Новостной сайт со средней посещаемостью 2к в сутки. Сайт один на хостинге средней ценовой категории. На сайте ничего не запрещали — все боты разрешены. (Автоматические блокировки сканеров уязвимостей в расчёт не берём.)
За 30 дней ботового трафика — 527 203 запросов. Нагрузка ботов на хостинг составляет порядка 40%.
Для сравнения: просто домен, привязанный к хостингу, на котором ничего нет — 2 261 запрос от ботов за 30 дней.
Как запретить ботам доступ к сайту?
Самый простой способ — через robots.txt:
Блокировка агрессивных AI-краулеров:
User-agent: Meta-ExternalAgent
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: AmazonBot
Disallow: /
User-agent: TikTokBot
Disallow: /
Оставить открытыми поисковые боты:
User-agent: Googlebot
Allow: /
User-agent: YandexBot
Allow: /
User-agent: bingbot
Allow: /
Но как показывает практика — это не всегда работает. Лучше всего запрещать на уровне сервера:
nginx
Nginx — блокировка по User-Agent:
map $http_user_agent $is_meta_agent {
default 0;
"~*Meta-ExternalAgent" 1;
"~*meta-externalagent" 1;
}
if ($is_meta_agent) { return 403; }
Это даёт 100% результат, так как ИИ-агенты — особенно Amazon и Facebook — особо не берут во внимание запрет на уровне robots.txt.
Либо самый простой способ — подключить сайт к нашему сервису trafficveil.com, это совершенно бесплатно. Проанализировать в течение пары дней, какие боты заходят, и удобно в админке их запретить.
Можно отслеживать ботов, GEO, проксировать сайты — есть свой Firewall и DDoS-защита на уровне L7 и много чего другого. Плюс дружелюбная поддержка, которая поможет настроить защиту индивидуально для вашего сайта.