136 млн запросов от ботов, 1000 доменов в анализе, 3 месяца наблюдений — всё что нужно знать о бот-трафике

Мы проанализировали 1000 доменов на наличие бот-трафика. В выборку попали сайты новостного формата — чтобы не было искажений.

Почему именно эта выборка? На информационниках очень активно обучаются языковые модели.

Пятёрка самых активных ИИ-ботов за 3 месяца:

Facebook - 34 502 888 запросов

Bytespider (TikTok) - 10 286 154 запросов

Huawei - 10 045 766 запросов

GPTBoot - 8 653 502 запросов

Amazon Bot - 6 477 078 запросов

Claude Bot - 4 728 798 запросов

Причём они посещают все 1000 сайтов, давая колоссальную нагрузку. В среднем по нашей статистике на сайт ежедневно заходит от 50 до 200 разных ботов.

У нас в базе больше 500 ботов, из них реальную нагрузку дают чуть больше половины. Причём несколько раз в месяц попадаются новые неидентифицированные боты, которые вручную приходится идентифицировать.

К примеру, парсеры и архиваторы:

Heritrix (веб-архиватор) - 769 350 запросов

WebScraper Bot - 512 438 запросов

Начиная от поисковых ботов, заканчивая парсерами типа Ahrefs, Semrush, ИИ-агентами.

Статистика поисковых ботов по тем же 1000 сайтам:

BingBot - 4 714 253 запросов

GoogleBot - 2 793 227 запросов

YandexBot - 1 910 840 запросов

AppleBot - 5 667 390 запросов

Плюсом сюда можно добавить специализированных ботов:

Yandex Images - 320 858 запросов

Google Images - 284 094 запросов

Yandex Favicons - 18 381 запросов

Яндекс Метрика - 22 855 запросов

А если учесть, что у Google и Яндекса под 20 ботов у каждого — вырисовывается колоссальная нагрузка.

Топ SEO-сервисов по запросам:

SERanking - 4 806 849 запросов

Semrush - 1 749 955 запросов

Babbar - 1 713 023 запросов

Moz - 1 241 103 запросов

DataForSEO - 1 132 370 запросов

Serpstat - 1 114 325 запросов

Ahrefs - 438 352 запросов

Keys.so - 154 026 запросов

Был интересный кейс. У человека форум по футболу — просто обычный форум. За месяц его посетило 1 500 000 ботов, из них Amazon и Facebook суммарно сделали под миллион запросов.

136 млн запросов от ботов, 1000 доменов в анализе, 3 месяца наблюдений — всё что нужно знать о бот-трафике

ИИ-модели просто обучались. А у человека сайт вечно падал с ошибкой 500 — обычный хостинг не справлялся с нагрузкой.

136 млн запросов от ботов, 1000 доменов в анализе, 3 месяца наблюдений — всё что нужно знать о бот-трафике

Вот ещё один наш эксперимент.

Новостной сайт со средней посещаемостью 2к в сутки. Сайт один на хостинге средней ценовой категории. На сайте ничего не запрещали — все боты разрешены. (Автоматические блокировки сканеров уязвимостей в расчёт не берём.)

136 млн запросов от ботов, 1000 доменов в анализе, 3 месяца наблюдений — всё что нужно знать о бот-трафике

За 30 дней ботового трафика — 527 203 запросов. Нагрузка ботов на хостинг составляет порядка 40%.

136 млн запросов от ботов, 1000 доменов в анализе, 3 месяца наблюдений — всё что нужно знать о бот-трафике

Для сравнения: просто домен, привязанный к хостингу, на котором ничего нет — 2 261 запрос от ботов за 30 дней.

136 млн запросов от ботов, 1000 доменов в анализе, 3 месяца наблюдений — всё что нужно знать о бот-трафике

Как запретить ботам доступ к сайту?

Самый простой способ — через robots.txt:

Блокировка агрессивных AI-краулеров:

User-agent: Meta-ExternalAgent

Disallow: /

User-agent: Bytespider

Disallow: /

User-agent: GPTBot

Disallow: /

User-agent: ClaudeBot

Disallow: /

User-agent: AmazonBot

Disallow: /

User-agent: TikTokBot

Disallow: /

Оставить открытыми поисковые боты:

User-agent: Googlebot

Allow: /

User-agent: YandexBot

Allow: /

User-agent: bingbot

Allow: /

Но как показывает практика — это не всегда работает. Лучше всего запрещать на уровне сервера:

nginx

Nginx — блокировка по User-Agent:

map $http_user_agent $is_meta_agent {

default 0;

"~*Meta-ExternalAgent" 1;

"~*meta-externalagent" 1;

}

if ($is_meta_agent) { return 403; }

Это даёт 100% результат, так как ИИ-агенты — особенно Amazon и Facebook — особо не берут во внимание запрет на уровне robots.txt.

Либо самый простой способ — подключить сайт к нашему сервису trafficveil.com, это совершенно бесплатно. Проанализировать в течение пары дней, какие боты заходят, и удобно в админке их запретить.

Можно отслеживать ботов, GEO, проксировать сайты — есть свой Firewall и DDoS-защита на уровне L7 и много чего другого. Плюс дружелюбная поддержка, которая поможет настроить защиту индивидуально для вашего сайта.

1 комментарий