Como bloquear o acesso ao SeekportBot ou outro crawEu cliquei em um site

Na maioria das vezes, quando você precisa bloquear o acesso SeekportBot ou outros crawl bots com um site, os motivos são simples. O web spider faz muitos acessos em um curto período de tempo e solicita os recursos do servidor web, ou vem de um buscador no qual você não quer que seu site seja indexado.

É muito benéfico para um site visitado por crawEu esbarrei nele. Esses web spiders são projetados para explorar, processar e indexar o conteúdo das páginas da web nos mecanismos de pesquisa. Google e Bing usam tal crawEu esbarrei nele. No entanto, também existem mecanismos de pesquisa que usam robôs para coletar dados de páginas da web. Seekport é um desses motores de busca, que usa crawo SeekportBotler para indexação de páginas da web. Infelizmente, às vezes o usa excessivamente e cria tráfego desnecessário.

O que é SeekportBot?

SeekportBot é um web crawler desenvolvido pela empresa Seekport, que tem sede na Alemanha (mas usa IPs de vários países, incluindo a Finlândia). Este bot é usado para rastrear e indexar sites para que possam ser exibidos nos resultados do mecanismo de pesquisa. Seekport. Um motor de busca não funcional, tanto quanto eu posso dizer. Pelo menos, não retornou nenhum resultado para mim para nenhuma frase-chave.

SeekportBot usos user agent:

"Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)"

Como bloquear o acesso ao SeekportBot ou outro crawEu cliquei em um site

Se você chegou à conclusão de que este web spider ou outro, não é necessário escanear todo o seu site e fazer tráfego desnecessário para o servidor web, você tem vários métodos pelos quais pode bloquear o acesso deles.

Firewall no nível do servidor web

Eles são aplicativos de firewall open-source que pode ser instalado em sistemas operacionais Linux e pode ser configurado para bloquear o tráfego com base em vários critérios. Endereço IP, localização, portas, protocolos ou agente do usuário.

APF (Advanced Policy Firewall) é um software através do qual você pode bloquear bots indesejados, no nível do servidor.

Como o SeekportBot e outros web spiders usam vários blocos de IPs, a regra de bloqueio mais eficaz é baseada em "user agent". Então, se você quiser bloquear o acesso SeekportBot por meio de APF, tudo o que você precisa fazer é conectar-se ao servidor da Web via SSHe inclua a regra de filtro no arquivo de configuração.

1. Abra o arquivo de configuração com nano (ou outro editor).

sudo nano /etc/apf/conf.apf

2. Procure a linha que começa com “IG_TCP_CPORTS” e adicione o agente do usuário que deseja bloquear no final desta linha, seguido de uma vírgula. Por exemplo, se você deseja bloquear user agent "SeekportBot", a linha deve ficar assim:

IG_TCP_CPORTS="80,443,22" && IG_TCP_CPORTS="$IG_TCP_CPORTS,SeekportBot"

3. Salve o arquivo e reinicie o serviço APF.

sudo systemctl restart apf.service

O acesso "SeekportBot" será bloqueado.

Filtro web crawls com a ajuda do Cloudflare – Bloqueie o acesso do SeekportBot

Com a ajuda do Cloudflare, parece-me o método mais seguro e conveniente pelo qual você pode limitar o acesso de alguns bots a um site de várias maneiras. O método que também usei no caso SeekportBot para filtrar o tráfego para uma loja online.

Supondo que você já tenha o site adicionado à Cloudflare e os serviços DNS estejam ativados (ou seja, o tráfego para o site passa pela Cloudflare), siga os passos abaixo:

1. Abra sua conta Clouflare e acesse o site para o qual deseja limitar o acesso.

2. Acesse: Security → WAF e adicionar uma nova regra. Create rule.

3. Escolha um nome para a nova regra, Field: User Agent - Operator: Contains - Value: SeekportBot (ou outro nome de bot) – Choose action: Block - Deploy.

Como bloquear o acesso do SeekportBot
Bloqueie o acesso ao SeekportBot da Cloudflare

Em apenas alguns segundos, a nova regra WAF (Web Application Firewall) começa a fazer efeito.

Eventos de firewall no Cloudflare
Eventos de firewall no Cloudflare

Em teoria, a frequência com que um web spider acessa um site pode ser definida de robots.txt, mas... é só na teoria.

User-agent: SeekportBot
Crawl-delay: 4

Muitos web crawlerii (exceto Bing e Google) não seguem essas regras.

Em conclusão, se você identificar um web crawl quem acessa excessivamente o seu site, o melhor é bloquear totalmente o acesso dele. Claro, se esse bot não for de um buscador no qual você tem interesse em estar presente.

Apaixonado por tecnologia, escrevo com prazer no StealthSettings.com desde 2006. Tenho uma ampla experiência em sistemas operacionais: macOS, Windows e Linux, assim como em linguagens de programação e plataformas de blogs (WordPress) e para lojas online (WooCommerce, Magento, PrestaShop).

Como » Surf net » Como bloquear o acesso ao SeekportBot ou outro crawEu cliquei em um site
Deixe um comentário