Faut-il bloquer ça ?
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko ; compatible ; GPTBot/1.0 ; +►https://openai.com/gptbot)
Quel est le moyen le plus aisé de virer tous les bots ? J’y serais personnellement favorable. :-)
Faut-il bloquer ça ?
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko ; compatible ; GPTBot/1.0 ; +►https://openai.com/gptbot)
Quel est le moyen le plus aisé de virer tous les bots ? J’y serais personnellement favorable. :-)
Merci @ktche pour la suggestion. Je vais l’étudier (pour nginx), et sans doute la mettre en œuvre sur SeenThis. J’espère que c’est compatible avec la vieille version de Debian... sinon, ça m’encouragera à réaliser la migration.
@tous : les moteurs de recherche vont être globalement exclus, ils ne pourront plus parcourir SeenThis qu’en étant anonymes.
Sur pas mal de sujets, Seenthis tombe bien dans une recherche Google, parce que les longs threads sont intéressants. Du coup je ne comprends pas quel intérêt on aurait à se priver d’un bon référencement.
Pour rappel, Seenthis a un fonctionnement volontairement différent de la plupart des réseaux sociaux : il est conçu pour pouvoir être de manière libre, comme n’importe quelle page Web, sans demander à ce qu’on s’y inscrive (même Bluesky, je ne peux même pas voir la page de @fil sans y avoir moi-même un compte). Et dans les chiffres de visites que j’avais, c’était bien le cas : beaucoup plus de visites que d’inscrits.
C’est-à-dire qu’on est dans une logique plus proche du blog que du pur réseau social, donc on dépend pour une large part du fait que les excellents threads de qualité qu’on a ici fonctionnent comme des pages de blog et donc doivent être correctement référencés.
(C’est aussi pour ça que j’ai depuis le début ce système de micro-caches imbriqués pour tenter de rigoureusement limiter les recalculs avec accès mySQL lors du passage d’un robot sur l’ensemble du site.)
Je n’ai pas la même expérience que toi concernant les recherches sur SeenThis ; je ne retrouve jamais mes posts techniques, par exemple, si je les cherche avec les mots clefs qui vont bien (par exemple pour de la table de hash pour authentifier les connexions SMTP sur postfix).
L’autre jour, j’avais une surcharge sur le serveur. Toute la semaine, on en a eu. Et là, ce jour-là, c’était openai. Une autre fois, c’était un bot de capture d’images. Et une autre fois, c’était un bidule qui faisait du post sur toutes les URL qu’il trouvait...
Mais si ça vous va qu’on laisse les moteurs lire ce qu’on partage, ma foi, je laisse les choses en l’état, en me contentant de virer les ips les plus dommageables, au coup par coup.
Pour moi ce sont les moteurs de recherche qui doivent passer (GoogleBot notamment). Les autres je vois pas d’intérêt immédiat (les bots d’images, a priori, ça n’a même rigoureusement aucun intérêt puisqu’on n’héberge aucune image).
Top 10 par user-agent à l’instant, que le serveur est surchargé : que des bots, dont 2 avec UA vide.
Sogou Pic Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) Chrome/103.0.5060.134 Safari/537.36
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1.1 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)
Mozilla/5.0 (compatible; YandexRenderResourcesBot/1.0; +http://yandex.com/bots) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0
Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/)
-
SPIP-3.2.19 (https://www.spip.net)
Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)
Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html)
Ma phrase est mal formée : « pour moi, ce sont les moteurs de recherche qui doivent pouvoir continuer à passer ». Je voulais dire qu’à mon avis, tu peux tout bloquer, sauf les principaux moteurs de recherche, si on peut faudrait au moins garder GoogleBot et Bing (les Russes et les Chinois, je suis pas certain que ce soit bien utile…).
hum... même pour retrouver ici le compte de LC dont il est question avant clôture, j’ai du (faute d’imagination, de savoir ?) passer par gougueule
@b_b, @seenthis, @rastapopoulos, @arno, @tous : un endroit simple d’accès pour discuter du prochain serveur virtuel de ST ? Le serveur actuel est un vieux serveur Debian. Le mettre à jour à l’arrache devrait pouvoir fonctionner, mais je me disais qu’on pouvait aussi monter un serveur tout neuf. Il y a tout de même quelques composants obsolètes il me semble (sphinx ?)... MAIS. Je n’ai raisonnablement pas de temps à consacrer autre que : fournir la Debian vierge et l’IP publique temporaire.
Ou même encore un ticket quelque part dans : ►https://github.com/seenthis ?
Il faudrait amtha un minimum d’asynchronicité et de persistance :-))
J’ai trouvé pour me reconnecter à Github.
Je comprends rien à vos échanges. J’ose ! Et je me demande si vous pouviez m’aider... J’étais abonnée à uptobox qui a fermé. Peux plus télécharger les séries ! Auriez vous des infos ?
Sinon j’ai fait des petits commits sur seenthis-squelettes. Du text-wrap:pretty
et du {This machine kills fascists}. Si quelqu’un veut pousser en prod.
Merci ! Si la mention « This machine kills fascists » ne permet pas de nous protéger contre les bots qui nous font grimper la charge, je ne vois pas ce qu’on pourra faire de plus…
J’ignore comment vous voulez procéder pour discuter sur Github. Je vous laisse m’indiquer où on cause.
Pour info, actuellement, ST c’est 240Go de fichiers, et 17Go de base MariaDB.