Faut-il bloquer ça ? Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko ; compatible ; GPTBot/1.0 ; +

BigGrizzly CC BY-NC-SA 16/09/2023

Faut-il bloquer ça ?
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko ; compatible ; GPTBot/1.0 ; +►https://openai.com/gptbot)

Quel est le moyen le plus aisé de virer tous les bots ? J’y serais personnellement favorable. :-)

BigGrizzly CC BY-NC-SA

ktche @ktche CC BY-NC-SA 16/09/2023

▻https://github.com/mitchellkrogza/nginx-ultimate-bad-bot-blocker
▻https://github.com/mitchellkrogza/apache-ultimate-bad-bot-blocker

ktche @ktche CC BY-NC-SA
BigGrizzly @biggrizzly CC BY-NC-SA 16/09/2023

@seenthis, un avis ?

BigGrizzly @biggrizzly CC BY-NC-SA
BigGrizzly @biggrizzly CC BY-NC-SA 18/09/2023

Merci @ktche pour la suggestion. Je vais l’étudier (pour nginx), et sans doute la mettre en œuvre sur SeenThis. J’espère que c’est compatible avec la vieille version de Debian... sinon, ça m’encouragera à réaliser la migration.
@tous : les moteurs de recherche vont être globalement exclus, ils ne pourront plus parcourir SeenThis qu’en étant anonymes.

BigGrizzly @biggrizzly CC BY-NC-SA
ARNO* @arno ART LIBRE 18/09/2023

Sur pas mal de sujets, Seenthis tombe bien dans une recherche Google, parce que les longs threads sont intéressants. Du coup je ne comprends pas quel intérêt on aurait à se priver d’un bon référencement.
Pour rappel, Seenthis a un fonctionnement volontairement différent de la plupart des réseaux sociaux : il est conçu pour pouvoir être de manière libre, comme n’importe quelle page Web, sans demander à ce qu’on s’y inscrive (même Bluesky, je ne peux même pas voir la page de @fil sans y avoir moi-même un compte). Et dans les chiffres de visites que j’avais, c’était bien le cas : beaucoup plus de visites que d’inscrits.
C’est-à-dire qu’on est dans une logique plus proche du blog que du pur réseau social, donc on dépend pour une large part du fait que les excellents threads de qualité qu’on a ici fonctionnent comme des pages de blog et donc doivent être correctement référencés.
(C’est aussi pour ça que j’ai depuis le début ce système de micro-caches imbriqués pour tenter de rigoureusement limiter les recalculs avec accès mySQL lors du passage d’un robot sur l’ensemble du site.)

ARNO* @arno ART LIBRE
BigGrizzly @biggrizzly CC BY-NC-SA 18/09/2023

Je n’ai pas la même expérience que toi concernant les recherches sur SeenThis ; je ne retrouve jamais mes posts techniques, par exemple, si je les cherche avec les mots clefs qui vont bien (par exemple pour de la table de hash pour authentifier les connexions SMTP sur postfix).
L’autre jour, j’avais une surcharge sur le serveur. Toute la semaine, on en a eu. Et là, ce jour-là, c’était openai. Une autre fois, c’était un bot de capture d’images. Et une autre fois, c’était un bidule qui faisait du post sur toutes les URL qu’il trouvait...
Mais si ça vous va qu’on laisse les moteurs lire ce qu’on partage, ma foi, je laisse les choses en l’état, en me contentant de virer les ips les plus dommageables, au coup par coup.

BigGrizzly @biggrizzly CC BY-NC-SA
ARNO* @arno ART LIBRE 18/09/2023

Pour moi ce sont les moteurs de recherche qui doivent passer (GoogleBot notamment). Les autres je vois pas d’intérêt immédiat (les bots d’images, a priori, ça n’a même rigoureusement aucun intérêt puisqu’on n’héberge aucune image).

ARNO* @arno ART LIBRE
BigGrizzly @biggrizzly CC BY-NC-SA 23/09/2023

Top 10 par user-agent à l’instant, que le serveur est surchargé : que des bots, dont 2 avec UA vide.
Sogou Pic Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07) Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) Chrome/103.0.5060.134 Safari/537.36 Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1.1 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot) Mozilla/5.0 (compatible; YandexRenderResourcesBot/1.0; +http://yandex.com/bots) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/) - SPIP-3.2.19 (https://www.spip.net) Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot) Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html)

BigGrizzly @biggrizzly CC BY-NC-SA
ARNO* @arno ART LIBRE 23/09/2023

Ma phrase est mal formée : « pour moi, ce sont les moteurs de recherche qui doivent pouvoir continuer à passer ». Je voulais dire qu’à mon avis, tu peux tout bloquer, sauf les principaux moteurs de recherche, si on peut faudrait au moins garder GoogleBot et Bing (les Russes et les Chinois, je suis pas certain que ce soit bien utile…).

ARNO* @arno ART LIBRE
colporteur @colporteur CC BY-NC-SA 23/09/2023

hum... même pour retrouver ici le compte de LC dont il est question avant clôture, j’ai du (faute d’imagination, de savoir ?) passer par gougueule

colporteur @colporteur CC BY-NC-SA
BigGrizzly @biggrizzly CC BY-NC-SA 26/09/2023

@b_b, @seenthis, @rastapopoulos, @arno, @tous : un endroit simple d’accès pour discuter du prochain serveur virtuel de ST ? Le serveur actuel est un vieux serveur Debian. Le mettre à jour à l’arrache devrait pouvoir fonctionner, mais je me disais qu’on pouvait aussi monter un serveur tout neuf. Il y a tout de même quelques composants obsolètes il me semble (sphinx ?)... MAIS. Je n’ai raisonnablement pas de temps à consacrer autre que : fournir la Debian vierge et l’IP publique temporaire.

BigGrizzly @biggrizzly CC BY-NC-SA
b_b @b_b PUBLIC DOMAIN 26/09/2023

@biggrizzly ▻https://web.libera.chat/#seenthis ?

b_b @b_b PUBLIC DOMAIN
RastaPopoulos @rastapopoulos CC BY-NC 26/09/2023

Ou même encore un ticket quelque part dans : ►https://github.com/seenthis ?

RastaPopoulos @rastapopoulos CC BY-NC
BigGrizzly @biggrizzly CC BY-NC-SA 26/09/2023

Il faudrait amtha un minimum d’asynchronicité et de persistance :-))
J’ai trouvé pour me reconnecter à Github.

BigGrizzly @biggrizzly CC BY-NC-SA
MFMB @mfmb 26/09/2023

Je comprends rien à vos échanges. J’ose ! Et je me demande si vous pouviez m’aider... J’étais abonnée à uptobox qui a fermé. Peux plus télécharger les séries ! Auriez vous des infos ?

MFMB @mfmb
ARNO* @arno ART LIBRE 26/09/2023

Sinon j’ai fait des petits commits sur seenthis-squelettes. Du text-wrap:pretty et du {This machine kills fascists}. Si quelqu’un veut pousser en prod.

ARNO* @arno ART LIBRE
b_b @b_b PUBLIC DOMAIN 26/09/2023

@arno c’est fait

b_b @b_b PUBLIC DOMAIN
ARNO* @arno ART LIBRE 26/09/2023

Merci ! Si la mention « This machine kills fascists » ne permet pas de nous protéger contre les bots qui nous font grimper la charge, je ne vois pas ce qu’on pourra faire de plus…

ARNO* @arno ART LIBRE
BigGrizzly @biggrizzly CC BY-NC-SA 27/09/2023

J’ignore comment vous voulez procéder pour discuter sur Github. Je vous laisse m’indiquer où on cause.
Pour info, actuellement, ST c’est 240Go de fichiers, et 17Go de base MariaDB.

BigGrizzly @biggrizzly CC BY-NC-SA

Écrire un commentaire