ARNO*

Geek dilettante habitant une belle et grande propriété sur la Côte d’améthyste

  • Est-ce que vous avez déjà vu passer un outil de génération automatique de description d’image adapté à un serveur Web ?

    L’idée, c’est qu’il est bienvenu de systématiquement renseigner la description des images postées sur le Web, pour les personnes non-voyantes. Or, il existe déjà des outils basées sur des modèles AI, qui génèrent des descriptions d’images généralement d’excellente qualité.

    Par exemple, dans le module « img2img » d’Automatic1111, on peut faire un « Interrogate CLIP », qui va générer une description de l’image qu’on a uploadé, et c’est franchement pas mal du tout (je pense largement mieux en général que ce qu’on penserait à renseigner soi-même).

    Ici il a clairement identifié que c’était un poster (et pas juste le dessin d’un cycliste) et il a même retranscrit le texte de l’affiche :

    Ici il a identifié qu’il s’agit d’un tableau d’un homme nu, et il a même tagué « Bouguereau » (OK c’est pas exactement ça, mais sur un autre tableau, il a correctement identifié qu’il s’agissait d’un Cabanel).

    Bref, je me dis que si on mettait ça directement sur un serveur, on aurait des descriptions automatiques plutôt de très bonne qualité (et surtout bien meilleure que tout ce que les gens font « à la main », ou plutôt « ne font pas »…). Je me dis même que ça devrait à terme être une fonction directement intégrée aux navigateurs eux-mêmes, ou directement aux systèmes d’exploitation (par exemple sous iOS, il y a déjà une thématisation des images directement dans les APIs du système – c’est ce qui permet de lancer des recherches dans Photos ; on n’a pas le niveau de précision ci-dessus, mais c’est quasiment instantané, alors que le truc d’Automatic 1111, ça prend plusieurs dizaines de secondes sur mon Mac).