Discutons et de rien :)

  • Œil
    link
    fedilink
    Français
    arrow-up
    3
    ·
    edit-2
    13 days ago

    Pareil que toi, mais ça me semble bien contradictoire. Si je dis pas de bêtises, le document robots.txt est un document non contraignant, c’est plutôt une convention.

    Le protocole d’exclusion des robots, plus connu sous le nom de robots.txt, est une convention visant à empêcher les robots d’exploration (web crawlers) d’accéder à tout ou une partie d’un site web.

    Les robots peuvent ignorer votre fichier robots.txt, en particulier les robots malveillants qui crawlent les sites à la recherches de vulnérabilités ou d’adresses email

    Le fichier robots.txt est un fichier accessible au public, ce qui signifie que n’importe qui peut voir ce que vous souhaitez ne pas faire indexer par les moteurs

    https://robots-txt.com/


    Ah voilà, j’ai retrouvé le post d’@innermeerkat@jlai.lu (coucou!) à ce sujet : https://jlai.lu/post/16807807

    According to Drew, LLM crawlers don’t respect robots.txt requirements and include expensive endpoints like git blame, every page of every git log, and every commit in your repository. They do so using random User-Agents from tens of thousands of IP addresses, each one making no more than one HTTP request, trying to blend in with user traffic.