Bonjour à tous,

suite à des problèmes d’instabilité, venant d’une utilisation à 100% du disque et à un alerting qui ne fonctionnait malheureusement plus, j’ai été obligé de mettre l’instance offline pour une durée d’environ 48h de manière soudaine et impromptue.

L’instance fonctionne dorénavant avec un stockage d’images sur s3, un service tiers géré par Wasabi, au lieu d’un stockage sur le serveur lui même.

Après une phase de vérification que tout re-fonctionne, je procéderais dans la foulée à la MAJ de l’instance vers la dernière version d’ici quelques heures.

Pour le post mortem à destination de ceux que ça intéresse :

Lemmy stocke par défaut les miniatures et images fédérées via toutes les instances en local.

À la création de l’instance, la place donnée par les créateurs de lemmy nécessaire au bon fonctionnement d’une instance était aux alentours de 40gb.

À partir de cette information, j’ai dimensionné l’instance avec ce qu’on peut considérer être un petit disque, mais en RAID pour pouvoir être plus rapide, d’une taille d’environ 500gb, donnant tout de même une marge de x10 par rapport aux specs demandées.

Il s’avère qu’avec l’essor de lemmy et sa popularité, le stockage d’image prend maintenant aux alentours des 350gb, pour environ 3 500 000 objets, saturant ainsi l’espace disque et rendant l’instance instable.

Ceci arrivant bien évidemment la veille de mes vacances loin de chez moi, j’ai tenté de faire un peu de place avant de partir, mais cela n’a pas été suffisant.

Afin de pouvoir avoir un peu de marge de manœuvre à mon retour, j’ai dû faire encore une fois le ménage et tout couper pour garder de l’espace pour pouvoir tout simplement faire quoi que ce soit sur l’instance.

L’opération principale étant la migration de toutes ces images gérées par le service pict-rs de lemmy du disque vers un service cloud, qui a été très laborieux, la version de pict-rs utilisée étant complètement cassée au niveau de la migration.

J’ai donc dû mettre à jour la version de pict-rs et la migration s’est ensuite, a priori, passée sans plus de problème.

Maintenant que l’opération pompier est terminée, je vais profiter des différents ponts pour mettre en place des alertes qui fonctionnent mieux, et tenter de fiabiliser un peu plus l’instance.

– MAJ du 27/04 à 16h33

La migration vers la version 0.19.11 est maintenant faite, n’hésitez pas à remonter tout problème.

  • Manapany
    link
    fedilink
    arrow-up
    2
    ·
    12 hours ago

    Merci pour le taff !! J’ai remarqué pendant la coupure que j’étais accro au final xD

  • lascapi
    link
    fedilink
    arrow-up
    3
    ·
    16 hours ago

    Merci pour le travail de l’ombre et pour les explications ! :)

  • Mana Oatbun
    link
    fedilink
    arrow-up
    10
    ·
    2 days ago

    Merci pour le travail et les infos !

    Question : Y a-t-il un endroit où on peut savoir ce qu’il se passe quand l’instance est down ? Parce qu’en l’absence d’info je suis allé sur Reddit, j’ai posté sur r/askfrance pour juste demander si quelqu’un savait quelque chose, et un modérateur m’a aimablement répondu qu’il n’était pas là pour faire votre maintenance et a supprimé mon post 😮‍💨

    • Skunk
      link
      fedilink
      arrow-up
      8
      ·
      edit-2
      2 days ago

      un modérateur m’a aimablement répondu qu’il n’était pas là pour faire votre maintenance et a supprimé mon post 😮‍💨

      C’est pas bien mais ça m’a fait rire 😅

      Outre le !jlailu_statut@sh.itjust.works il y a Matrix, @Snoopy@jlai.lu est en train de faire un truc qui rassemble les instances lemmy/piefed francophones, il communiquera quand ce sera prêt. Mais c’est probablement le meilleur endroit pour avoir une info en “temps réel”

      • Snoopy
        link
        fedilink
        Français
        arrow-up
        3
        ·
        2 days ago

        C’est prêt. Il ne manque plus grand chose. J’ai fais une réorganisation de l’espace matrix :)

      • Mana Oatbun
        link
        fedilink
        arrow-up
        2
        ·
        2 days ago

        Plus qu’à découvrir comment fonctionne matrix donc 😄

        • Snoopy
          link
          fedilink
          Français
          arrow-up
          2
          ·
          2 days ago

          Cool et si tu as le moindre soucis hésite pas à nous biper. Je recommande plutot fluffychat qui a une UI propre plutot qu’Element. Et ça marche sur tel et ordi.

          Optionnel mais recommandé. Nos salons ne sont pas chiffrés. Faudra vérifier ton identité.

          Pour cela installe FluffyChat (ou Element) sur ton ordi et tel. Et dans parametre ya un endroit, sécurité je crois où tu peux lancer la verif de tes 2 appareils (ton ordi et tel).

          Ça permettra de lire les messages chiffrées. Je ferais un tuto dessus.

      • oce 🐆
        link
        fedilink
        arrow-up
        5
        ·
        edit-2
        2 days ago

        Ça pourrait peut-être être ajouté sur la page d’accueil quand l’instance est indisponible.

        • Skunk
          link
          fedilink
          arrow-up
          6
          ·
          2 days ago

          Ouaip ça a été discuté, avoir les liens qui vont bien sur la page d’erreur ou de maintenance.

          Ceci dit ça ne fonctionne que si on va directement sur le site jlai.lu, avec une application lemmy tierce il n’y aura pas l’information.

  • Narann
    link
    fedilink
    Français
    arrow-up
    9
    ·
    2 days ago

    Merci beaucoup pour le support et le temps investi dans ce message !

    Est-ce qu’il y aurait du sens à ce qu’il y ait plusieurs infogérants pour jlai.lu ? Via une association ?

    • anansiOPMA
      link
      fedilink
      arrow-up
      10
      ·
      2 days ago

      Association ou pas, la question est plus technique et de confiance.

      Une personne qui aura les droits techniques pour faire ce genre d’opération aura aussi les droits pour tuer l’instance ou la casser de manière définitive.

      Mettre en place un système avec des gardes fous avant de donner des clés à quelqu’un est assez compliqué et se rapproche plus de ce qu’on trouve dans des entreprises que dans le cadre de ce genre de service malheureusement.

  • Ziggurat
    link
    fedilink
    arrow-up
    6
    ·
    2 days ago

    Merci beaucoup pour le travail de maintenance et d’entretien.

  • Skunk
    link
    fedilink
    arrow-up
    7
    ·
    2 days ago

    Regarde @innermeerkat@jlai.lu, Dieu me parle !

    (image host en dehors de Lemmy et c’est une reference à une conversation sur Matrix).

    Merci Anansi pour le super boulot !

  • BgSagouin
    link
    fedilink
    arrow-up
    5
    ·
    2 days ago

    Merci beaucoup pour ce que tu fais/as fait/fera :) Et pour les petites explications.