Je bosse au 4/5 sur les modèles de langage (LLM, parfois appelées IAs) et à 2/5 sur la robotique open hardware AMA

keepthepace_ · 2 years ago

Je bosse au 4/5 sur les modèles de langage (LLM, parfois appelées IAs) et à 2/5 sur la robotique open hardware AMA

keepthepace_ · 2 years ago

Les modèles utilisés sont contraints par deux choses: les GPUs sont très optimisés pour les multiplications matricielles, et la fonction produite par ton modèle doit être dérivable vis à vis de tous ses paramètres.

En fait dans les modèles actuels, on ne pense pas en terme de neurones, mais plutôt de couches. Tu as une couche de neurones suivie d’une couche d’attention, suivie d’une couche de convolution, à laquelle tu ajoutes les entrées, etc.

On est très influencés par les opérations optimisées pour GPU, donc on va plutôt penser en terme de matrices. Deux couches de N neurones se suivant et où chaque neurone est connectée à tous ceux de la couche de N neurones suivante, c’est un “fully-connected layer” ou un perceptron. Ça s’exprime sous forme d’une matrice de poids: tu mets tes entrées sous forme de vecteur, tu multiplies par la matrice de poids et tu as généralement une “non linéarité”, c’est à dire une fonction de type RELU ajoutée après la multiplication.

L’autre façon de voir un modèle est de dire que ce que tu veux est une fonction continue prenant un vecteur de dimension N_i en entrée et N_o en sortie et dérivable selon chacun de ses millions de paramètres (typiquement, les paramètres sont les poids des synapses du réseau de neurones).

On parle vraiment peu de neurones. Les devs proches de l’optimisation parlent en terme de matrices, ceux proches de la théorie mathématique en terme de fonction, et un bon modèle doit prendre les deux points de vue en considération.

Tu peux tout à fait imaginer un modèle plus proche des neurones biologiques, mais avec ces deux contraintes: fonction continue et dérivable par rapport à chaque paramètre, et si tu veux que ce soit rapide, maximum de calcul parallèle sous forme de matrices (de tenseurs en fait, qui est le petit nom des matrices de dimension supérieure à 2)

pseudo · 2 years ago

AJA qu’on ne disait pas hyper-matrice.

AJA tout ce que tu as dit d’autres c’est vachement intéressant. Encore merci.

keepthepace_ · 2 years ago

Alors à vérifier avec un mathématicien si je ne fais pas un anglicisme. Comme à son habitude sur les sujets mathématiques la wikipédia française est inutilement pédante et alambiquée, et dit que c’est un usage abusif du terme sans dire comment ça devrait s’appeler.