Comprendre les Modèles de Langage Large (LLM) pour comprendre l’IA

Cet article a été en partie rédigé grâce à ChatGPT, puis revu et amélioré par un humain. 🤖 🤝 🤓

Pour utiliser l’IA générative de façon consciente et éthique, faut-il encore comprendre son fonctionnement. Et l’IA, ce n’est pas ça :


(presque dommage, parce que visuellement ça claque)

Mais plutôt ça.

Derrière l’IA, la machine

Les LLM, comme ChatGPT, sont des modèles d'IA qui utilisent des algorithmes d'apprentissage afin de générer des contenus comme du texte, des images, des musiques ou des vidéos. Cet apprentissage nécessite souvent une très grande quantité de données et de documents pour que le modèle soit efficace.

**Les LLM n’analysent pas directement les mots, ils traitent des tokens. Un token, c'est une unité de base utilisée pour représenter et traiter le langage dans les IA génératives. Il peut s’agir d’une lettre, d’une syllabe, d’un mot ou d’une partie de mot.

Les tokens sont l’interface entre le langage humain et le langage machine, permettant aux LLM de comprendre, d’analyser et de générer du texte de manière cohérente et pertinente. Par exemple, le mot “intelligence” est composé de 2 tokens : ‘int’ et ‘elligence’ (par ici pour en apprendre plus sur les Token ou pour voir concrètement comment un texte est décomposé en token).

Concrètement, la division des textes en token va permettre au modèle de comprendre quelles combinaisons de mots sont fréquentes, comment les mots s'assemblent pour former des phrases et comment le sens change avec le contexte grâce à l'algorithme Transformer, qui est à la base du succès de ChatGPT.

Pour comprendre une demande (un prompt), le modèle va d’abord la diviser en token pour la comprendre puis générer une réponse texte en prédisant chaque mot suivant en utilisant les motifs appris durant l'entraînement.

Il est important de noter que les réponses générées par les LLM ne sont pas uniquement basées sur des statistiques. Elles sont également influencées par des règles et des alignements définis par des humains.

On a trouvé ça sur les internets qui résume plutôt bien.

Pas de limites ?

Bien que puissants, les LLM sont loin d’être parfaits.

Les données que vous fournissez à un LLM peuvent être utilisées pour entraîner les algorithmes futurs ou être accessibles par les équipes qui les gèrent. L'usage exact reste souvent flou.

Les LLM ne sont pas conçus pour fournir des informations précises et sourcées. Ils produisent du texte en fonction de modèles statistiques, ce qui signifie que la véracité des informations n'est pas garantie. Concrètement, Chat GPT peut donner une réponse fausse avec confiance plutôt que de s’abstenir (ce qu’on appelle des hallucinations), sauf si il repère que la réponse est en dehors de sa fenêtre d’apprentissage. Les modèles peuvent également refléter les biais présents dans les données d’entraînement.

Il existe des solutions pour éviter ces écueils au maximum, comme demander à Chat GPT de sourcer ses réponses. Il est possible de faire un “follow-up prompt” où l’on demande à ChatGPT d’analyser sa réponse et de dire si tout est vrai, deux à trois fois d’affilée si la réponse semble vraiment surprenante.

La construction d’un bon prompt (spécifique et clair) pour guider le modèle reste primordiale pour vérifier les données : ça tombe bien, on en a fait un article ;).