Les Retrieval-Augmented Generation (RAG) modèles combinent les capacités des LLMs (Large Language Models) avec l’extraction d’informations depuis une base de données ou un corpus externe pour répondre à des questions ou générer du texte. Cette approche permet de pallier certaines limites des LLMs, notamment en ce qui concerne l’exactitude des informations, la pertinence des réponses, la mise à jour des connaissances et limiter les “hallucinations” que peuvent avoir les LLMs lorsqu’ils répondent à une question où ils n’ont pas de données d’entrainements. Ces derniers temps, on présente souvent les RAGs comme LA solution pour pallier ces éventuelles lacunes des LLMs. Pour autant, est-ce bien réellement suffisant ?
La RAG, qu’est-ce que c’est ?
La RAG a captivé la communauté des développeurs d’IA Générative suite à la parution de l’article intitulé « Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks », rédigé par Patrick Lewis et son équipe au sein de Facebook AI Research en 2020. Cette approche a été rapidement adoptée par de nombreux chercheurs, tant dans le milieu académique qu’industriel, en raison de son potentiel à enrichir significativement les capacités des systèmes d’IAs génératives.
RAG est l’acronyme de « Retrieval Augmented Generation ». Cette approche fusionne des méthodes d’extraction d’informations et de génération de contenus par l’intelligence artificielle. Les techniques d’extraction sont intéressantes pour récupérer des données de diverses sources en ligne telles que des articles ou des bases de données, mais elles se limitent à reproduire des informations déjà existantes sans ajouter de nouveautés . À l’opposé, les modèles d’IA génératives sont capables de créer des contenus nouveaux et contextuellement adaptés, bien qu’ils puissent parfois manquer de précision. Ainsi, le modèle RAG est né de l’ambition d’allier les avantages de ces deux mondes : il utilise l’extraction pour identifier les informations les plus pertinentes dans les sources disponibles, puis le modèle de génération transforme ces éléments en réponses complètes et pertinentes, surmontant ainsi les limites de chaque approche prise isolément. Dans le cadre d’un système RAG, l’extraction cible les données nécessaires, tandis que la génération les reformule en une réponse claire et précise, adaptée à la demande.
Les différents avantages de la RAG
Actualité des informations
Les LLMs sont entraînés sur de vastes ensembles de données qui, une fois le processus d’entraînement terminé, ne sont plus mis à jour. Cela signifie que, même si un LLM comprend des informations jusqu’à une certaine date, toute nouvelle information ou événement survenant après cette date n’est pas intégré dans le modèle. En revanche, les modèles RAG peuvent consulter des bases de données ou des corpus externes mis à jour en continu ou périodiquement pour fournir des informations actuelles. Par exemple, si un utilisateur pose une question sur les dernières avancées dans un domaine scientifique spécifique, un modèle RAG peut récupérer et intégrer les résultats de recherches publiées après la dernière mise à jour du modèle LLM, garantissant ainsi que la réponse reflète l’état actuel des connaissances.
Précision des données
Un LLM peut générer des réponses en se basant sur des patterns appris lors de son entraînement, ce qui peut mener à des réponses généralistes ou imprécises pour des questions nécessitant des connaissances spécialisées ou détaillées. Les modèles RAG, en récupérant des informations spécifiques d’un corpus de référence, peuvent fournir des réponses beaucoup plus précises. Par exemple, si une question concerne des statistiques démographiques d’une région spécifique, un modèle RAG peut récupérer ces données directement à partir de sources fiables au lieu de générer une réponse basée sur des estimations ou des généralisations. Cette capacité à accéder à des informations détaillées et spécifiques permet aux RAG de surpasser les LLM en termes de précision des données. Cette solution n’efface cependant pas complètement les risques d’hallucinations dans une réponse.
Gestion des biais
Tous les ensembles de données contiennent des biais, que ce soit en raison de la sélection des données, de la méthode de collecte, ou des préjugés inhérents aux créateurs de l’ensemble de données. Les LLM, étant entraînés sur de vastes ensembles de données, peuvent intégrer et perpétuer ces biais dans leurs réponses. Les modèles RAG, en se basant sur des sources d’informations soigneusement sélectionnées et diversifiées, peuvent aider à atténuer ce problème. Par exemple, en sélectionnant des sources qui ont été identifiées comme ayant des biais différents ou opposés, ou en incluant des sources spécifiquement destinées à représenter des perspectives sous-représentées, un modèle RAG peut produire des réponses qui sont plus équilibrées et moins biaisées. Cela dit, la gestion des biais nécessite une vigilance constante et une évaluation régulière des sources d’informations pour s’assurer qu’elles restent représentatives et équilibrées.
Les différentes limites de la RAG
Sélection et pertinence des sources
La qualité des réponses fournies par un modèle RAG dépend fortement de la sélection des sources d’informations auxquelles il a accès. Trouver, choisir, et maintenir un ensemble de sources fiables, à jour, et représentatives peut s’avérer complexe. Plus encore, il y a aussi le risque que le modèle récupère des informations de sources qui ne sont pas tout à fait pertinentes pour la question posée, ce qui peut mener à des réponses inexactes ou hors sujet. Il y a alors un fort travail d’indexation et d’orchestration pour rendre cette approche viable pour sur un niveau professionnel.
Gestion de la désinformation et des biais
Bien que les RAG puissent potentiellement réduire les biais présents dans les réponses en diversifiant leurs sources, ils ne sont pas à l’abri de récupérer et de propager des informations biaisées ou fausses. La présence de désinformation dans les sources externes peut conduire à générer des réponses qui perpétuent des erreurs ou des préjugés. La sélection des sources doit donc être effectuée avec soin pour minimiser ce risque.
Capacités de raisonnement complexe
Même si les RAG améliorent la pertinence et l’actualité des informations fournies, ils ne résolvent pas nécessairement tous les défis liés au raisonnement complexe et à la compréhension profonde du contexte que peuvent rencontrer les modèles de langage. Dès lors, il subsiste toujours un risque d’hallucination malgré la RAG. Et ce, car le LLM peut parfois ne pas retrouver un certain mot dans la base de données de la RAG. Ou lié une trop grand nombre de réponses ce qui rend généralement les IA génératives moins attentives à l’essentiel.
Intégrité de la réponse
L’intégration d’informations récupérées dans les réponses générées présente un défi en termes d’assurer que les réponses restent cohérentes et logiquement intégrées. Il peut être difficile de garantir que les informations récupérées s’alignent parfaitement avec le reste de la réponse ou avec le modèle du LLM, ce qui peut parfois mener à des hallucinations.
Les solutions
Si on observe des inconvénients, des solutions émergent pour dépasser les limites énoncées précédemment. Par exemple :
- Une des solutions envisageables pour contrer le risque d’hallucination du LLM avec la RAG serait d’ajouter à la base de données vectorielles des métadonnées structurées. C’est-à-dire transformer la donnée non structurée de la RAG pour en ajouter de la donnée structurée permettant un meilleur accès aux informations pertinentes. Toutefois, la promesse d’un “coût zéro” et d’une facilité d’utilisation de la RAG couplée au LLM serait bafouée. D’où la solution d’une hybridation : Il serait peut-être intéressant qu’une IA analytique transforme l’ensemble des données en métadonnées dans la RAG pour faciliter la recherche et la réponse précise à une requête.
- Une autre solution serait de faire des résumés de la base de données de la RAG pour que le LLM puisse comprendre facilement et ne se trompe pas dans une réponse donnée. Là encore, nous comprenons que la RAG n’est pas une solution miracle, mais que cela engendre des coûts pour améliorer la précision des LLMs et réduire leurs hallucinations.
L’intégration de la technologie RAG dans le domaine de l’IA Générative marque une avancée, offrant une synergie entre les capacités des LLMs et les méthodes de récupération d’informations. Cette combinaison promet d’améliorer l’exactitude, la pertinence, et la justesse des réponses fournies par les systèmes d’IA, en repoussant certaines des limitations inhérentes aux LLMs, telles que la mise à jour des connaissances et la précision des données. Les avantages distincts de la RAG, notamment en matière d’actualisation des informations, de précision des données, de personnalisation, et de gestion des biais, soulignent son potentiel pour améliorer le domaine de l’IA Générative.
Cependant, malgré ces avantages indéniables, les défis associés à l’implémentation et à l’opérationnalisation des RAGs ne doivent pas être sous-estimés. Les questions de sélection et de pertinence des sources, la complexité technique et le coût associé, la maintenance des données, ainsi que les risques de désinformation et de propagation de biais exigent une attention minutieuse. De plus, les limites liées au raisonnement complexe et à la cohérence de la réponse révèlent que les RAGs, bien qu’innovants, ne constituent pas une panacée universelle aux défis rencontrés par les LLMs. Toutefois, certaines solutions peuvent émerger pour réduire les problématiques liés à cette architecture, la solution la plus évidente et la plus efficiente est pour nous le couplage par de l’IA analytique au RAG.