accesskey_mod_content

Retrieval Augmented Generation: La clau que obri la porta de la precisió als models del llenguatge

  • Escoltar
  • Copiar
  • Imprimir PDF
  • Compartir

25 gener 2024

Ensenyar als ordinadors a entendre com parlen i escriuen els humans és un vell desafiament en el camp de la intel·ligència artificial, conegut com a processament de llenguatge natural (PLN). No obstant açò, des de fa poc més de dos anys, estem assistint a la caiguda d'este antic bastió amb la arribada dels models grans del llenguatge (LLM) i els interfícies conversacionals.

Introducció

En 2020, Patrick Lewis, un jove doctor en el camp dels models del llenguatge que treballava en l'antiga Facebook AI Research (ara Fique AI Research) publica al costat d'Ethan Perez de la Universitat de Nova York un article titulat:  Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks(Obri en nova finestra)  en el qual explicaven una tècnica per a fer més precisos i concrets els models del llenguatge actuals. L'article és complex per al públic en general. No obstant açò,  en el seu blog(Obri en nova finestra) , varis dels autors de l'article expliquen de manera més assequible com funciona la tècnica de el  RAG . En este post anem a tractar d'explicar-ho de la forma més senzilla possible. 

Els models grans del llenguatge o Large Language Models són models d'intel·ligència artificial que s'entrenen utilitzant algoritmes de Deep Learning sobre conjunts enormes d'informació generada per humans. D'esta manera, una vegada entrenats, han après la forma en la qual els humans utilitzem la paraula parlada i escrita, així que són capaces d'oferir-nos respostes generals i amb un patró molt humà a les preguntes que els fem. No obstant açò, si busquem respostes precises en un context determinat, els  LLM  per si solos no proporcionaran respostes específiques o hi haurà una alta probabilitat que alucinen i s'inventen completament la resposta. Que els  LLM  alucinen significa que generen text inexacte, sense sentit o desconnectat.  Este efecte planteja riscos i desafiaments potencials per a les organitzacions que utilitzen estos models fóra de l'entorn domèstic o quotidià de l'ús personal dels LLM(Obri en nova finestra) . La prevalença de l'al·lucinació en els LLMs, estimada en un 15% o 20% para  ChatGPT , pot tindre implicacions profundes per a la reputació de les empreses i la fiabilitat dels sistemes de IA .

Què és un RAG?

Precisament, les tècniques RAG s'han desenvolupat per a millorar la qualitat de les respostes en contextos específics, com per exemple, en una disciplina concreta o sobre la base de repositoris de coneixement privats com a bases de dades d'empreses.  

RAG  és una tècnica extra dins dels marcs de treball de la intel·ligència artificial, que el seu objectiu és recuperar fets d'una base de coneixements externa per a garantir que els models de llenguatge retornen informació precisa i actualitzada. Un sistema RAG típic (veure imágen) inclou un  LLM , una base de dades vectorial (per a emmagatzemar convenientment les dades externes) i una sèrie de comandos o preguntes. És a dir, de forma simplificada, quan fem una pregunta en llenguatge natural a un assistent com ChatGPT, la qual cosa ocorre entre la pregunta i la resposta és alguna cosa com: 

  1. L'usuari realitza la consulta, també denominada tècnicament prompt. 
  2. El RAG s'encarrega de enriquir eixe prompt o pregunta amb dades i fets que ha obtingut d'una base de dades externa que conté informació rellevant relativa a la pregunta que ha realitzat l'usuari. A esta etapa se li denomina retrieval. 
  3. El RAG s'encarrega d'enviar el prompt de l'usuari enriquit o augmentat a el LLM que s'encarrega de generar una resposta en llenguatge natural aprofitant tota la potència del llenguatge humà que ha après amb les seues dades d'entrenament genèrics, però també amb les dades específiques proporcionades en l'etapa de retrieval. 

Gràfic que il·lustra el procés RAG, explicat en el text anterior

Entenent RAG amb exemples

Posem un exemple concret. Imagina que estàs intentant respondre una pregunta sobre dinosaures. Un  LLM  generalista pot inventar-se una resposta perfectament plausible, de manera que una persona no experta en la matèria no la diferència d'una resposta amb base científica. Per contra, amb l'ús de  RAG , el  LLM  buscaria en una base de dades d'informació sobre dinosaures i recuperaria els fets més rellevants per a generar una resposta completa.  

El mateix ocorria si busquem una informació concreta en una base de dades privada. Per exemple, pensem en un responsable de recursos humans d'una empresa. Este desitja recuperar informació resumida i agregada sobre un o diversos empleats els registres dels quals es troben en diferents bases de dades de l'empresa. Pensem que podem estar tractant d'obtindre informació a partir de taules salarials, enquestes de satisfacció, registres laborals, etc. Un LLM és de gran utilitat per a generar una resposta amb un patró humà. No obstant açò, és impossible que oferisca dades coherents i precisos lloc que mai ha sigut entrenat amb eixa informació a causa del seu caràcter privat. En este cas, RAG vas agafar a el LLM per a proporcionar-li dades i context específic amb el qual poder retornar la resposta adequada. 

De la mateixa forma, un LLM complementat amb RAG sobre registres mèdics podria ser un gran assistent en l'àmbit clínic. També els analistes financers es beneficiarien d'un assistent vinculat a dades actualitzades del mercat de valors. Pràcticament, qualsevol cas d'ús es beneficia de les tècniques RAG per a enriquir les capacitats dels LLM amb dades de context específics. 

  • Informació i dades del sector públic