Governar les dades per a minimitzar el risc de la IA. De què parlem exactament?

11/02/2026 17:48 h.

Governar les dades per a minimitzar el risc de la IA. De què parlem exactament?

Que governar les dades és essencial per millorar el governar la IA és des de fa mesos un mantra que escoltem pràcticament en cada foro o jornada. Ara bé, coneixem l’impacte real de les dades en el desplegament de la IA?

Aterrar l’anàlisi dels riscos que preveu el RIA de forma pragmàtica en el del cicle de vida del desenvolupament dels sistemes d'IA no és fàcil. Amb aquesta aproximació, volem ajudar a entendre que els riscos bàsicament es produeixen o deriven de 4 capes que trobareu en qualsevol sistema de IA, i per tant, com podem minimitzar-los. La bona governança de la IA no va de saber-ne més, sinó de saber quan preguntar, quan aturar-se i quan escalar.

Entendre com es distribueixen aquests riscos és clau per a les administracions perquè la IA no substitueix la responsabilitat administrativa: la redistribueix.

Quan despleguem un sistema de IA, cal entendre quines capes o peces es composa el sistema, perquè en funció d’aquestes capes, haurem de aproximar uns riscos diferents. Quins podríem dir que són aquestes capes:

El model fundacional (LLM), que és el sistema generalista. Aquesta capa de vegades només s’utilitza per a que entengui o mostri els resultats en llenguatge similar a l’humà, o per a que realitzi funcions molt concretes per a les que funciona amb un alt nivell de precisió (perquè es basa en funcions estadístiques) com per exemple, classificar o fer resums.

Les dades que s'utilitzen com a font i context. Aquesta capa és molt important perquè és la que converteix el nostre sistema d’IA en un especialista. En aquest cas, disposar de moltes dades, de molta qualitat és essencial.
Els algoritmes (en el cas d'agents). Aquesta capa orquestradora és el conjunt de connectors i d’accions deterministes que denominarem en aquest context “algoritme”. És la part del sistema d’IA més explicable.
La infraestructura. Aquesta capa, on guardem les dades i l’algoritme. Tots els elements del sistema han de comptar amb mesures de protecció previstes per l’Esquema Nacional de Seguretat.

Anem pas per pas, capa a capa.

El model fundacional (LLM)

Aquest és probablement l'àmbit en el que menys transparència i explicabilitat podem proporcionar. Treballem en moltes ocasions amb grans models, desenvolupats per les grans empreses del sector que no alliberen informació de com han entrenat els seus models. En aquest sentit, l'estudi realitzat per Harvard "Which humans?" (2023)[1] identifica que allò que ChatGPT tracta com “sentit comú” reflecteix una part molt concreta del món, les societats WEIRD (Western, Educated, Industrialized, Rich, and Democratic societies). En l'anàlisis, mostra que el model s'apropa a perfils culturals com EE.UU., Canadà o Europa Occidental, i s'allunya significativament d'altres contextos culturals.

Imatge que conté text, diagrama, Font, mapa Pot ser que el contingut generat per IA no sigui correcte.

Font: Gràfic de l’estudi “Wich humans?”

Podem fer alguna cosa des de l'administració pública per impulsar una IAGenerativa sense esbiaxos culturals? indubtablement si, per exemple realitzant accions que modelin la iniciativa privada cap a l'ús i entrenament de models fundacionals públics, on existeix més documentació del procediment i de les fonts d'entrenament. En el nostre context cultural sense cap mena de dubte, el model de referència és Salamandra, emmarcat dins del projecte AINA impulsat pel Barcelona Supercomputing Center i la Generalitat de Catalunya. Destaquen en el seu nucli, una presència conscient del català en el seu entrenament i també una acurada selecció dels contingut que l'alimenta.

Un altre element a tenir en compte és partir de la base d’un model generalista i realitzar fine-tuning o preentrenament. Aquest preentrenament és un procés que aprofita el coneixement d’un model generalista i l’ajusta amb noves fonts de dades específiques per millorar una tasca concreta. L’avantatge d’aquest procés és que el sistema generalista guanya en precisió de la resposta (reduïm els riscos) i podem controlar que les fonts que l’alimenten són suficients i de qualitat per poder desenvolupar la tasca encarregada.

En aquest sentit és important també parlar del concepte de “guarda-rails”.

Els guarda-rails són mesures de seguretat, regles, filtres i directrius tècniques dissenyades per limitar el comportament de la IA generativa. D’aquesta forma, assegurem que respongui dins d’uns límits ètics, legals, tècnics i sobretot segurs. Què eviten els guarda-rails?

Que el sistema generi respostes no permeses: contingut tòxic, insults, discurs d’odi o material il·legal.
Al·lucinacions: reduir la generació d’informació falsa
Accés a dades confidencials: evitar que el sistema connecti amb sistemes que alliberi informació confidencial
Que les respostes s’allunyin del perfil de l’administració, és a dir que no estiguin alineades amb polítiques, valors o to de comunicació de l’administració.
Fuites de seguretat: detectar intents de manipular el sistema per a saltar-se les regles.

Cal tenir en compte que els guarda-rails són controls tècnics, no mecanismes de govern; i no substitueixen la governança, la supervisió humana ni els controls organitzatius.

Per tant, per minimitzar els riscos de biaixos culturals i augmentar la precisió en la resposta dels sistemes generalistes d’IA, recomanem optar per models públics que hagin documentat les fonts que s’han fet servir per al seu entrenament; preentrenar amb fonts de dades precises que augmentin la precisió de la seva resposta; i analitzar i configurar els guarda-rails amb els que treballarà el sistema d’IA.

En aquest sentit, la supervisió humana és essencial. Si el sistema et dona una resposta que no pots justificar en un informe, no l’has d’utilitzar.

Les dades que s’utilitzen com a font

A més del fine-tuning, sovint les consultes a un sistema d’IA es realitzen referides a un conjunt de documents. És el que es coneix com a RAG (Retrieval-Augmented Generation). Un RAG és, a la pràctica, com fer que la IA només pugui respondre mirant els teus procediments interns, no Internet.

Crear un RAG és fàcil (no requereix tasques de preentrenament i es pot fer en temps real) i millora les respostes de la IA, connectant-la a fonts de dades externes en temps real sense modificar el model, augmentant la confiabilitat i precisió de les respostes.

En aquest cas és molt important analitzar no només la qualitat, sinó també la quantitat de dades (que permetran al sistema prendre decisions fiables) i els biaixos que s’amaguen en les dades, o les dades que no estem incorporant al RAG i que pot fer el sistema de IA estigui “cec” en determinats àmbits.

Com a recomanacions generals per a reduir els riscos, en preparar les dades per a elaborar un RAG cal:

Avaluar la qualitat d’origen i netejar les dades (deduplicar, estandarditzar, eliminar soroll)
Estructurar i preparar la informació per a que el sistema l’entengui (és el que es coneix com a chunking). Aquest part implica crear fragments lògics i enriquir la informació amb metadades per a donar context.
Analitzar els biaixos i enriquir amb fonts que els balancegin.
Realitzar auditories regulars per auditar els conjunts de dades analitzant la precisió, la completesa i els biaixos emergents en les fonts.
Permet que l’usuari final marqui respostes esbiaixades o incorrectes per millorar els sistema.

Si voleu aprofundir en el funcionament d’un RAG us recomanem aquest article: https://datos.gob.es/es/blog/tecnicas-rag-como-funcionan-y-ejemplos-de-casos-de-uso

Riscos derivats dels algoritmes (en el cas de sistemes híbrids i d’agents)

La part més explicable dels sistemes d’IA és la part determinista de l’algoritme. Els sistemes híbrids i els agents combinen la creativitat i la comprensió del llenguatge natural propi d’un sistema d’IA generalista amb regles precises, reproduïbles, segures i auditables, permetent guanyar en explicabilitat. Els sistemes híbrids són una opció idònia per a desplegar sistemes d’IA perquè la IA generativa actua como “cervell” o motor de raonament, i el codi determinista actua como guarda-rail que assegura que les respostes siguin de qualitat.

En aquests casos, és essencial documentar de manera fàcil i gràfica què fa el sistema d’IA (entrades, components d’IA, components deterministes, capa d’integració i sortides) i identificar els llindars de confiança, els punts de supervisió humana (en quins punts el sistema d’IA no podrà decidir) i els mecanismes de fallada (què passa si...).

Si voleu aprofundir sobre els llindars de confiança us recomanem aquest article: https://www.eesel.ai/es/blog/setting-confidence-thresholds-for-ai-responses

Riscos derivats de la infraestructura

El desplegament dels sistemes d’IA estan sotmesos a la normativa de protecció de dades i ciberseguretat i per tant, han de complir amb els estàndards i processos de gestió i auditoria previstos per l’Esquema Nacional de Seguretat.

Decàleg essencial sobre l'ús de la IA

[1] https://www.researchgate.net/publication/374148996_Which_Humans