Anonimització automatitzada de dades en documents administratius

Descripció breu: Aquesta prova de concepte (PdC) explora l’ús de la intel·ligència artificial per automatitzar l’anonimització de dades personals en documents administratius, facilitant-ne la publicació en portals de transparència i l’accés a la informació pública. El sistema, basat en models de llenguatge entrenats específicament, detecta i emmascara dades sensibles en documents PDF, mantenint-ne la llegibilitat i estructura. 

Resultats destacats: 

  • Alta precisió en la detecció de dades sensibles en PDF verticals 
  • Arquitectura escalable i segura desplegada sobre AWS 
  • Processament asíncron i traçable de documents 
  • Limitacions en formats i etiquetes provades 

Recomanació: Continuar el desenvolupament amb aprenentatge supervisat, ampliar els formats compatibles i incorporar funcionalitats com l’edició manual de màscares i la integració amb sistemes corporatius. 

Promotor: Diputación de Barcelona

Estado: Iniciat

Ver documentación