Anonimització automatitzada de dades en documents administratius
Descripció breu: Aquesta prova de concepte (PdC) explora l’ús de la intel·ligència artificial per automatitzar l’anonimització de dades personals en documents administratius, facilitant-ne la publicació en portals de transparència i l’accés a la informació pública. El sistema, basat en models de llenguatge entrenats específicament, detecta i emmascara dades sensibles en documents PDF, mantenint-ne la llegibilitat i estructura.
Resultats destacats:
- Alta precisió en la detecció de dades sensibles en PDF verticals
- Arquitectura escalable i segura desplegada sobre AWS
- Processament asíncron i traçable de documents
- Limitacions en formats i etiquetes provades
Recomanació: Continuar el desenvolupament amb aprenentatge supervisat, ampliar els formats compatibles i incorporar funcionalitats com l’edició manual de màscares i la integració amb sistemes corporatius.
Promotor: Diputación de Barcelona
Estado: Finalitzat
Ver documentación

