Nell’epoca dell’Intelligenza Artificiale (IA), i dati personali sono diventati il carburante che alimenta i sistemi di IA. Ogni giorno miliardi di informazioni vengono raccolte, elaborate e archiviate da tecnologie sempre più sofisticate.

L’uso di questa enorme mole di dati da parte dell’Artificial Intelligence permette di creare applicazioni avanzate e potenti, capaci di supportare decisioni in ambiti cruciali come la sanità, la giustizia, l’istruzione e il lavoro. Ma questa diffusione porta con sé interrogativi importanti: come evitare che i sistemi di IA, alimentati da dati personali, generino risultati discriminatori? Come possiamo garantire una corretta protezione dei dati personali, soprattutto quando vengono utilizzati in contesti sensibili?

L’utilizzo della IA generativa, nota anche come Gen AI, e delle sue applicazioni apre nuove possibilità, ma pone anche sfide etiche e giuridiche rilevanti, che riguardano tanto il trattamento dei dati personali quanto il modo in cui questi sistemi apprendono, decidono e interagiscono con gli esseri umani.

Che cosa sono i bias nei sistemi di IA

Il termine bias, o bias del Machine Learning, si riferisce a una distorsione sistematica che altera il comportamento dell’IA, portando a risultati ingiusti o inaccurati. Le distorsioni possono manifestarsi in varie forme e derivare da più fattori:

  • bias storico: si verifica quando l’IA viene addestrata su dati che riflettono discriminazioni del passato. Ad esempio, se un algoritmo apprende da dati in cui le donne sono raramente promosse a ruoli dirigenziali, tenderà a replicare questo schema;
  • bias di rappresentazione: si genera quando alcuni gruppi sono poco o per nulla rappresentati nel dataset. Questo limita la capacità dell’IA di generalizzare equamente;
  • bias di misurazione: si ha quando i dati raccolti sono imprecisi o non adatti a rappresentare correttamente un fenomeno;
  • bias di aggregazione: si manifesta quando l’analisi di dati su larga scala penalizza i singoli o i piccoli gruppi, appiattendo le diversità individuali.

Oltre a questi, esistono anche bias algoritmici, legati alla progettazione o al funzionamento degli algoritmi stessi, che possono introdurre errori anche in presenza di dati corretti.

Esempi pratici di bias: quando l’IA discrimina

Le applicazioni dell’IA sono numerose, ma non sempre eque. I sistemi di riconoscimento biometrico, usati ad esempio dalla polizia, hanno mostrato maggiori margini di errore con donne e persone di etnie minoritarie, segno evidente di un bias di rappresentazione nei dati di addestramento.

Un altro caso emblematico è quello dell’algoritmo COMPAS, utilizzato nel sistema giudiziario statunitense per valutare il rischio di recidiva. È emerso che tendeva a classificare come più pericolosi gli imputati neri rispetto ai bianchi, anche a parità di condizioni. Questo è un classico esempio di bias razziale.

Nel campo educativo, sistemi automatici come GRADE hanno favorito studenti provenienti da contesti privilegiati, penalizzando chi non aveva accesso a università di élite. Simili distorsioni si riscontrano anche nei software per la selezione del personale, dove alcuni algoritmi, addestrati su vecchi dati aziendali, hanno finito per preferire candidati uomini, replicando schemi di discriminazione di genere.

Comitato Europeo Protezione Dati Personali: due documenti per orientarsi

Per rispondere a queste problematiche, il Comitato Europeo per la Protezione dei Dati (EDPB) ha promosso il progetto “AI: Algoritmi Complessi e Supervisione Efficace della Protezione dei Dati”, pubblicando due documenti fondamentali.

Il primo analizza in modo dettagliato le tipologie di bias presenti nei sistemi di IA. L’identificazione della provenienza dei bias è fondamentale per un’azione incisiva e per scongiurare che sistemi di IA “deviati” arrechino danno alle persone. Il documento propone anche alcune tecniche per mitigare tali bias durante le diverse fasi del ciclo di vita del modello (dalla preparazione dei dati alla produzione degli output).

Il secondo documento, invece, si concentra su un aspetto cruciale per i cittadini: l’esercizio dei diritti (rettifica e cancellazione) quando vengono trattati dati personali nei sistemi di IA. Il testo evidenzia come questi diritti siano difficili da garantire in contesti dove i modelli sono addestrati su grandi moli di dati, come accade con le reti neurali profonde. Per esempio, eliminare l’impatto di un dato una volta che è stato “assorbito” dal modello è tecnicamente complesso.

Per questo, il documento esplora soluzioni come il riaddestramento del modello (piuttosto difficile da realizzare) e il disapprendimento (che consente di rimuovere o aggiornare specifiche conoscenze, senza ricorrere al riaddestramento).

Strategie concrete per un’IA più equa: dal dato sintetico al consenso trattamento dati personali

Contrastare i bias e garantire il rispetto della protezione dei dati personali è possibile, ma richiede interventi su più livelli. Le principali strategie attualmente proposte sono:

  1. dati sintetici: si tratta di dati artificiali, creati al computer, che simulano le caratteristiche di dati reali senza contenere informazioni identificabili. Possono essere utilizzati per rappresentare gruppi minoritari in modo bilanciato, riducendo il rischio di distorsioni e migliorando l’equità del sistema. Inoltre, poiché non sono direttamente collegati a individui reali, consentono di rispettare più facilmente le norme sulla privacy;
  2. sorveglianza umana (human in the loop): prevede la presenza attiva di operatori umani durante l’uso dell’IA, per monitorare, correggere e intervenire in caso di comportamenti anomali. Sistemi come InstructGPT, basati su feedback umani, dimostrano come la supervisione possa migliorare l’allineamento dell’IA con i valori umani;
  3. trasparenza nel trattamento dati personali: informare chiaramente gli utenti attraverso una dettagliata informativa sul trattamento dei dati personali è essenziale, così come lo è ottenere il consenso al trattamento dei dati personali in modo consapevole. Solo con la trasparenza si può costruire un rapporto di fiducia tra IA e cittadini.

Strategie aggiuntive contro i bias

Oltre a queste strategie fondamentali, un approccio efficace per contrastare i bias e tutelare i dati personali implica azioni concrete lungo l’intero ciclo di vita dei sistemi di IA. Ciò include una selezione accurata e diversificata del team di stakeholder che definisce i dati di addestramento per i modelli supervisionati, garantendo una formazione adeguata per mitigare pregiudizi inconsci.

È cruciale addestrare i modelli con dati completi e bilanciati, che riflettano fedelmente la demografia reale, evitando input distorti che generano output errati. La composizione eterogenea del team di sviluppo dell’IA è altrettanto vitale, poiché diverse prospettive contribuiscono a identificare e affrontare i bias in modo più efficace.

Inoltre, è imperativo prestare attenzione alle potenziali distorsioni in ogni fase dell’elaborazione dei dati, dalla pre-elaborazione alla post-elaborazione. Un monitoraggio continuo e rigoroso dei modelli in produzione, con dati reali e valutazioni indipendenti, permette di rilevare e correggere tempestivamente eventuali distorsioni emergenti.

Infine, è necessario considerare e mitigare i problemi infrastrutturali, poiché anche l’hardware e i sistemi di raccolta dati possono involontariamente introdurre bias.

Guardare avanti: una sfida collettiva

L’IA non è neutrale, perché apprende da dati che riflettono le imperfezioni del nostro mondo. Ma proprio per questo può diventare uno strumento potente di cambiamento, se sviluppata con responsabilità. Un “pensiero ibridoche integri le capacità computazionali dell’IA con la riflessione critica e i valori umani è la chiave per progettare un futuro digitale che tuteli le persone, senza rinunciare all’innovazione.

Le regole introdotte dall’AI Act e l’azione del Garante per la protezione dei dati personali rappresentano un primo passo importante, ma il cammino è ancora lungo. Il successo delle applicazioni dell’IA dipenderà dalla nostra capacità di bilanciare potenza tecnologica e diritti umani, partendo sempre dal rispetto dei dati e della dignità delle persone e dalla garanzia di una corretta autorizzazione al trattamento dei dati personali.