Skip to main content

Articolo dell’Avv. Lia Ruozi Berretta, Partner

***

Il mondo delle Intelligenze Artificiali è in continua crescita e miglioramento, tanto che il settore, secondo un report della società Bloomberg, partendo da un mercato di 40 miliardi nel 2022, potrebbe espandersi sino a generare un fatturato di 1,3 trilioni di dollari entro il 2032. Il trend, d’altra parte, è sempre più evidente anche agli occhi dei consumatori; basti pensare, ad esempio, all’impennata dei siti di I.A. generativa, come Chat GPT, utili per effettuare ricerche, scrivere testi, e persino creare nuove immagini, video e musica

In un contesto simile, dunque, è necessario interrogarsi sulla compatibilità tra i nuovi sistemi e la normativa nazionale ed europea in materia di privacy e riservatezza dei dati. Qualsiasi Intelligenza Artificiale, per funzionare in modo adeguato, e, dunque, per “addestrare” i propri algoritmi a rispondere in modo soddisfacente ed aggiornato alle più varie richieste che le vengono presentate, necessita di un’immensa mole di informazioni che, perlopiù, sono reperibili online. La maggior parte delle intelligenze artificiali presenti sul mercato, per immagazzinare tali dati, si avvale di sistemi di web scraping, o “pesca a strascico”, che consentono di incamerare un’impressionante quantità di dati da fonti pubbliche, e, in particolare, da siti e piattaforme online. La peculiarità di tale attività, peraltro, è che, nel caso delle I.A., i dati reperibili non sono solo quelli messi a disposizione direttamente sul web, ma anche quelli che si ricavano dall’analisi di immagini e pdf, che i siti in questione sono capaci di estrarre e riutilizzare. 

Questo sistema, che era già stato al centro di vivaci dibattiti in relazione al rischio di lesione del diritto d’autore e del copyright, è oggi oggetto di indagine da parte del Garante Privacy italiano, che teme il rischio di accesso a dati ed informazioni personali pubblicati online per specifiche finalità di trattamento e non destinati ad uso diverso. Si pensi, ad esempio, alle informazioni rese disponibili per finalità di cronaca, di trasparenza amministrativa o, anche, per determinati obiettivi commerciali (rispetto ai quali sia stato specificamente prestato il consenso da parte degli interessati), che possono essere estratte ed utilizzate per l’addestramento degli algoritmi da parte dei siti di I.A.

Proprio per tali ragioni, lo scorso 22 novembre il Garante Privacy ha avviato un’indagine conoscitiva finalizzata a verificare se i siti online che agiscono in qualità di titolari del trattamento, sia pubblici che privati, abbiano adottato adeguate misure di prevenzione contro le attività di “raschiamento” dei dati da parte delle società che gestiscono le I.A. 

La norma di cui si teme la violazione, in particolare, è l’art. 32 del GDPR, in virtù della quale i titolari ed i responsabili del trattamento, che operano su specifiche basi giuridiche (siano esse costituite dall’esercizio di un diritto o dal consenso dell’interessato), devono apprestare adeguate tutele al fine di evitare rischi ai diritti ed alle libertà delle persone fisiche, tra i quali è particolarmente significativo il rischio della divulgazione non autorizzata dei dati personali o dell’accesso agli stessi da parte di terzi. In questa prospettiva, il Garante ha rivolto un invito alle associazioni di categoria ed agli esperti del settore, in modo che facciano pervenire, entro 60 giorni dall’apertura della consultazione pubblica, iniziative, commenti e contributi circa le misure adottate ed adottabili da parte dei titolari del trattamento, al fine di evitare l’estrazione massiva di dati personali dalle piattaforme e dai siti online. L’indirizzo email indicato cui inviare la relativa documentazione è webscraping@gpdp.it.