Skip to main content

Punto Privacy – L’addestramento dell’Intelligenza Artificiale generativa (IAG) richiede una mole ingente di dati, anche personali, spesso raccolti con tecniche di Web Scraping

By 5 Giugno 2024Luglio 1st, 2024Blog

Il web scraping è una tecnica utilizzata per estrarre automaticamente grandi quantità di dati, anche personali, da siti web. Questo processo comporta l’utilizzo di software o script che navigano tra le pagine web, raccolgono le informazioni desiderate e le organizzano in un formato utilizzabile, come un foglio di calcolo o un database.

Il web scraping è applicato per numerose finalità tra le quali ricerche di mercato (es: raccolta di dati sui prezzi dei prodotti, recensioni dei clienti, e informazioni sui concorrenti), monitoraggio dei prezzi, raccolta di dati accademici o aggregazione di notizie. Questo fenomeno pone tematiche complesse in tema di violazione dei termini di servizio dei siti web, di proprietà dei dati raccolti e protezione dei dati personali.

La Nota Informativa dell’Autorità Garante concerne esclusivamente dati personali oggetto di diffusione in quanto pubblicati su siti web e piattaforme online.

In merito, si ricorda che per rendere disponibili al pubblico i dati personali è necessario perseguire esclusivamente finalità specifiche e fondare la diffusione on line sulla base di una o più condizioni di legittimità (es: obblighi di trasparenza, pubblicità legale, procedure a evidenza pubblica, diritto di cronaca, contratto in essere con gli interessati).

La Nota Informativa dell’Autorità Garante si rivolge ai gestori di siti web e di piattaforme online, sia pubblici che privati, operanti in Italia, che rivestano al tempo stesso il ruolo di titolari del trattamento, che rendano pubblicamente disponibili, dati (anche personali), infine raccolti dai bot di terze parti.

La nota segnala possibili azioni di contrasto che potrebbero essere implementate al fine di prevenire, ove ritenuta incompatibile con le basi giuridiche e le finalità della pubblicazione, la raccolta di dati da parte di terzi per finalità di addestramento dei modelli di intelligenza artificiale.

La Nota invita i Titolari del trattamento a valutare, caso per caso, quando risulti necessario, in conformità alla vigente disciplina, sottrarre i dati personali che trattano, ai bot di terze parti mediante l’adozione di azioni di contrasto, che pur non potendosi considerare esaustive né per metodo, né per risultato, possono comunque contenere gli effetti dello scraping.

Su questo aspetto l’Autorità Garante precisa che la Nota Informativa che non si occupa di indicare le misure di sicurezza che i titolari del trattamento debbono implementare per proteggere i dati personali da operazioni qualificabili come web scraping “malevolo”, in quanto in grado di sfruttare delle vulnerabilità dei sistemi informativi non adeguatamente protetti dal punto di vista della sicurezza informatica, rimanendo fermo, ai sensi dell’art. 32 del RGPD, l’obbligo in capo ai titolari del trattamento di assicurare, su base permanente, la riservatezza, l’integrità, la disponibilità e la resilienza dei sistemi e dei servizi di trattamento.

Le azioni di contrato individuate possono così riassumersi:

a) Limitare l’accesso ai dati solo agli utenti registrati: la previa registrazione ritenuta una misura efficace per proteggere i dati personali dal web scraping, contribuendo indirettamente ad una maggiore tutela dei dati.

b) Vietare espressamente il web scraping nei termini di servizio: la soluzione è un deterrente dal punto di vista contrattuale.

c) Monitorare le richieste HTT: l’obiettivo è individuare flussi anomali di dati e adottare contromisure di protezione adeguate, rafforzando la sicurezza dei dati con il fenomeno analizzato.

d) Utilizzare tecniche come CAPTCHA e modifiche periodiche del markup HTML per ostacolare i bot.

Il web scraping si basa sull’utilizzo di bot: quindi qualunque tecnica in grado di limitare l’accesso ai bot si rivela un efficace metodo per arginare l’attività automatizzata di raccolta dati che viene effettuata tramite tali software.