Blog

  • Home
  • Blog
  • I tuoi siti sono protetti contro il web scraping?

Il 30 maggio 2024, il Garante per la protezione dei dati personali ha pubblicato una nota informativa che fornisce delle linee guida per proteggere i dati personali pubblicati su siti web e piattaforme online dal web scraping. Questa pratica, che consiste nella raccolta automatizzata di dati su internet, è spesso utilizzata per addestrare modelli di Intelligenza Artificiale Generativa, e può minare la privacy e la sicurezza dei dati personali. Per questo motivo il Garante ha emesso una serie di raccomandazioni invitando i titolari del trattamento ad adottare necessarie misure preventive.

Nella nota il Garante afferma che “Si parla di web scraping laddove l’attività di raccolta massiva ed indiscriminata di dati (anche personali) condotta attraverso tecniche di web crawling è combinata con un’attività consistente nella memorizzazione e conservazione dei dati raccolti dai bot per successive mirate analisi, elaborazioni ed utilizzi.”

La distinzione tra pratiche etiche e non etiche dipende dalla conformità alle normative vigenti e al GDPR.

Di conseguenza, le aziende devono impegnarsi ad adottare misure tecniche e organizzative adeguate, come valutazioni di impatto sulla protezione dei dati (DPIA) e pratiche di trasparenza.

Web scraping e AI generativa

Il web scraping è particolarmente critico quando viene utilizzato per l’addestramento dei modelli di AI generativa, poiché la necessità di grandi quantità di dati spesso include informazioni personali, il cui trattamento deve essere conforme alle normative del GDPR.

L’accountability, un principio fondamentale del GDPR, richiede ai titolari del trattamento di essere in grado di dimostrare attivamente la conformità alle norme vigenti. Ciò implica l’implementazione di adeguate misure tecniche e organizzative per proteggere i dati personali trattati, come politiche di protezione dei dati, formazione del personale e gestione delle violazioni dei dati.

Misure preventive contro il web scraping

Per prevenire il web scraping non autorizzato, il Garante consiglia di adottare una serie di misure di contrasto, tra cui:

  • creazione di aree riservate accessibili solo previa registrazione degli utenti
  • inserimento di clausole anti-scraping nei termini di servizio dei siti web
  • monitoraggio del traffico web per individuare flussi anomali di dati
  • utilizzo di soluzioni tecnologiche in grado di limitare l’accesso ai bot, come l’inserimento di verifiche CAPTCHA o l’intervento sul file robot.txt.

Queste misure aiutano a mitigare i rischi di raccolta indiscriminata di dati personali e devono essere valutate dai titolari del trattamento in base al principio di accountability, considerando lo stato dell’arte tecnologico e i costi di attuazione.

L’intelligenza artificiale generativa porta indubbiamente benefici alla società ma richiede una grande quantità di dati, spesso raccolti indiscriminatamente. Per questo i gestori di siti e piattaforme online devono valutare quando è necessario proteggere i dati personali dai bot di terze parti, in conformità con le leggi sulla privacy, e devono saper adattarsi costantemente alle evoluzioni tecnologiche e normative.

Visualizza la Nota informativa del Garante

 

Fonte: CyberSecurity360 (cybersecurity360.it)

Leave Comment

Iscrizione alla Nostra Newsletter

Rimani aggiornato sui nostri prodotti, servizi e sulle ultime novità.

* Campi Obbligatori