Perplexity AI accusata di scraping illecito da Cloudflare

Perplexity AI la startup con sede a San Francisco offre un servizio che fornisce risposte in linguaggio naturale, supportate da fonti web citate in linea; è stato il primo chatbot AI in grado di fornire informazioni cercandole su internet. È disponibile in versione gratuita e in una modalità Pro, potenziata da modelli avanzati come GPT‑4.1, Claude 4 Sonnet e altri modelli proprietari di Perplexity.

In queste ultime ore Perplexity AI si trova al centro di una tempesta digitale. Cloudflare, il colosso dei servizi di rete, nel suo Blog ha affermato che Perplexity starebbe utilizzando crawlers nascosti per accedere a contenuti web protetti da direttive esplicite, come il file robots.txt. Questo file, seppur non vincolante in senso tecnico, comunica chiaramente quali aree di un sito devono restare fuori dalla portata dei bot automatici.

Secondo Cloudflare, Perplexity sarebbe invece riuscita ad aggirare tali blocchi adottando tattiche elusive; modificando gli user agent, variando gli ASN e mascherando le sue richieste come se provenissero da browser legittimi e non da bot automatici. Cloudflare per il momento ha rimosso l’azienda dal registro dei bot verificati; inoltre, ha introdotto nuove regole di filtraggio per impedire ulteriori intrusioni illecite. Le implicazioni etiche e legali nei confronti di Perplexity sono tutt’altro che trascurabili.

Come funzionano gli stealth crawlers

L’aspetto tecnico del caso solleva dubbi ben più profondi della semplice disobbedienza a una regola. I cosiddetti stealth crawlers non si comportano come i bot dei motori di ricerca tradizionali, trasparenti e riconoscibili. Si travestono da richieste ordinarie provenienti da utenti umani, nascondendo le proprie tracce tra migliaia di accessi legittimi.

Cloudflare ha portato avanti una serie di test su domini mai pubblicati, resi invisibili ai crawler tramite file robots.txt e blocchi firewall. Nonostante ciò, Perplexity è riuscita a raccogliere contenuti anche da questi spazi protetti. Un comportamento simile non solo mina la fiducia tra fornitori di contenuti e tecnologie AI; rende difficile qualsiasi forma di controllo sulla diffusione non autorizzata di materiale.

Perplexity is repeatedly modifying their user agent and changing IPs and ASNs to hide their crawling activity, in direct conflict with explicit no-crawl preferences expressed by websites. https://t.co/yToVAmwcwn
— Cloudflare (@Cloudflare) August 4, 2025

Se confermato, questo approccio infrange quella sottile linea di rispetto che regola la coesistenza tra automazione e proprietà intellettuale sul web. Le implicazioni riguardano l’accesso, la redistribuzione e il potenziale sfruttamento commerciale dei contenuti online.

E’ chiaro che Perplexity per i suoi servizi ha bisogno di prendere quante più informazioni dal web; ma questo dovrebbe essere svolto sempre in modo lecito e trasparente.

Rischi per il futuro dell’AI sul web

L’accusa lanciata da Cloudflare potrebbe avere effetti sull’intero ecosistema dell’intelligenza artificiale. In gioco non c’è solo il rispetto dei protocolli, ma la legittimità stessa con cui i dati vengono prelevati da Internet. La vicenda ha attirato l’attenzione anche per un altro motivo. Apple, secondo alcune fonti, stava valutando una possibile acquisizione di Perplexity.

Ora però, con l’emergere di queste pratiche opache, lo scenario potrebbe cambiare. Una collaborazione con un’azienda accusata di aggirare i divieti tecnici rischierebbe di danneggiare la reputazione di chi la sostiene. Anche l’aspetto legale resta aperto. I publisher che si sono visti privare di contenuti potrebbero decidere di procedere per vie giudiziarie.

La risposta di Perplexity: provocazione e ambiguità

La difesa pubblica di Perplexity AI è stata immediata. L’azienda ha scelto la piattaforma X per spiegare la propria posizione attraverso un articolo. Secondo quanto dichiarato, le operazioni incriminate non vanno lette come crawling sistematico, ma come richieste guidate da interazioni dirette con le persone. Quando una persona pone una domanda, il sistema cerca in tempo reale la risposta sul web per la persona, senza conservare o riutilizzare i contenuti raccolti. Quindi secondo Perplexity non si tratta di un bot ma di un intelligenza artificiale guidata da una richiesta umana.

The bluster around this issue reveals that Cloudflare’s leadership is either dangerously misinformed on the basics of AI, or simply more flair than cloud. https://t.co/NgliGZCspP
— Perplexity (@perplexity_ai) August 5, 2025

La distinzione tra bot e agente AI sarebbe dunque tutta nella destinazione del dato. Se non viene usato per addestrare modelli o costruire database permanenti, non si tratterebbe di scraping classico. Una posizione che si scontra con l’evidenza tecnica dei tracciamenti rilevati da Cloudflare.

Perplexity e i confini digitali

Nel pieno dell’espansione delle AI generative, l’idea che un assistente intelligente agisca “in tempo reale” su richiesta di chi lo interroga è affascinante. Ma questa dinamica, se non regolata, può portare a comportamenti borderline. E non basta etichettare come “pubblici” i dati del web per giustificarne la raccolta senza condizioni.

Serviranno nuove regole, nuovi strumenti e soprattutto una nuova cultura della trasparenza. Perché il web è aperto, sì, ma non senza regole condivise.

Ultimi Articoli

Perplexity AI accusata da Cloudflare: crawling nascosto

Come funzionano gli stealth crawlers

Rischi per il futuro dell’AI sul web

La risposta di Perplexity: provocazione e ambiguità

Perplexity e i confini digitali