GitHub usa i dati dei developer per il training di Copilot

A partire dal 24 aprile, i dati di interazione dei developer con Copilot Free, Pro e Pro+ — inclusi input, output, snippet di codice e tutto il contesto associato — saranno usati per addestrare e migliorare i modelli AI di GitHub, salvo opt-out esplicito.

Non si tratta di un piccolo aggiornamento nascosto in fondo a una policy. È un cambiamento nel modo in cui Microsoft intende sviluppare il suo assistente per i programmatori.

I modelli iniziali erano stati costruiti su dati pubblici e campioni di codice artigianali. Negli ultimi mesi, però, GitHub ha iniziato a integrare dati di interazione dei dipendenti Microsoft, ottenendo miglioramenti tangibili, tra cui un aumento dei tassi di accettazione dei suggerimenti in diverse lingue di programmazione.

Se i dati interni hanno già prodotto risultati, estendere la raccolta alla base di developer reali dovrebbe amplificare ulteriormente la qualità del modello. Un’impostazione sensata dal punto di vista tecnico, ma che pone domande sul fronte della privacy e del consenso.

Cosa raccoglierà esattamente GitHub e chi è escluso

I dati che GitHub potrà raccogliere e usare coprono un perimetro ampio. Nella raccolta rientrano gli output accettati o modificati dal developer, gli input inviati a Copilot (comprese le porzioni di codice mostrate al modello), il contesto del codice intorno alla posizione del cursore, i commenti e la documentazione scritti, i nomi di file, la struttura del repository e i pattern di navigazione, oltre alle interazioni con le funzionalità di Copilot come chat e suggerimenti inline. Sostanzialmente tutto ciò che accade durante una sessione di lavoro con l’assistente.

Tuttavia, la raccolta non riguarda tutti. Gli account Copilot Business ed Enterprise sono esclusi. Anche i repository di proprietà aziendale rimangono esclusi. Secondo le FAQ di GitHub sulla modifica della policy, anche studenti e docenti rientrano tra le eccezioni.

Sul fronte della condivisione, le informazioni potranno essere trasmesse alle affiliate di GitHub, ovvero le società del gruppo Microsoft. Tuttavia, queste informazioni non sono cedute a fornitori terzi di modelli AI né ad altri provider indipendenti.

Se si usa Copilot con un account Free o Pro, il proprio flusso di lavoro quotidiano rientra quindi nel perimetro di raccolta, a meno di un intervento attivo nelle impostazioni.

Come fare opt-out

Il meccanismo di consenso scelto da GitHub è quello dell’opt-out, non dell’opt-in. Chi non fa nulla sarà automaticamente incluso nel programma di raccolta dati a partire dal 24 aprile.

Chi aveva già disattivato in passato l’opzione di raccolta dati per il miglioramento del prodotto non dovrà fare nulla. La preferenza sarà mantenuta e i dati non saranno usati per il training, a meno di una scelta esplicita in senso contrario.

Per tutti gli altri, il modo più rapido per uscirne è accedere alle impostazioni di GitHub, nella sezione Privacy, e disattivare l’opzione dedicata. In alternativa, si può navigare direttamente a github.com/settings/copilot/features e cercare la voce “Allow GitHub to use my data for AI model training”.

Vale la pena agire prima della scadenza, soprattutto se si usa Copilot su progetti che contengono logica proprietaria, architetture sensibili o codice che si preferisce non condividere — anche in forma aggregata e anonima.

Un equilibrio difficile tra miglioramento e fiducia

La scelta di GitHub è comprensibile dal punto di vista strategico. I dati reali producono modelli migliori, e i competitor stanno facendo lo stesso. Il vero problema, però, è la modalità di raccolta. Adottare l’opt-out come default significa che la maggior parte dei developer contribuirà al training semplicemente per inerzia, senza una scelta consapevole.

GitHub sostiene che partecipare al programma aiuterà i modelli a comprendere meglio i flussi di lavoro, a fornire suggerimenti di codice più accurati e sicuri, e a individuare potenziali bug prima che raggiungano la produzione.

Tuttavia, il fatto che si tratti di dati attivi, ovvero di sessioni di lavoro in corso, introduce una sensazione di sorveglianza che molti developer troveranno scomoda.

La fiducia in uno strumento professionale si costruisce anche sulle modalità di gestione delle scelte. GitHub ha la possibilità di uscirne bene se sarà trasparente sui risultati e sui meccanismi di tutela. Per ora, la cosa più concreta da fare è verificare le proprie impostazioni prima del 24 aprile e decidere consapevolmente da che parte stare.

Ultimi Articoli

GitHub userà i dati dei developer per il training di Copilot

Cosa raccoglierà esattamente GitHub e chi è escluso

Come fare opt-out

Un equilibrio difficile tra miglioramento e fiducia

Articoli collegati