Google Research ha presentato SensorLM, una famiglia di modelli AI progettati per collegare i segnali multimodali dei sensori indossabili al linguaggio naturale. Questo innovativo sistema di intelligenza artificiale è stato addestrato su un’enorme quantità di dati: ben 59,7 milioni di ore di informazioni raccolte da oltre 103.000 persone in tutto il mondo.

La funzione principale di SensorLM è quella di elaborare e convertire i dati provenienti da dispositivi come smartwatch e fitness tracker in descrizioni comprensibili e significative in linguaggio naturale. Questa capacità apre nuove possibilità nella comprensione della nostra salute e delle nostre attività quotidiane; trasformano dati grezzi in informazioni contestualmente rilevanti. I dispositivi indossabili sono ormai onnipresenti nelle nostre vite, registrano continuamente una ricca serie di informazioni su di noi. Dalla frequenza cardiaca ai passi compiuti, dal sonno all’attività fisica.
Tuttavia, nonostante la vasta quantità di dati raccolti, spesso manca il contesto necessario per interpretare correttamente queste informazioni. SensorLM risponde a questa esigenza, colmando il divario tra i dati sensoriali grezzi e il loro significato e valore nel mondo reale. Il modello è in grado di fornire descrizioni dettagliate che vanno oltre semplici misurazioni numeriche; il modello offre un report completo dello stato fisico e delle attività di una persona, in linguaggio naturale.
Ad esempio, invece di limitarsi a segnalare una frequenza cardiaca di 150 battiti al minuto, SensorLM può segnalare situazioni diverse come “Hai eseguito una corsa vigorosa in salita” o “Hai eseguito un’attività di corsa stressante che richiede un riposo di 2 giorni“. Questa capacità di interpretazione contestuale rende i dati dei dispositivi indossabili molto più utili; sia per le persone comuni che per i professionisti della sanità. SensorLM promette di trasformare il modo in cui interagiamo con i dati sulla nostra salute e le nostre attività quotidiane.
Dietro le quinte: come funziona SensorLM
Alla base di SensorLM si trova una tripla architettura composta da tre componenti fondamentali: un encoder per i segnali provenienti dai sensori indossabili; un encoder per il testo naturale; e infine un decoder multimodale. I segnali biometrici, raccolti in precise sequenze temporali, vengono trattati tramite un’architettura che consente al modello di cogliere sia i dettagli puntuali di breve durata sia le tendenze distribuite nel tempo.
L’addestramento di SensorLM avviene attraverso la combinazione di due tecniche:
- Contrastive Learning: serve per creare un allineamento preciso tra le rappresentazioni testuali e quelle sensoriali. Il sistema apprende a distinguere, tra diverse opzioni, la descrizione corretta per un determinato segmento di dati;
- Generative Pre-training: permette al modello di generare in modo autonomo frasi descrittive coerenti.
Queste due metodologie, combinate in un framework unico, offrono precisione descrittiva e flessibilità nell’adattamento a compiti diversi. SensorLM è progettato per essere modulare; ciò consente al sistema di comportarsi in modo simile a modelli multimodali noti come CLIP (focalizzato sull’allineamento), Cap (orientato alla generazione) e CoCa (ibrido). Tutti questi approcci vengono utilizzati come configurazioni specifiche all’interno di una stessa architettura unificata.

Google ha sviluppato quattro varianti progressive del modello: SensorLM-S, SensorLM-B, SensorLM-L e SensorLM-XL. La dimensione di ciascun modello varia per numero di parametri; si parte da 3 milioni e si arriva fino a 1,27 miliardi. Questa scalabilità consente di bilanciare prestazioni e risorse computazionali, rendendo SensorLM utilizzabile sia in scenari a bassa potenza, sia in contesti cloud ad alta intensità.
Come SensorLM trasforma i segnali grezzi in descrizioni naturali
Una delle componenti più sofisticate di SensorLM è il sistema di generazione automatica di didascalie gerarchiche. Si tratta di un meccanismo multilivello che consente di trasformare flussi di dati grezzi in testi leggibili, informativi e contestualizzati. Ogni dataset sensoriale viene descritto secondo tre prospettive distinte:
- Statistiche: riassunti numerici che includono media, valori minimi e massimi, e deviazioni standard. Questi indicatori forniscono un quadro sintetico dell’attività fisiologica;
- Strutturali: individuazione e descrizione di pattern, oscillazioni, tendenze crescenti o decrescenti nel tempo. Ad esempio, un incremento costante della temperatura cutanea o una fluttuazione marcata della frequenza cardiaca;
- Semantiche: interpretazioni che riflettono stati o comportamenti umani, come periodi di sonno, episodi di stress, attività fisiche specifiche o fasi di recupero.
Ecco alcuni esempi di messaggi generati da SensorLM, basati su dati biometrici reali raccolti da dispositivi indossabili e tradotti in linguaggio naturale grazie all’architettura multimodale del modello:
- “Accelerated walking detected from 09:45 to 10:02 with elevated heart rate and increased step frequency.”
- “Consistent temperature drop observed between 03:00 and 06:30, indicating sustained sleep phase.”
- “User reported mood as ‘Frustrated’ at 14:32; coincides with sharp spike in electrodermal activity.”
- “Elliptical activity detected between 18:10 and 18:35; heart rate maintained above 130 bpm throughout.”
- “Sudden increase in wrist temperature at 11:15 followed by gradual normalization by 12:00.”
- “Notable drop in step count and movement energy after 20:00; possible onset of sedentary behavior.”
- “Average heart rate between 16:00 and 17:00: 78 bpm, with low variability; no intense activity detected.”
- “Significant rise in skin conductance detected during public speaking event at 15:20.”
Questa capacità di descrizione ha utilizzo in diversi settori. Può migliorare la qualità della telemedicina; potenziare gli strumenti di supporto all’autogestione della salute; oppure ottimizzare il monitoraggio delle performance sportive con indicazioni interpretative facilmente comprensibili.
Prestazioni e confronti con altri modelli
SensorLM ha dimostrato prestazioni elevate in ambiti particolarmente impegnativi, come il riconoscimento automatico delle attività umane e l’elaborazione dei dati in contesti sanitari. Nei test di zero-shot recognition, è riuscito a classificare correttamente 20 tipi di attività distinte. In questo scenario, ha superato modelli avanzati come Gemini 2.0 e Gemma-3-27B, raggiungendo un AUROC di 0,84; questo indice misura la capacità del modello di distinguere correttamente tra classi di attività diverse.

Un ulteriore punto di forza è la capacità di cross-modal retrieval, cioè l’allineamento bidirezionale tra segnali fisiologici e linguaggio naturale. È possibile inviare a SensorLM una frase come “camminata leggera” e il sistema attiverà i dati sensoriali compatibili (gps, contapassi, conta calorie..). Oppure, a partire da una traccia registrata, si può ottenere una descrizione in linguaggio naturale.
Oltre la ricerca: verso le applicazioni reali
SensorLM verrà inizialmente applicato su dispositivi indossabili già distribuiti dal marchio Google, in particolare Fitbit e Pixel Watch. Questi device hanno fornito i dati grezzi necessari per l’addestramento del modello, grazie a una raccolta estesa condotta tra marzo e maggio 2024. In quel periodo sono stati generati più di 2,4 milioni di giorni-persona di tracciamenti biometrici, utilizzati con consenso informato e in forma de-identificata.

La presenza nativa di sensori come accelerometro, fotopletismografo (PPG), altimetro, sensori di temperatura cutanea ed elettrodermica rende questi dispositivi compatibili con l’input richiesto da SensorLM.
In prospettiva, l’integrazione di SensorLM potrebbe estendersi a nuovi wearable compatibili con il sistema Android; non è da escludere il rilascio di API che ne permettano l’integrazione anche su hardware di terze parti. Ciò aprirebbe la strada a nuovi casi d’uso in ambito medico, sportivo e persino industriale, dove il monitoraggio fisico in tempo reale è strategico.
Inoltre, l’architettura scalabile del modello, disponibile in più taglie (S, B, L, XL), ne consente l’adattamento a dispositivi con differenti capacità computazionali, facilitando sia le implementazioni edge sia quelle cloud. Ci aspetta un futuro in cui l’IA sarà sempre più presente nei nostri dispositivi.
Al prossimo Made by Google 2025 in programma il 20 Agosto saranno presentati i nuovi smartwatch Pixel 4, chissà se vedremo l’inserimento di SensorLM già in questi nuovi dispositivi.