Milioni di persone si rivolgono già all'intelligenza artificiale per la terapia. È sicura? / Millions Already Turn to AI for Therapy. Is It Safe?

Segnalato dal Dott. Giuseppe Cotellessa / Reported by Dr. Giuseppe Cotellessa

I ricercatori stanno lavorando per rendere gli strumenti di intelligenza artificiale utilizzati per il supporto alla salute mentale più sicuri, più intelligenti e basati su un quadro completo della vita di una persona.

Il 18 novembre 2025, John Torous, laureato in Scienze Mentali nel 2018, ha testimoniato davanti al Congresso su una questione che ha suscitato preoccupazione bipartisan persino in un clima politico polarizzato. "Strumenti di intelligenza artificiale che non sono mai stati progettati per il supporto alla salute mentale vengono utilizzati ogni settimana da milioni di americani", ha dichiarato a una sottocommissione della Commissione per l'Energia e il Commercio della Camera dei Rappresentanti. "A fine ottobre, OpenAI ha riferito che oltre un milione di utenti a settimana intrattengono conversazioni con ChatGPT che includono espliciti indicatori di potenziale pianificazione del suicidio".

Ma, ha aggiunto, "dobbiamo riconoscere che milioni di americani trovano un certo grado di supporto nell'intelligenza artificiale, e la nostra ricerca ha dimostrato che può esserci un beneficio".

Torous, professore associato di psichiatria presso l'Harvard Medical School (HMS) ed il Beth Israel Deaconess Medical Center, occupava il posto centrale in un panel di tre testimoni durante un'udienza sui rischi ed i benefici dei chatbot basati sull'intelligenza artificiale. La sua posizione nel panel sembrava appropriata: Torous, psichiatra con doppia specializzazione ed informatico clinico, è al centro di un dibattito sempre più complesso e delicato sulla sicurezza e l'efficacia dei chatbot basati sull'intelligenza artificiale per il supporto alla salute mentale.

ChatGPT ed il chatbot Gemini di Google sono già utilizzati regolarmente da centinaia di milioni di persone. Circa un adulto su sei negli Stati Uniti utilizza chatbot basati sull'intelligenza artificiale almeno una volta al mese per trovare informazioni e consigli sulla salute. Inoltre, un sondaggio condotto nel novembre 2025 ha rilevato che il 12% degli adulti statunitensi dichiara di essere propenso a utilizzare chatbot basati sull'IA per il supporto alla salute mentale nei successivi sei mesi. Nonostante l'uso straordinariamente diffuso di questi strumenti, essi non sono ancora regolamentati in modo coerente né in maniera tale da promuovere la sicurezza e la privacy.

L'obiettivo di Torous durante l'udienza era quello di stemperare la palpabile ansia presente in sala con un messaggio di cauto ottimismo. Ha sottolineato che il Congresso ha il potere di imporre standard che il NIH o la FDA potrebbero applicare agli strumenti di intelligenza artificiale utilizzati per scopi di salute mentale.

Considerando che i chatbot basati sull'intelligenza artificiale sono ancora in una fase embrionale, Torous sa di avere l'opportunità di fare la differenza convincendo il Congresso ad agire. Tuttavia, per quanto cruciali siano queste problematiche, Torous si è prefissato l'obiettivo di sensibilizzare l'opinione pubblica sulle possibilità di trasformazione dell'assistenza alla salute mentale: i chatbot basati sull'intelligenza artificiale, accuratamente studiati dalla scienza clinica, utilizzati con l'ausilio di operatori umani ed integrati con tecnologie come i sensori indossabili, hanno il potenziale per rivoluzionare il concetto stesso di assistenza alla salute mentale.

Sabine Wilhelm, professoressa titolare della cattedra Donovan-Chien Family in Psicologia presso la Harvard Medical School e direttrice del Center for Digital Mental Health del Massachusetts General Hospital, è anch'essa cautamente ottimista riguardo alle opportunità create dall'intelligenza artificiale. I titoli dei media tendono ad evidenziare gli aspetti più inquietanti dei chatbot basati sull'IA, afferma. "Ma questi articoli spesso non distinguono tra gli strumenti sviluppati specificamente da clinici e ricercatori per i pazienti ed i chatbot generici. Si tratta di due cose molto diverse."

Torous, Wilhelm ed altri clinici e ricercatori stanno affrontando la questione dell'intelligenza artificiale nella cura della salute mentale su due fronti: in primo luogo, cercando di garantire che i chatbot basati sull'IA per scopi generali siano resi il più sicuri possibile ed, in secondo luogo, lavorando alla creazione di nuovi strumenti che sfruttino l'IA specificamente per il trattamento della salute mentale.

"Credo che assisteremo ad una silenziosa rivoluzione nel modo di concettualizzare le malattie mentali", afferma Torous. "Ad esempio, potremmo essere in grado di comprendere e classificare meglio alcune patologie mentali. E questo potrebbe portare a nuove terapie, al riutilizzo di farmaci già esistenti ed ad una migliore assistenza. Sono entusiasta di questa prospettiva più ampia."

Mitigazione del rischio

Chiunque abbia interagito con ChatGPT di OpenAI o Claude di Anthropic ha sperimentato le loro risposte cordiali ed incoraggianti. Tuttavia, i ricercatori hanno scoperto che questo comportamento può fin troppo spesso sfociare nell'adulazione, un fenomeno studiato per aumentare la fidelizzazione degli utenti.

"La tecnologia è stata creata per ottimizzare il coinvolgimento, non la salute mentale", afferma Nina Vasan, MD '13, professoressa assistente di psichiatria clinica presso l'Università di Stanford e direttrice di Stanford Brainstorm, che collabora con aziende come Pinterest, Apple e TikTok per riprogettare le loro piattaforme tenendo conto della salute mentale.

Nel tempo, le affermazioni ripetute sono state collegate a deliri mediati dall'IA – spesso definiti psicosi da IA – ed, in alcuni casi estremi, al suicidio. Anche in circostanze meno gravi, i chatbot basati sull'IA presentano punti ciechi quando si tratta di rispondere ai momenti di crisi degli utenti e violano sistematicamente gli standard etici della salute mentale, persino quando vengono sollecitati ad utilizzare tecniche di psicoterapia basate sull'evidenza.

Il lavoro di Vasan ha suggerito che gli attuali modelli linguistici complessi (LLM) non sono ancora pronti a fungere da assistenti autonomi per la salute mentale, ma la loro utilità varia a seconda del disturbo. Afferma che gli LLM possono essere rivoluzionari nell'aiutare le persone sane a comprendere meglio i propri pensieri, emozioni e comportamenti, e si dimostrano molto promettenti per la depressione e l'ansia. Tuttavia, quasi tutti i modelli faticano a riconoscere contenuti maniacali, psicotici od ossessivi, soprattutto se espressi gradualmente. "Abbiamo assistito a veri progressi sui contenuti relativi al suicidio ed all'autolesionismo, ma queste piattaforme continuano a non cogliere il quadro completo di una persona in crisi", afferma Vasan.

Ma, aggiunge, "l'integrazione dell'IA nelle cure di routine offre enormi benefici terapeutici e, per certi versi, l'IA da sola può raggiungere pazienti che le cure tradizionali non potrebbero mai raggiungere".

Penso che assisteremo ad una silenziosa rivoluzione nel modo in cui riconcettualizziamo le malattie mentali.

Torous osserva che il dibattito sui chatbot basati sull'intelligenza artificiale ha perlopiù ignorato la possibile correlazione tra deliri mediati dall'IA e la predisposizione di una persona alle malattie mentali. "Esiste un sottotipo di persone che chiaramente non dovrebbe utilizzare i chatbot basati sull'IA, proprio come ci sono pazienti ad alto rischio di schizofrenia che non dovrebbero usare la cannabis", afferma.

Ma Torous ritiene anche che esistano soluzioni a questi problemi. Durante l'audizione al Congresso, ha insistito per un aumento dei finanziamenti del NIH a sostegno di studi longitudinali di alta qualità sui benefici ed i pericoli per la salute mentale dei chatbot basati sull'intelligenza artificiale, che si fondano sui modelli lineari latenti (LLM), un tipo di intelligenza artificiale generativa che si evolve più rapidamente di quanto la ricerca riesca a tenere il passo. Altrettanto importante, ha affermato, è la necessità di incentivi per le aziende affinché condividano in modo sicuro le informazioni con gli enti regolatori ed i ricercatori.

Torous e gli altri relatori hanno sostenuto che alcune misure specifiche potrebbero contribuire in modo significativo a rendere i chatbot basati sull'intelligenza artificiale più sicuri quando utilizzati per scopi di salute mentale. Queste potrebbero includere, ad esempio, l'istituzione di protocolli di gestione delle crisi, la riduzione dell'adulazione da parte dei chatbot, l'emanazione di leggi federali sulla privacy e la trasparenza dei dati di addestramento.

Senza questi dati, qualsiasi tentativo di comprendere cosa accade quando le persone utilizzano i chatbot, ha detto Torous alla sottocommissione, è come "guardare ombre e schemi di ombre". Il Congresso, ha aggiunto, può contribuire a dissipare queste ombre riaccendendo la luce, ovvero facilitando una maggiore trasparenza e fiducia attraverso la raccolta di prove e la creazione di un consenso tra sviluppatori di modelli, ospedali, ricercatori e legislatori.

Nel suo lavoro con Stanford Brainstorm, Vasan si concentra sul responsabilizzare gli sviluppatori di modelli. "Ogni medico presta giuramento: prima di tutto, non nuocere", afferma. "Vogliamo che le aziende tecnologiche prestino lo stesso giuramento".

Soddisfare le esigenze

Wilhelm riconosce i rischi derivanti dall'utilizzo di chatbot generici per affrontare i problemi di salute mentale. Tuttavia, ritiene anche che ignorare le opportunità offerte dall'intelligenza artificiale comporti dei costi, soprattutto alla luce delle difficoltà di accesso alle cure in un contesto di persistente crisi di salute mentale a livello nazionale. "In questo momento, le persone si rivolgono a questi strumenti per ottenere supporto emotivo su una scala senza precedenti", afferma. "I pazienti apprezzano la comodità e la sensazione di essere ascoltati. Dobbiamo andare incontro alle loro esigenze."

Il lavoro di Wilhelm si concentra sugli interventi digitali per il disturbo ossessivo-compulsivo (DOC). È stata l'autrice principale di uno studio pubblicato l'anno scorso in cui lei ed i suoi colleghi hanno valutato l'efficacia di ChatGPT nell'aiutare pazienti e clinici a creare gerarchie di esposizione: una serie di esercizi – simili ad un piano di trattamento – in cui un clinico espone il paziente a una situazione che altrimenti potrebbe evitare a causa dell'ansia che provoca. In questi scenari, il paziente dovrebbe anche astenersi da qualsiasi rituale di auto-consolazione che si è rivelato utile in passato (lavarsi le mani dopo aver toccato una maniglia percepita come contaminata, ad esempio).

"I medici sono spesso molto bravi ad informare i pazienti sul loro disturbo, ma faticano un po' con la fase di esposizione e prevenzione della risposta, soprattutto su come renderla più stimolante e personalizzata nel corso del trattamento", afferma Wilhelm. "Ecco perché eravamo entusiasti di scoprire se ChatGPT potesse essere d'aiuto."

I ricercatori hanno creato una serie di scenari ipotetici simulati di pazienti e li hanno inseriti in ChatGPT, chiedendogli di generare gerarchie di esposizione per ciascun paziente. Hanno poi confrontato i risultati con quelli elaborati da clinici del Massachusetts General Hospital esperti in disturbo ossessivo-compulsivo (DOC). I piani sono stati valutati da esperti in DOC non coinvolti nella loro creazione.

Sebbene le gerarchie di esposizione dei clinici reali siano state ritenute più complete e più adatte alle esigenze dei pazienti, "era chiaro che il lavoro di ChatGPT fosse promettente", afferma Wilhelm, soprattutto perché lei ed i suoi colleghi non avevano affatto perfezionato il modello. I modelli modificati per scopi specifici e testati dai clinici potrebbero ampliare l'accesso alle cure e servire efficacemente i pazienti. "Ma dobbiamo assicurarci di coinvolgere i clinici e di avere linee guida etiche per garantire che questo non prenda una brutta piega". Basandosi su questo lavoro, Wilhelm ed i suoi colleghi stanno attualmente sviluppando strumenti di intelligenza artificiale rivolti a clinici e pazienti, specificamente pensati per la salute mentale, con l'obiettivo di supportare in modo sicuro la personalizzazione dei trattamenti basati sull'evidenza.

Integrazione del contesto

Come Wilhelm, Torous si oppone alla tipica impostazione "pro o contro" del dibattito pubblico sull'intelligenza artificiale. Con una laurea in ingegneria elettrica ed informatica ed un master in informatica biomedica conseguito presso la Harvard Medical School, non sorprende che abbia una personalità analitica e orientata ai dati. E per gran parte della sua carriera, ha applicato questo approccio analitico per capire come adottare la tecnologia in modo sicuro per il trattamento della salute mentale.

Circa 10 anni fa, ha guidato il quadro di valutazione tecnologica dell'American Psychiatric Association, creato per orientare le decisioni informate sull'utilizzo delle app per smartphone in ambito clinico. Successivamente, Torous ha fatto parte del Digital Health Advisory Committee della FDA. Nel complesso, queste esperienze fanno di Torous uno dei massimi esperti statunitensi nella valutazione di nuovi strumenti per la salute mentale.

Secondo Torous, la chiave per sfruttare appieno il potenziale dell'intelligenza artificiale nell'ambito della salute mentale risiede nel contesto. Anziché sostituire terapisti e medici, i chatbot basati sull'IA possono supportarli interpretando dati continui, come il numero di passi, le ore e la qualità del sonno e i livelli di cortisolo, ovvero il contesto dinamico della situazione di salute mentale di una persona.

Nella visione di Torous, flussi separati di conversazioni con chatbot, letture di biosensori e relazioni umane confluiscono in un unico, vasto serbatoio di esperienze; presi singolarmente, ciascun flusso non trasporta molta acqua, ma insieme acquisiscono la profondità necessaria per comprendere la complessità della salute mentale di una persona. Un approccio multimodale, concepito per leggere simultaneamente queste correnti convergenti, potrebbe spingere il campo della salute mentale ben oltre le sue attuali capacità.

«Immaginate qualcuno che scrive una lettera d'addio ai colleghi», dice Torous. «Si tratta di un pensionamento programmato o di una lettera di suicidio? Il chatbot non lo sa». Ma se la persona avesse un sensore indossabile che fornisse al modello LLM dati comportamentali e fisiologici in tempo reale (come cambiamenti nell'attività del telefono o tempo trascorso a casa), potrebbe essere in grado di rilevare schemi clinici più facilmente. Infatti, Torous e colleghi hanno scoperto che quando hanno inserito 153 casi clinici simulati con questo tipo di dati di "fenotipizzazione digitale" (un termine coniato dallo stesso Torous) in GPT-4.0, il modello ha identificato correttamente il peggioramento della depressione nel 100% dei casi e il peggioramento dell'ansia nell'83% dei casi, sebbene la sua accuratezza complessiva su tutti gli schemi clinici testati fosse del 52%.

Se l'intelligenza artificiale potesse integrare eticamente questo tipo di dati contestuali per fornire un quadro olistico dello stato di salute di una persona, potrebbe aiutare i medici a comprendere meglio la situazione dei pazienti in tempo reale, consentendo cure preventive più precoci e personalizzate.

In un altro progetto simile, il laboratorio di Torous sta collaborando con il Center for Geographic Analysis di Harvard per arricchire le informazioni provenienti dalle conversazioni LLM con dati GIS basati su telefoni cellulari, come l'esposizione di una persona agli spazi verdi, i livelli di inquinamento del suo quartiere ed altri indicatori geografici di salute mentale. Si ritiene che ciò possa migliorare la capacità di un chatbot di rispondere in modo appropriato.

Torous osserva che questa potrebbe essere la strada del futuro, al di là dei laboratori accademici. Nell'ultimo anno, sia Apple che Google hanno pubblicato ricerche sull'uso dei modelli linguistici logici (LLM) per interpretare i dati provenienti da sensori, come gli smartwatch. "Si può notare che le grandi aziende tecnologiche stanno pensando di andare oltre il linguaggio", afferma Torous.

Personalizzazione dell'assistenza

Ipsit Vahia, professore assistente di psichiatria presso la Harvard Medical School e primario di psichiatria geriatrica al McLean Hospital, è entusiasta della possibilità di combinare gli strumenti di intelligenza artificiale con informazioni sul contesto più ampio della salute di una persona. "Le tecnologie possono fornirci intere dimensioni di informazioni importanti sulla salute mentale di una persona che non sarebbero possibili senza l'uso di sensori", afferma.

Vahia dirige il Laboratorio di Tecnologia e Invecchiamento presso il McLean, che occupa uno spazio di nicchia in medicina. "Esiste un corpus di ricerca piuttosto consistente sull'intelligenza artificiale nella salute mentale, ma è ancora piuttosto limitato quando si tratta di anziani", afferma.

Vahia ritiene che la fenotipizzazione digitale possa integrare l'assistenza agli adulti affetti da demenza, aiutando i caregiver ed i medici a valutare la loro esperienza del dolore, che può influire sulla salute mentale e sul benessere generale. Soprattutto per le persone che non sono in grado di esprimere verbalmente il dolore – e per le quali il dolore si manifesta spesso come aggressività od agitazione – i caregiver e gli operatori sanitari possono trovarsi a dover gestire informazioni incomplete sui bisogni del paziente.

Vahia ed i suoi colleghi hanno scoperto che la fenotipizzazione digitale può aiutare a rilevare comportamenti sottili (cambiamenti nell'andatura o nella frequenza dei movimenti, ad esempio) che portano a valutazioni più oggettive del dolore. Le app che misurano l'intonazione vocale o le espressioni facciali (che possono contenere mini-segnali di dolore) potrebbero teoricamente raccogliere dati che vengono poi convogliati in un modello LLM progettato per riconoscere e rispondere a queste sfumature, portando potenzialmente ad interventi precoci e persino a cure preventive.

Vahia afferma che questo è un esempio perfetto di come l'intelligenza artificiale possa essere impiegata per applicazioni cliniche molto precise e sofisticate.

“Nell'assistenza agli anziani, raramente esiste una soluzione universale. Ogni anziano ha circostanze, condizioni fisiche, sensibilità ai farmaci e contesti sociali unici: la realtà di ognuno è diversa”, afferma Vahia. “Anziché misurare 100 persone contemporaneamente in uno studio di ricerca, l'intelligenza artificiale ci permette di misurare 100 individui distinti, uno alla volta, in relazione a se stessi. E questo è molto più preciso ed efficace.”

Creazione di parametri di riferimento

Secondo Torous, per quasi tutti gli strumenti di intelligenza artificiale attualmente disponibili, mancano prove empiriche o linee guida standardizzate che aiutino pazienti, medici e sviluppatori a valutarne la sicurezza e l'efficacia. Sostiene che la validazione clinica di questi prodotti, ovvero la valutazione del loro utilizzo da parte di persone reali, sia una parte cruciale del processo biomedico e fondamentale per verificare le affermazioni sulla sicurezza e stabilire degli standard.

Questa è la motivazione alla base di MindBench.ai, una piattaforma basata sulla ricerca che valuta il comportamento degli strumenti di intelligenza artificiale quando vengono utilizzati da persone reali per il supporto alla salute mentale. Sviluppata dalla Divisione di Psichiatria Digitale del Beth Israel Deaconess (diretta da Torous) in collaborazione con la National Alliance on Mental Illness (NAMI), MindBench.ai fornisce profili sistematici degli strumenti di intelligenza artificiale, comprese le loro caratteristiche tecniche, le protezioni della privacy e lo stile conversazionale, basati su casi d'uso segnalati dai pazienti in tutto il paese. Inoltre, ne confronta le prestazioni e trasforma questi risultati in una risorsa pubblica e costantemente aggiornata.

Ad esempio, spiega Torous, un giovane potrebbe scoprire che il suo chatbot per la salute mentale ha fornito un numero di telefono errato per una linea di assistenza per la prevenzione del suicidio. Potrebbe quindi segnalare il problema su MindBench.ai. NAMI sta attivamente introducendo MindBench.ai alle persone che utilizzano questi chatbot per scopi di salute mentale e che possono quindi fungere da segnalatori "sul campo" dei loro difetti.

"Non ci era mai capitato prima nel mondo delle app", afferma Torous. In passato, l'unica soluzione era presentare un reclamo direttamente all'azienda, che però non era necessariamente motivata od attrezzata per approfondire la questione.

Ogni medico presta giuramento: innanzitutto, non nuocere. Vogliamo che anche le aziende tecnologiche prestino lo stesso giuramento.

Non si tratta di una lacuna di poco conto: le persone nel bel mezzo di un grave episodio di disagio mentale potrebbero interpretare tali ostacoli come la prova che cercare aiuto è inutile. Né questo esempio è puramente ipotetico; nel 2024, Torous e colleghi hanno condotto un'analisi approfondita del mercato delle app per la salute mentale e hanno scoperto che solo il 15% delle app indirizzava gli utenti al 988, la linea telefonica nazionale di prevenzione del suicidio. Inoltre, 14 app, scaricate complessivamente più di 3,5 milioni di volte, fornivano numeri di telefono alternativi per le emergenze errati o non funzionanti. Il problema si è esteso anche ai chatbot basati sull'intelligenza artificiale.

MindBench.ai si ispira a un precedente progetto guidato da Torous, MindApps, che offre una piattaforma simile per le app per smartphone dedicate al supporto della salute mentale. MindBench.ai mira a valutare i Livelli di Apprendimento Limitati (LLM) e gli strumenti basati su LLM con criteri oggettivi e trasparenti dal punto di vista sanitario, in modo che chiunque possa esplorare e selezionare il chatbot più adatto alle proprie esigenze, circostanze e vulnerabilità.

Uno dei problemi che Torous spera MindBench.ai possa affrontare è la creazione di parametri di riferimento più affidabili per gli strumenti di intelligenza artificiale. Ad esempio, spiega, nella pratica psichiatrica, una diminuzione di quattro punti nei punteggi di gravità della depressione, come quelli misurati dal Patient Health Questionnaire-9, è generalmente considerata clinicamente significativa in molti contesti terapeutici. Non si tratta di un indicatore perfetto, ma la perfezione non è l'obiettivo: lo sono il consenso e la standardizzazione.

Al contrario, nessuno ha ancora concordato su determinati standard in materia di salute mentale digitale, come ad esempio cosa costituisca un danno. "Siamo tutti d'accordo sul fatto che il suicidio sia il caso peggiore possibile", afferma Torous. "Ma non abbiamo una serie chiara di definizioni dei diversi gradi di danno, il che rende difficile per qualsiasi ente regolatore ritenere le aziende responsabili. Un'iniziativa come MindBench.ai può aiutarci a convergere su cosa intendiamo per danno, in modo che tutti parliamo la stessa lingua e abbiamo gli stessi obiettivi."

Guardando al futuro

All'inizio di gennaio 2026, appena un paio di mesi dopo la testimonianza di Torous, la FDA ha pubblicato delle linee guida che reinterpretavano le esenzioni normative per i prodotti per il benessere, il che significa che le aziende dispongono di criteri più concreti per posizionarsi come tali ed evitare quindi la regolamentazione dei dispositivi medici da parte della FDA. Sebbene questa chiarezza riduca il rischio che le aziende entrino inconsapevolmente in un territorio regolamentato, Torous teme che dia loro maggiore margine di manovra per rinominare i propri prodotti in modo da non assumersi la responsabilità di conseguenze indesiderate. Persino ChatGPT Health, lanciato di recente da OpenAI, elude i requisiti HIPAA poiché viene presentato come un "supplemento" – piuttosto che un sostituto – delle indicazioni fornite dai professionisti medici.

Mentre alcune aziende di intelligenza artificiale stanno creando comitati consultivi per affrontare alcune delle preoccupazioni relative ai loro chatbot, molte continuano ad operare in isolamento. Altre aziende di salute mentale virtuale, come Talkspace, stanno elaborando i propri piani per sviluppare rapidamente prodotti LLM (Lifetime Learning Model), e le startup stanno iniziando a considerare i chatbot come supporto per la prescrizione di farmaci. Presto, i ricercatori dovranno confrontarsi con un mercato dell'IA ancora più saturo.

Ciononostante, Torous è ottimista sul fatto che le aziende stiano iniziando a comprendere l'importanza di bilanciare i progressi dell'IA con i vincoli etici. Ad aprile, Google ha annunciato che avrebbe potenziato l'accesso al supporto in caso di crisi per gli utenti di Gemini, avviato miglioramenti ai modelli per fornire una risposta migliore alle situazioni acute di salute mentale e stanziato 30 milioni di dollari per le linee telefoniche di emergenza in tutto il mondo. "Con l'investimento di questi modelli di IA 'generali' nella sicurezza della salute mentale, è probabile che stiamo entrando in una nuova era in cui non solo saranno i più potenti, ma forse anche i più sicuri", afferma Torous. Lui e i suoi colleghi hanno scoperto che i modelli più piccoli, ottimizzati per scopi di salute mentale, attualmente non presentano vantaggi significativi in termini di sicurezza e prestazioni rispetto a modelli più grandi e sofisticati.

Anche i legislatori stanno iniziando a rendersene conto. Torous afferma che il Congresso vede i social media come un monito. "Nessuno è contento di quello che è successo con i social media", dice. "Ci è voluto molto tempo perché le persone si rendessero conto dei pericoli di Facebook. C'è la possibilità di fare meglio con l'intelligenza artificiale."

Torous spera inoltre di promuovere una maggiore consapevolezza dell'approccio multimodale all'intelligenza artificiale e alla salute mentale, che a suo avviso rivoluzionerà il modo in cui gli esseri umani si prendono cura del benessere reciproco. E ritiene che Harvard sia il punto di partenza ideale per una missione di questo tipo.

"Non si tratta solo di psichiatria, ma di politica, di salute pubblica, di diritto", afferma. "È fondamentale avere un ambiente come Harvard dove poter fare tutto questo in collaborazione con altri team."

Oppure, come dice Vahia, "È nostra responsabilità affrontare queste domande difficili, perché se non lo facciamo noi, chi lo farà?"

ENGLISH

Researchers are working to make AI tools used for mental health support safer, smarter, and grounded in the full picture of a person’s life.

On November 18, 2025, John Torous, MMSc ’18, testified before Congress about an issue that has drawn bipartisan concern even in a polarized political climate. “AI tools that were never designed for mental health support are being used by millions of Americans each week,” he told a subcommittee of the House Committee on Energy and Commerce. “In late October, OpenAI reported that over 1 million users per week have conversations with ChatGPT that include explicit indicators of potential suicide planning.”

But, he added, “we have to acknowledge that millions of Americans also find some degree of support from AI, and our research has shown that there can be benefit.”

Torous, an HMS associate professor of psychiatry at Beth Israel Deaconess Medical Center, occupied the middle seat on a three-person panel of witnesses for a hearing on the risks and benefits of AI chatbots. His position on the panel seemed appropriate: Torous, a dual board-certified psychiatrist and clinical informaticist, is at the center of an increasingly complicated, high-stakes debate around the safety and efficacy of AI chatbots for mental health support.

ChatGPT and Google’s Gemini chatbot are already used regularly by hundreds of millions of people. About one in six U.S. adults use AI chatbots at least once a month to find health information and advice. And a poll conducted in November 2025 found that 12 percent of U.S. adults say they are likely to use AI chatbots for mental health support in the next six months. Despite the extraordinarily wide use of these tools, they still aren’t regulated consistently or in a manner that promotes safety and privacy.

Torous’ aim during the hearing was to temper the palpable anxiety in the room with a message of cautious optimism. He pointed out that Congress has the power to mandate standards the NIH or FDA could apply to AI tools used for mental health purposes.

With AI chatbots in their relative infancy, Torous knows he has a chance to make a difference by convincing Congress to act. Yet, critical as these issues are, Torous is on a mission to raise awareness of the possibilities for a transformation of mental health care: AI chatbots that are thoroughly investigated through clinical science, that are used with human guides, and that are linked with technologies like wearable sensors have the potential to reconceptualize mental health care.

Sabine Wilhelm, the HMS Donovan-Chien Family Professor in the Field of Psychology and director of the Center for Digital Mental Health at Massachusetts General Hospital, is likewise cautiously optimistic about the opportunities created by AI. Media headlines tend to highlight the frightening aspects of AI chatbots, she says. “But these articles often don’t distinguish between the tools that have been specifically developed by clinicians and researchers for patients, versus general-purpose chatbots. These are two very different things.”

Torous, Wilhelm, and other clinicians and researchers are taking on the issue of AI in mental health care on two fronts: first, trying to ensure that general-purpose AI chatbots are made as safe as possible, and second, working to create new tools that harness AI specifically for mental health treatment.

“I think there’s going to be a quiet revolution in reconceptualizing mental illnesses,” Torous says. “For example, we may be able to better understand and stratify certain mental health conditions. And that can lead to new treatments, repurposed drugs, and better care. I’m excited about that bigger picture.”

Mitigating Risk

Anyone who has engaged with OpenAI’s ChatGPT or Anthropic’s Claude has experienced its warm, supportive responses. But researchers have found that this behavior can veer into sycophancy all too often, a phenomenon designed to increase user retention.

“Technology was built to optimize engagement, not mental health,” says Nina Vasan, MD ’13, a clinical assistant professor of psychiatry at Stanford University and director of Stanford Brainstorm, which partners with companies like Pinterest, Apple, and TikTok to redesign their platforms with mental health in mind.

Repeated affirmations have, over time, been linked to AI-mediated delusions — often referred to as AI psychosis — and in a few extreme cases, suicide. Even in less dire circumstances, AI chatbots have blind spots when it comes to responding to users’ crisis moments, and they routinely violate mental health ethics standards even when they are prompted to use evidence-based psychotherapy techniques.

Vasan’s work has suggested that current large language models (LLMs) are not ready to act like autonomous mental health assistants, but their usefulness varies by disorder. She says that LLMs can be game-changing in helping healthy people better understand their thoughts, emotions, and behaviors, and they show real promise for depression and anxiety. But nearly all models can struggle to recognize manic, psychotic, or obsessive content, especially if expressed gradually. “We’ve seen real progress on content related to suicide and self-harm, but these platforms still routinely miss the full picture of someone in crisis,” Vasan says.

But, she adds, “There are huge therapeutic benefits to integrating AI into regular care, and in some ways, AI alone can reach patients that traditional care never could.”

I think there’s going to be a quiet revolution in reconceptualizing mental illnesses.

Torous notes that the discourse around AI chatbots has mostly ignored the possible association between AI-mediated delusions and a person’s predisposition to mental illness. “There’s a subtype of people who clearly should not be using AI chatbots — just like there are patients at high risk for schizophrenia who should not be using cannabis,” he says.

But Torous also thinks there are solutions to these problems. Throughout the congressional hearing, he pressed for increased NIH funding to support high-quality, longitudinal studies on the mental health benefits and dangers of AI chatbots, which are based on LLMs — a type of generative AI that is evolving more quickly than research can keep up with. As importantly, he said that companies need incentives to securely share information with regulators and researchers.

Torous and his fellow panelists argued that certain specific steps could go a long way toward making AI chatbots safer when used for mental health purposes. These might include, for example, instituting crisis protocols, decreasing chatbot sycophancy, enacting federal privacy laws, and making training data transparent.

Without that data, any attempt to understand what’s happening when people use chatbots, Torous told the subcommittee, is like “looking at shadows and patterns of shadows.” Congress, he said, can help remove those shadows by recasting the light — that is, by facilitating greater transparency and trust through gathering evidence and building consensus between model developers, hospitals, researchers, and lawmakers.

In her work with Stanford Brainstorm, Vasan focuses on holding model developers accountable. “Every physician takes an oath: First, do no harm,” she says. “We want technology companies to take that same oath.”

Meeting Needs

Wilhelm acknowledges the risks created by the use of general-purpose chatbots to address mental health issues. But she also thinks there are costs to ignoring the opportunities afforded by AI, especially given barriers to receiving care amid a continued nationwide mental health crisis. “Right now, people are turning to these tools for emotional support at an unprecedented scale,” she says. “Patients like the convenience, and they like the feeling of being heard. We have to meet them where they are.”

Wilhelm’s work centers on digital interventions for obsessive- compulsive disorder (OCD). She was the senior author of a study published last year in which she and her colleagues assessed how well ChatGPT could assist patients and clinicians with creating exposure hierarchies: a series of exercises — akin to a treatment plan — in which a clinician exposes a patient to a situation that they might otherwise avoid due to the anxiety it provokes. In these scenarios, the patient should also refrain from any self-soothing rituals that have helped in the past (hand-washing after touching a doorknob they perceived to be contaminated, for example).

“Clinicians are often very good at educating patients about their disorder, but they struggle a bit with the exposure and response prevention piece — especially how to make it more challenging and personalized over the course of the treatment,” Wilhelm says. “That’s why we were excited to see if ChatGPT can possibly help.”

The researchers put together a set of simulated, hypothetical patient vignettes and fed them to ChatGPT, asking it to generate exposure hierarchies for each of the patients. Then they compared the results to what clinicians at Mass General who have expertise in OCD came up with. The plans were evaluated by experts on OCD who were not involved in creating them.

Although the real clinicians’ exposure hierarchies were deemed more thorough and better suited to the patients’ needs, “it was clear there was promise” for ChatGPT’s handiwork, says Wilhelm, especially because she and her colleagues hadn’t fine-tuned the model at all. Models that have been tweaked for specific purposes and tested by clinicians could expand access to care and effectively serve patients. “But we have to make sure that we involve clinicians and have ethical guidelines to make sure that this doesn’t go sideways.” Building on this work, Wilhelm and her colleagues are currently developing clinician and patient-facing AI tools tailored for mental health care, with the goal of safely supporting personalization of evidence-based treatments.

Integrating Context

Like Wilhelm, Torous resists the “for or against” framing of typical public discourse around AI. With his undergraduate degrees in electrical engineering and computer science and a master’s degree in biomedical informatics from HMS, it’s not surprising that he has an analytical and data-driven personality. And for most of his career, he has applied that analytical approach to figuring out how to adopt technology safely for mental health treatment.

About 10 years ago, he led the American Psychiatric Association’s technology evaluation framework, created to help guide informed decision-making around the use of smartphone apps in clinical care. Subsequently, Torous served on the FDA’s Digital Health Advisory Committee. Taken together, these experiences make Torous one of the foremost U.S. experts in evaluating new mental health tools.

The key to unlocking the ultimate promise of AI in mental health care, says Torous, is context. Rather than replace therapists and physicians, AI chatbots can assist them by making sense of continuous data, such as step count, hours/quality of sleep, and cortisol levels — that is, the dynamic context of a person’s mental health situation.

In Torous’ vision, separate streams of chatbot conversations, biosensor readings, and human relationships feed into a single, vast reservoir of experience; on their own, each stream doesn’t carry much water, but together, they gain the depth needed to understand the complexity of a person’s mental health. A multimodal approach — built to read these converging currents at once — could push the field of mental health far beyond its current capabilities.

“Imagine someone writing a goodbye letter to colleagues,” Torous says. “Is this a planned retirement or a suicide note? The chatbot doesn’t know.” But if the person had a wearable sensor feeding the LLM real-time behavioral and physiological data (such as changes in phone activity or time spent at home), it might be able to detect clinical patterns more readily. In fact, Torous and colleagues found that when they fed 153 mock clinical cases with this kind of “digital phenotyping” data (a term Torous coined himself) into GPT-4.0, the model correctly identified worsening depression 100 percent of the time and worsening anxiety 83 percent of the time, although its overall accuracy across all tested clinical patterns was 52 percent.

If AI could ethically integrate this kind of contextual data to give a holistic picture of how someone is doing, it could help clinicians better understand patients’ real-time situations, enabling earlier, more personalized, preventive care.

In another such effort, Torous’ lab is coordinating with Harvard’s Center for Geographic Analysis to enhance information from LLM conversations with phone-based GIS data — such as a person’s green space exposure, their neighborhood’s pollution levels, and other geographic indicators of mental health — which they think might increase a chatbot’s ability to respond appropriately.

Torous notes that this may be the way of the future, beyond academic labs. Over the past year, both Apple and Google have published research on the use of LLMs to interpret data from sensors, such as smartwatches. “You can see the big tech companies are thinking about moving beyond language,” Torous says.

Personalizing Care

Ipsit Vahia, an HMS assistant professor of psychiatry and chief of geriatric psychiatry at McLean Hospital, is also excited about the possibility of combining AI tools with information about the larger context of a person’s health. “Technologies can give us entire dimensions of important information about a person’s mental health that are just not possible without the use of sensors,” he says.

Vahia heads the Technology and Aging Laboratory at McLean, which occupies a niche space in medicine. “There is a fairly substantial research body on AI in mental health, but it’s still quite limited when it comes to older adults,” he says.

Vahia believes that digital phenotyping can supplement care of adults with dementia by helping caregivers and physicians evaluate their experiences of pain, which can affect their mental health and overall well-being. Especially for people who cannot verbally report pain — and for whom pain often manifests as aggression or agitation — caregivers and providers can find themselves grappling with incomplete information about a patient’s needs.

Vahia and his colleagues have found that digital phenotyping can help detect subtle behaviors (changes in gait or frequency of movement, for example) that lead to more objective assessments of pain. Apps that measure vocal intonation or facial expressions (which can contain mini signs of pain) could theoretically amass data that is then funneled into an LLM engineered to recognize and respond to those nuances, potentially leading to early intervention and even preventive care.

Vahia says this is a perfect example of how AI can be deployed for very precise and sophisticated clinical applications.

“In aging care, one size seldom fits all. Every older adult has circumstances, physical conditions, medication sensitivities, and social environments that are really unique to them — each person’s reality is so different,” Vahia says. “Rather than measure 100 people at the same time in a research study, AI is allowing us to measure 100 distinct individuals, one at a time, relative to themselves. And that is far more precise and impactful.”

Creating Benchmarks

Across almost all available AI tools, Torous says there’s a dearth of empirical evidence or standardized guidance to help patients, clinicians, and developers evaluate their safety and effectiveness. He argues that clinical validation of these products — that is, assessing how they are used by actual people — is a crucial part of the biomedical process and essential for verifying safety claims and establishing standards.

That’s the impetus behind MindBench.ai, a research-driven platform that evaluates how AI tools behave when real people use them for mental health support. Developed by the Beth Israel Deaconess Division of Digital Psychiatry (which Torous directs) in partnership with the National Alliance on Mental Illness (NAMI), MindBench.ai provides systematic profiles of AI tools — including their technical features, privacy protections, and conversational style — based on patient-reported use cases across the country. It also benchmarks their performance, and turns those findings into a public, continuously updated resource.

For instance, Torous says, a young person might discover that their mental health chatbot has provided an incorrect suicide hotline number. They could then flag the issue in MindBench.ai. NAMI is actively introducing MindBench.ai to populations who are using these chatbots for mental health purposes and can therefore be “on-the-ground” reporters of their flaws.

“We’ve never had that before in the app world,” Torous says. In the past, the only path forward would be to file a complaint directly with the company, which would not necessarily be motivated or equipped to investigate it further.

Every physician takes an oath: First, do no harm. We want technology companies to take that same oath.

This is not a trivial shortcoming — people in the midst of a severe mental health episode may see such roadblocks as proof that seeking help is futile. Nor is this example merely a hypothetical; in 2024, Torous and colleagues conducted a thorough review of the mental health app marketplace and found that only 15 percent of the apps referred users to 988, the national suicide prevention hotline. In addition, 14 apps that had collectively been downloaded more than 3.5 million times provided incorrect or nonfunctional alternative crisis hotlines. The problem has become an issue for AI chatbots as well.

MindBench.ai builds on the example of an earlier project led by Torous — MindApps, which provides a similar platform for smartphone apps that offer mental health support. MindBench.ai aims to evaluate LLMs and LLM-based tools with objective and transparent criteria from a health care standpoint, so that anyone can browse and select the best chatbot for their needs, circumstances, and vulnerabilities.

One issue Torous hopes MindBench.ai will address is creating more reliable benchmarks for AI tools. For example, he says, in psychiatric practice, a four-point decrease in depression severity scores, such as those measured by the Patient Health Questionnaire-9, is generally considered clinically significant in many treatment contexts. This isn’t a perfect indicator, but perfection is not the goal — consensus and standardization are.

In contrast, no one has yet agreed on certain standards in digital mental health, like what constitutes harm. “We all agree that suicide is the worst case possible,” Torous says. “But we don’t have a clear set of definitions of the different degrees of harm, which means it’s hard for any regulator to hold companies accountable. An effort like MindBench.ai can help us converge on what we mean by harm so that we are all speaking the same language and have the same goals.”

Looking Ahead

In early January 2026, just a couple of months after Torous’ testimony, the FDA released guidance that reinterpreted regulatory exemptions for wellness products, meaning that companies have more concrete criteria with which to position themselves as wellness products and therefore avoid FDA medical device regulation. While this clarity reduces the risk that companies will unknowingly cross into regulated territory, Torous is concerned that it gives companies more leeway to rebrand their products so as to not assume responsibility for unintended consequences. Even OpenAI’s recently launched ChatGPT Health skirts HIPAA requirements since it’s branded as a “supplement” to — rather than a replacement for — guidance from medical professionals.

And while some AI companies are forming advisory committees to address some of the concerns around their chatbots, many continue to operate in isolation. Other virtual mental health companies like Talkspace are hatching their own plans to develop LLM products in short order, and startups are beginning to look to chatbots for help prescribing medications. Soon, researchers will have to wrestle with an even more saturated AI marketplace.

Still, Torous is optimistic that companies are starting to see the light when it comes to balancing progress in AI with ethical restrictions. In April, Google announced that it would bolster access to crisis support for Gemini users, initiate model improvements to provide better response to acute mental health situations, and direct $30 million to crisis hotlines worldwide. “As such ‘general’ AI models invest in mental health safety, we are likely entering a new era where they will not only be the most powerful, but perhaps also the safest,” Torous says. He and colleagues have found that smaller models that are fine-tuned for mental health purposes currently have no meaningful advantages in terms of safety and performance over larger, more sophisticated models.

Lawmakers are starting to wake up, too. Torous says that Congress sees social media as a cautionary tale. “No one’s happy with what happened with social media,” he says. “It took a long time for people to see the perils of Facebook. There’s a chance to do better with AI.”

Torous also hopes to drum up more recognition of the multimodal approach to AI and mental health that he maintains will reconceptualize how humans care for each other’s well-being. And he thinks Harvard is an ideal launching pad for such a mission.

“This is not just about psychiatry — it’s about policy, it’s about public health, it’s about law,” he says. “You really need an environment like Harvard where you can do all of this in collaboration with other teams.”

Or, as Vahia says, “It’s our responsibility to grapple with these difficult questions — because if we don’t do it, who will?”

Da:

https://magazine.hms.harvard.edu/articles/millions-already-turn-ai-therapy-it-safe?utm_source=OCERMarketingCloud&utm_medium=email&utm_campaign=Harvard+Medicine+magazine+-+May+2026+-+OCER&utm_content=Beyond+chatbots

Cerca nel blog

GENIO italiano Giuseppe Cotellessa