Análise da fala e reconhecimento de emoções na fala em doenças mentais: uma revisão de escopo

A análise de sinais de fala representa um método acessível, não invasivo e custo-efetivo que pode proporcionar diagnóstico mais precoce e maior personalização do tratamento © Depositphotos

Estudo internacional aponta que padrões acústicos da fala podem se tornar marcadores biológicos promissores para o diagnóstico precoce de transtornos mentais, permitindo avaliações mais precisas e tratamentos personalizados.

Por Clara Lombardo, Giulia Esposito, Silvia Carbone, Salvatore Serrano e Carmela Mento
Revista Frontiers / Fronteiras da Psicologia
Curitiba, 6 de novembro de 2025

Em uma revisão sistemática inédita, pesquisadores italianos e espanhóis analisaram dez anos de estudos sobre o uso da análise de fala e do reconhecimento emocional da voz (Speech Emotion Recognition — SER) na detecção de transtornos mentais. A pesquisa reuniu 12 estudos empíricos e confirmou que alterações específicas na prosódia, ritmo, intensidade e espectro da fala estão associadas a quadros como esquizofrenia, depressão e transtorno bipolar.

A aplicação de tecnologias de aprendizado de máquina mostrou elevada precisão na diferenciação entre indivíduos saudáveis e pacientes, revelando que a voz pode funcionar como um biomarcador acessível, não invasivo e altamente sensível para o diagnóstico precoce e o acompanhamento terapêutico em psiquiatria.

Resumo

FUNDAMENTO: Os transtornos mentais têm um impacto significativo em muitas áreas da vida das pessoas, particularmente na regulação afetiva; portanto, há uma crescente necessidade de encontrar biomarcadores específicos para cada transtorno, a fim de melhorar o diagnóstico precoce. Recentemente, a tecnologia de aprendizado de máquina aplicada à análise da fala mostrou-se um campo promissor para auxiliar nas avaliações de saúde mental. Além disso, como as expressões prosódicas das emoções são alteradas em muitas condições psiquiátricas, alguns estudos empregaram com sucesso um modelo de reconhecimento de emoções na fala (SER) para identificar doenças mentais. O objetivo deste artigo é discutir a utilização da análise da fala no diagnóstico de transtornos mentais, com foco em estudos que utilizam o sistema SER para detectar doenças mentais.

MÉTODO: Realizamos buscas nas bases de dados PubMed, Scopus e Google Scholar por artigos publicados entre 2014 e 2024. Conduzimos uma busca preliminar, que revelou artigos sobre o tema. Finalmente, 12 estudos atenderam aos critérios de inclusão e foram incluídos na revisão.

RESULTADOS: Os resultados confirmaram a eficácia da análise da fala para distinguir pacientes de indivíduos saudáveis; além disso, os estudos analisados destacaram que algumas doenças mentais estão associadas a padrões vocais específicos. Ademais, os resultados de estudos que empregaram sistemas de reconhecimento de emoções na fala para detectar transtornos mentais mostraram que as emoções podem ser usadas com sucesso como uma etapa intermediária na detecção de transtornos mentais, particularmente transtornos de humor.

CONCLUSÃO: Esses resultados apoiam a implementação da análise de sinais de fala na avaliação da saúde mental: trata-se de um método acessível e não invasivo que pode proporcionar um diagnóstico mais precoce e um tratamento mais personalizado.

Principais pontos

🧩 Análise de 12 estudos empíricos sobre distúrbios mentais usando análise acústica de fala;

💡 Eficácia confirmada da análise de fala na distinção entre pacientes e controles saudáveis;

⚙️ Padrões vocais específicos para diferentes transtornos mentais (esquizofrenia, depressão);

🎯 Sistemas SER promissores para detecção de transtornos do humor como etapa intermediária;

🔬 Métodos de extração acústica incluindo características espectrais, prosódicas e temporais;

📊 Precisão diagnóstica elevada (76-98% de acurácia em diferentes estudos)

Principais Insights

🔍 PADRÕES VOCAIS DA ESQUIZOFRENIA

Pacientes com esquizofrenia apresentam fala prosódica e melódica mais plana, menor variabilidade de pitch, mais pausas e menor intensidade vocal. Especificamente, mostram fala fragmentada, declividade espectral reduzida (indicando tensão vocal) e padrão de fala mais lento. Certos parâmetros acústicos podem distinguir entre sintomas positivos e negativos no espectro da esquizofrenia.

💡 CARACTERÍSTICAS ACÚSTICAS DA DEPRESSÃO

A fala deprimida é caracterizada por maior range de jitter, menor shimmer, menor energia vocal, monotonia de tom e intensidade, e taxa de articulação reduzida. As características discriminantes diferem entre sexos: características espectrais e de energia são específicas para homens, enquanto características prosódicas (como F0) são mais relevantes para mulheres.

🎯 UTILIDADE DOS SISTEMAS SER

Quatro estudos utilizaram modelos de reconhecimento de emoções para avaliar transtornos do humor e sintomas negativos da esquizofrenia, demonstrando ser um método promissor no diagnóstico de doenças mentais. A ferramenta OpenSMILE foi amplamente utilizado para extrair parâmetros acústicos relacionados às emoções. Pacientes deprimidos apresentam maior probabilidade de soar tristes, o que reflete anedonia e sintomas neurovegetativos típicos do subtipo melancólico da depressão.

📈 ACESSIBILIDADE E IMPACTO CLÍNICO

A análise de sinais de fala representa um método acessível, não invasivo e custo-efetivo que pode proporcionar diagnóstico mais precoce e maior personalização do tratamento. Todos os 12 estudos analisados confirmam que características acústicas podem ser utilizadas como biomarcadores válidos de transtornos mentais, apoiando a implementação desta tecnologia na avaliação de saúde mental.

Clique aqui e acesse o artigo original publicado na Revista Frontiers / Fronteiras da Psicologia.

https://sagacyconsultoria.com.br