Parkinson's Voice Initiative

Resumen

Este proyecto quiere recoger 10.000 fonaciones (sonido vocal “aaa”) a través de llamadas de calidad de línea telefónica de audio digital, bajo condiciones reales, y no de laboratorio, para probar la hipótesis de que es posible detectar la enfermedad de Parkinson a partir de las grabaciones de voz. Esto viene a colación de varios estudios recientes en los que hemos comprobado que esta detección es posible a partir de grabaciones digitales de voz de calidad de laboratorio de fonemas sostenidas [1,3-8] y, y que estos resultados no se degradan notablemente cuando el audio se pasa a través de una simulación de compresión de audio con distorsión de canal de teléfono móvil de ancho de banda bajo [2]. Además, somos capaces de predecir la severidad de los síntomas de Parkinson en una escala clínica estándar (UPDRS) [3].

Métodos

Para detectar Parkinson por la voz, extraemos una gran cantidad de características de disfonía (132 en estudios recientes [1-2]) de señales de audio digitales de fonaciones sostenidas (sonidos “aaa”). Estas características cubren una amplia gama de algoritmos de analisis de disfonías tanto clásicas como noveles (ver [3]) para una lista completa). A estos aplicamos varios algoritmos de selección de características (Lasso, mRMR, RELIEF, LLBFS [1]) e, introducimos las características seleccionadas a algoritmos clasificadores supervisados (árboles aleatorios y SVMs). Para predecir la severidad de síntomas, utilizamos árboles aleatorios y SVM en "modo regresión" [2,3] debido a que la escala UPDRS es de números enteros. Para el sobreajuste usamos validación cruzada, en ambos esquemas "no incluir muestras de audio" y "no incluir sujetos" para las aproximaciones del verdadero rendimiento generalizado en los casos desconocidos [1-3].

Datos

Los estudios dependen de dos conjuntos de datos de audio: fonaciones sostenidas de personas con Parkinson grabadas en sus casas, semanalmente, durante un periodo de 6 meses cada uno (50 sujetos, 5875 muestras de audio [3]) y grabaciones en laboratorio con controles sanos y personas con Parkinson (43 sujetos, 263 muestras de audio [1,2]). Se han usado otros conjuntos de datos en estudios anteriores en los que se han desarrollado nuevas características de disfonía [4-8].

Resultados

En cuanto a poder detectar la enfermedad, en el mejor de los casos obtenemos ona precisión de detección de un 98,6% (esto es el pporcentaje de muestras que se identificaron correctamente como sano o con Parkinson, prormediado sobre todas las pruebas de validación cruzada) en condiciones de laboratorio [1]. En cuanto a la severidad de los síntomas, el error promedio en la predicción es de 3,5 puntos en la escala de 176 puntos UPDRS (aprox. una media absoluta de un 2% de error de validación cruzada) en condiciones de telefonía móvil simulada [2]. Además, hemos visto que el rendimiento de la detección parece nivelarse en unas 10 características de disfonía, que incluyen características que miden la irregularidad de oscilación de los pliegues vocales, murmullos respiratorios y ruidos asi como fluctuaciones de resonancia del tracto vocal [1].

Discusión

Aún cuando estos resultados son alentadores, no explican el mayor potencial de factores que inducen a confusión que ocurren cuando las grabaciones de voz no se hacen en condiciones de laboratorio: factores que no se pueden controlar como el ruido ambiental y comportamiento no intencionado del que hace la llamada. El potencial que tienen estos factores de inducir confusión en los resultados es lo que motiva este estudio.

Referencias

[1] [PDF] A. Tsanas, M.A. Little, P.E. McSharry, J. Spielman, L.O. Ramig (2012)
Novel speech signal processing algorithms for high-accuracy classification of Parkinson’s disease
IEEE Transactions on Biomedical Engineering, 59(5):1264-1271

[2] [PDF] A. Tsanas, M.A. Little, P.E. McSharry, L.O. Ramig (2012)
Using the cellular mobile telephone network to remotely monitor Parkinson's disease symptom severity
IEEE Transactions on Biomedical Engineering (submitted)

[3] [PDF] A. Tsanas, M.A. Little, P.E. McSharry, L.O. Ramig (2010)
Nonlinear speech analysis algorithms mapped to a standard metric achieve clinically useful quantification of average Parkinson’s disease symptom severity
Journal of the Royal Society Interface, 8(59):842-855

[4] [PDF] A. Tsanas, M.A. Little, Patrick E. McSharry, Lorraine O. Ramig (2009)
Accurate telemonitoring of Parkinson’s disease progression by non-invasive speech tests
IEEE Transactions on Biomedical Engineering, 57(4):884-893

[5] [PDF] [HTML] M.A. Little, Patrick E. McSharry, Eric J. Hunter, Jennifer Spielman, Lorraine O. Ramig (2009)
Suitability of dysphonia measurements for telemonitoring of Parkinson’s disease
IEEE Transactions on Biomedical Engineering, 56(4):1015-1022

[6] [PDF] M.A. Little (2007)
Biomechanically informed nonlinear speech signal processing
D.Phil., Oxford University, Oxford, UK

[7] [PDF] M.A. Little, P.E. McSharry, S.J. Roberts, D.A.E. Costello, I.M. Moroz (2007)
Exploiting nonlinear recurrence and fractal scaling properties for voice disorder detection
BioMedical Engineering OnLine 2007, 6:23.

[8] [PDF] M. Little, P. McSharry, I. Moroz, S. Roberts (2006)
Nonlinear, biophysically-informed speech pathology detection
in 2006 IEEE International Conference on Acoustics, Speech and Signal Processing, 2006. ICASSP 2006 Proceedings.: Toulouse, France. pp. II-1080-II-1083.