Parpadear - Grupo Zhejiang Lime Grove

Scientific Reports volumen 13, Número de artículo: 7961 (2023) Citar este artículo

279 Accesos

Detalles de métricas

Los lenguajes de comunicación basados en los ojos, como Blink-To-Speak, juegan un papel clave en la expresión de las necesidades y emociones de los pacientes con trastornos de las neuronas motoras. La mayoría de los sistemas de seguimiento ocular inventados son complejos y no son asequibles en los países de bajos ingresos. Blink-To-Live es un sistema de seguimiento ocular basado en un lenguaje Blink-To-Speak modificado y visión artificial para pacientes con problemas del habla. La cámara de un teléfono móvil rastrea los ojos del paciente mediante el envío de fotogramas de video en tiempo real a los módulos de visión por computadora para la detección de puntos de referencia faciales, la identificación de los ojos y el seguimiento. Hay cuatro alfabetos clave definidos en el lenguaje de comunicación basado en ojos Blink-To-Live: Izquierda, Derecha, Arriba y Parpadeo. Estos gestos oculares codifican más de 60 órdenes de la vida diaria expresadas por una secuencia de tres estados de movimiento ocular. Una vez que se generan las oraciones codificadas con gestos oculares, el módulo de traducción mostrará las frases en el habla nativa del paciente en la pantalla del teléfono y se podrá escuchar la voz sintetizada. Se evalúa un prototipo del sistema Blink-To-Live utilizando casos normales con diferentes características demográficas. A diferencia de otros sistemas de seguimiento ocular basados en sensores, Blink-To-Live es simple, flexible y rentable, sin dependencia de requisitos específicos de software o hardware. El software y su fuente están disponibles en el repositorio de GitHub (https://github.com/ZW01f/Blink-To-Live).

La esclerosis lateral amiotrófica, ALS, y la esclerosis lateral primaria, PLS son enfermedades neuronales progresivas que afectan las células del cerebro y la médula espinal y causan gradualmente la pérdida del control muscular y desarrollan síntomas de deterioro del habla. Los pacientes pueden comunicarse con sus cuidadores en las últimas etapas de la enfermedad a través de gestos oculares1,2. Traducir los gestos oculares en un discurso comunicado inventó una plétora de dispositivos de comunicación aumentativa/alternativa (AAC) que tienen diferentes diseños y conceptos de usabilidad que van desde paneles de control con letras y números, pantallas táctiles y sensibles a la mirada, sistemas de seguimiento ocular y, en consecuencia, cursor de mouse modificado. se introducen técnicas para controlar diferentes aplicaciones informáticas. Los teclados sensibles a la mirada comerciales son muy caros; por ejemplo, Tobii Dyanvox3 tiene un costo que va desde los 5K$ hasta los 10K$ según los diferentes modelos de configuración. El tablero Eye Transfer4 (E-tran) es una solución alternativa de bajo costo ($260) donde un cuidador sostiene un tablero de plástico transparente con letras impresas y observa los gestos oculares del paciente en el tablero. Los rastreadores de mirada ocular montados en la cabeza5 requerían algunos ajustes estáticos y ajustados según la cámara y el ojo del paciente durante el movimiento de la cabeza.

Los pensamientos y las intenciones son otro enfoque de comunicación para los pacientes con problemas del habla. La interfaz cerebro-computadora (BCI) utiliza la actividad cerebral (es decir, señales EEG) para controlar dispositivos externos, como escribir palabras seleccionando letras en un teclado digital6 o realizar tareas complejas como navegar por una página web7 o pintar una imagen8. Algunos deletreadores cerebrales tienen diferentes tasas de comunicación9,10, que aumentaron recientemente al combinar el modelo de lenguaje y el aprendizaje profundo11,12. Los estudios de investigación indicaron que la mayoría de los pacientes con ELA/PLS tienen una buena tasa de aceptación del uso de tecnologías basadas en el seguimiento ocular para iniciar comunicaciones con el mundo que los rodea13,14,15, y el seguimiento de los ojos del paciente es mucho más simple que el seguimiento o la detección de otras señales, como EEG/ECG16,17.

Los pacientes con problemas del habla pierden sus habilidades naturales para hablar18. En consecuencia, se proponen muchos lenguajes hablados modificados que utilizan los órganos móviles disponibles, como la cabeza, los gestos faciales, los ojos o las señales cerebrales19,20. Los lenguajes de comunicación basados en el ojo se introducen en diferentes formas que codifican diferentes gestos oculares para sintetizar fácil y eficientemente un discurso comunicado21,22,23. El código Morse es uno de los enfoques propuestos para codificar los parpadeos cortos y largos como una secuencia de puntos y rayas, y los alfabetos/frases se construyen en consecuencia22,23. Blink-To-Speak es otro lenguaje visual propuesto con ocho alfabetos según ocho gestos oculares (cerrar, parpadear, izquierda, derecha, arriba, abajo, guiñar y rodar). La mayoría de las frases de la vida diaria (es decir, 50 comandos) se codifican utilizando estos alfabetos oculares definidos en un libro en línea en diferentes idiomas nativos para capacitar y enseñar a los pacientes/cuidadores cómo usar el idioma de manera fácil y eficiente24. La mayoría de los lenguajes oculares propuestos para las alteraciones del habla se implementan en dispositivos de hardware especializados con sensores específicos (gafas con infrarrojos, teclados de mirada, eye trackers montados en la cabeza, etc.) que complican el proceso de comunicación con menor usabilidad y accesibilidad para los pacientes y cuidadores14,25,26. Además, algunos de estos dispositivos son caros y no son asequibles en países de bajos ingresos como Egipto.

Además, el parpadeo de los ojos es el único estado considerado en el lenguaje visual propuesto anteriormente, lo que puede limitar la usabilidad de la aplicación al descartar otros gestos oculares (es decir, izquierda, arriba, derecha, etc.) que pueden codificar más frases diferentes y comandos de la vida diaria14 ,22,23. Si bien el lenguaje ocular Blink-To-Speak tiene más alfabetos que otros lenguajes de comunicación basados en el ojo, que pueden codificar más frases, los cuidadores solo pueden entender el habla prevista del paciente al observar sus ojos, y los pacientes/cuidadores están capacitados a través de un libro manual. hablar/entender el idioma. Además, las oraciones comunicadas definidas en el libro pueden tener una larga secuencia de diferentes gestos oculares que necesitan más tiempo de entrenamiento y pueden agotar los ojos del paciente.

En este artículo, propusimos Blink-To-Live, un sistema de seguimiento ocular basado en un lenguaje Blink-To-Speak modificado para pacientes con problemas del habla. Un dispositivo móvil de mano con cámaras compatibles captura cuadros de video en tiempo real y los envía a módulos de visión por computadora para la detección de puntos de referencia faciales, identificación ocular y seguimiento. El sistema de comunicación Blink-To-Live tiene cuatro movimientos oculares: izquierda, derecha, arriba y parpadeo. Estos gestos oculares codifican más de 60 órdenes de la vida diaria expresadas por una secuencia de tres movimientos oculares. Los módulos de generación y traducción del habla decodifican los movimientos oculares reconocidos en las frases correspondientes, los muestran en la pantalla del móvil en el habla nativa del paciente y su voz sintetizada se puede escuchar en consecuencia. A diferencia de otros sistemas de seguimiento ocular basados en sensores, Blink-To-Live es simple, flexible y rentable, sin dependencia de requisitos específicos de software o hardware. Además, en comparación con el Blink-To-Speak original, el lenguaje de comunicación basado en los ojos propuesto tiene más comandos con una secuencia corta de movimientos oculares para aumentar su facilidad de uso para que el paciente hable más rápido en menos tiempo de entrenamiento.

Nuestro documento está organizado de la siguiente manera: la sección "Trabajo relacionado" proporciona un resumen del trabajo relacionado anteriormente, la sección "Materiales y métodos" presenta el panorama general de la arquitectura de nuestro sistema propuesto con sus módulos internos y submódulos que se analizan en detalle en las siguientes subsecciones, la sección "Resultados experimentales" demuestra los principales resultados experimentales de nuestro sistema de comunicación propuesto, incluidas diferentes interfaces de usuario, servicios básicos proporcionados a pacientes/cuidadores y diferentes problemas de usabilidad y accesibilidad, la sección "Conclusión" concluye el documento y destaca algunos aspectos futuros ideas para mejorar el sistema Blink-To-Live.

Las tecnologías de seguimiento ocular se utilizan en muchas ciencias, como la cognición, la psicología, la informática y la medicina, para digitalizar cómo las personas interactúan con su entorno de vida27,28. El seguimiento de los ojos humanos, lo que implica registrar sus diferentes movimientos, es esencial para muchas aplicaciones generalizadas, como las comunicaciones basadas en los ojos y las interacciones con el entorno informático29,30. Anteriormente se introdujeron tres tipos de enfoques de seguimiento ocular (ver Fig. 1): uno se basa en dispositivos conectados directamente a los ojos, como lentes especiales o anteojos con sensores infrarrojos que rastrean y registran las posiciones de los ojos. El segundo enfoque apunta a los ojos como una fuente de campo eléctrico que puede detectarse en la oscuridad incluso cuando el ojo está cerrado y mide los potenciales eléctricos colocando algunos electrodos alrededor de los ojos humanos, el ejemplo de este enfoque es la técnica de electrooculograma (EOG)22 ,27. Dado que los dos enfoques mencionados anteriormente se basan en algunos sensores, como infrarrojos o electrodos, se pueden agrupar bajo el término tecnologías de seguimiento ocular basadas en sensores. Los otros métodos de seguimiento ocular se basan en técnicas de visión por computadora para detectar y rastrear los ojos humanos en los cuadros de video capturados por una cámara en tiempo real sin contacto directo con los ojos humanos o utilizando sensores de hardware adicionales31,32,33.

Sistemas de seguimiento ocular para pacientes con problemas del habla.

Un método propuesto de interacción humano-computadora es colocar casi cinco electrodos alrededor de los ojos de los pacientes para detectar sus parpadeos y movimientos para controlar el cursor y diferentes aplicaciones de escritorio34,35. Algunas aplicaciones tienen una interfaz de usuario con un teclado para permitir que los pacientes use sus ojos para mirar las letras deseadas y seleccione en función de los parpadeos y movimientos de los ojos durante un intervalo de tiempo predefinido (es decir, un segundo). Además, los sistemas de electromiografía pueden detectar señales de los músculos faciales y controlar el cursor del ratón y las aplicaciones informáticas en consecuencia36. Los gestos oculares y las señales de los músculos faciales se incorporan para aumentar la confiabilidad de las aplicaciones que ayudan a las personas con problemas del habla en la comunicación y el control del cursor. Si bien la combinación de estas dos técnicas tiene una alta precisión, todavía sufre de una velocidad de comunicación lenta y un alto costo22. El enfoque de contacto visual directo apunta a diseñar dispositivos de hardware como anteojos con un sensor de infrarrojos que traduce los parpadeos de los ojos en una secuencia de alfabetos usando un código Morse con variaciones de que los alfabetos se muestran en la pantalla LCD23, o las frases sintetizadas se muestran en un teléfono móvil pantalla del teléfono22. EyeLive37 es otro sistema de seguimiento ocular basado en la medición de los reflejos oculares mediante el sensor de infrarrojos. El sistema tiene una interfaz de usuario con un teclado que le permite al paciente seleccionar las letras deseadas usando sus gestos oculares. Si bien el sensor de infrarrojos facilita la detección de gestos oculares al aumentar la luz reflejada de los ojos, tiene algunas limitaciones, como la interferencia con la luz solar en el uso al aire libre, y la posición relativa de los ojos para el sensor de infrarrojos afectará el rendimiento del seguimiento. Los enfoques de contacto visual directo tienen un costo adicional por el uso de dispositivos de hardware externos para el seguimiento ocular con menos confiabilidad y robustez según las mediciones imprecisas del sensor.

Se introducen algunas técnicas de aprendizaje automático para detectar y rastrear los ojos humanos, como el análisis de componentes principales, que detecta los seis componentes principales del primer ojo en las imágenes capturadas. La posición de la pupila del ojo se clasifica utilizando el modelo de red neuronal artificial38. El sistema requería una configuración de hardware especial, como una cámara montada en la cabeza y anteojos que complican el proceso de comunicación. Algunos modelos de aprendizaje automático se utilizan para predecir las direcciones del ojo, los ángulos de la mirada y los movimientos, como la regresión lineal adaptativa, ALR39, K Nearest Neighbors, KNN40 y Random Forest, RF41, que sufren de precisión de predicción inexacta debido a muestras de entrenamiento insuficientes. configuración de parámetros, imágenes ruidosas o proceso complejo de extracción de características31. Además, Support Vector Machine, SVM, se utiliza para clasificar las cinco direcciones del ojo después de detectar la región del ojo modificando las características del modelo de apariencia activo42. Se utiliza una red neuronal de convolución de aprendizaje profundo, CNN, con arquitectura multicapa, para predecir diferentes gestos oculares en función del entrenamiento de la CNN con una gran cantidad de muestras con estados oculares conocidos como etiquetas predichas, que pueden lograr un buen rendimiento pero requieren una gran número de muestras de entrenamiento, tiempo de entrenamiento prolongado y ajustar los parámetros del modelo en consecuencia43. La tecnología de seguimiento ocular se aplica en tareas que no son de comunicación, como comprender los factores que influyen en la comprensión al investigar cómo los desarrolladores comprenden la sintaxis de consulta y la sintaxis de método en Language-Integrated Query (LINQ), que es una tecnología popular para consultar datos en .NET. lenguajes de programación como C# y VB.NET44. Además, la tecnología de seguimiento ocular está integrada con pantallas montadas en la cabeza de realidad virtual (VR) para representar los sentidos de VR, ayudar al usuario a interactuar con el entorno45 o respaldar la evaluación de la visión46.

Blink-To-Live es una aplicación móvil basada en técnicas de visión por computadora para pacientes con trastornos de la neurona motora como ALS y PLS. Estos pacientes desarrollan gradualmente síntomas de deterioro del habla. En la etapa final paralizada, los gestos oculares son los únicos métodos para iniciar la comunicación. El sistema de comunicación Blink-To-Live se basa en los cuatro gestos oculares: Izquierda, Derecha, Arriba y Parpadeo (Tabla 1), que definen los alfabetos clave del idioma para codificar más de 60 oraciones comunicativas de la vida diaria, como las que se presentan en las Tablas 2 y 3

Como se muestra en la Fig. 2, Blink-To-Live tiene dos componentes básicos del sistema: una aplicación móvil desarrollada por un marco Google flutter47 y el otro es un módulo Python back-end para el análisis y procesamiento de imágenes de cuadros de video. Las interacciones del paciente con el sistema Blink-To-Live comienzan cuando un cuidador abre la cámara del teléfono para seguir los gestos oculares del paciente. Una vez que los cuadros de video se capturan correctamente en tiempo real, se envían automáticamente a los módulos de visión por computadora para detectar y rastrear los estados de movimiento ocular de los pacientes.

Arquitectura del sistema de comunicación Blink-To-live.

El primer módulo es la detección de puntos de referencia faciales, que tiene dos submódulos: detección de rostros y predicción de puntos de referencia faciales. Este módulo tiene como objetivo detectar la cara del paciente y extraer las ubicaciones de 68 coordenadas faciales que representan diferentes estructuras faciales como ojos, boca, nariz, etc. El siguiente módulo detecta los ojos de los pacientes y rastrea sus movimientos de acuerdo con Blink-To-Live. cuatro alfabetos clave: Izquierda, Derecha, Arriba y Parpadeo. El habla comunicada del paciente se genera de acuerdo con el diccionario predefinido de oraciones codificadas mediante una combinación de tres estados de movimiento ocular. Una vez que se sintetizan las oraciones, un módulo de traducción muestra las frases en el idioma nativo del paciente, como árabe, alemán, etc. Además, el módulo de texto a voz genera un discurso realista correspondiente que ayuda a los pacientes a comunicarse fácil y eficientemente. Las implementaciones detalladas de cada módulo se discutirán en las siguientes secciones.

El lenguaje de comunicación basado en los ojos Blink-To-Live tiene cuatro alfabetos de ojos (es decir, Blink (B), Izquierda (L), Derecha (R) y Arriba (U)). Modificamos un lenguaje visual Blink-To-Speak propuesto previamente de acuerdo con los cuatro movimientos oculares reconocidos por nuestro sistema para simplificar el proceso de comunicación del paciente al expresar más declaraciones con menos secuencia de gestos oculares y transiciones. En el lenguaje de comunicación basado en los ojos Blink-To-Live, cada oración comunicada se expresa como una secuencia de tres estados oculares, y cada estado podría ser uno de los cuatro estados (B, L, R y U). Los cuatro estados definidos generarán exactamente 64 frases comunicadas de la vida diaria para pacientes con ELA/PLS (Tablas 2 y 3). Esta configuración se puede definir matemáticamente de la siguiente manera: si tiene $n$ estados oculares reconocidos y un grupo de oraciones comunicadas, cada oración se expresará mediante $k$ palabras ($k$ secuencia de estados), el número total de oraciones comunicadas de forma única será ${n}^{k}$. Al aumentar el número de $n$ estados oculares reconocidos y las $k$ palabras expresadas, se agregan más declaraciones al lenguaje Blink-To-Speak modificado. Encontramos que cuando $n=4$, $k=3$, el número total de declaraciones definidas es igual a 64, suficiente para expresar la mayor parte del discurso de comunicación de la vida diaria requerido para pacientes con ELA/PLS con menos tiempo de entrenamiento. Los mismos estados oculares (es decir, los tres estados son izquierda, derecha, arriba o parpadeo) sin transición intermedia se dedican a las necesidades básicas del paciente, como comida, agua, baño, estoy bien, etc. Además, los estados con transiciones bajas se dedican al comando más importante, como cambiar un pañal, llamar a un pariente, tomar medicamentos, etc. Por lo general, la secuencia de los mismos estados oculares se expresará más rápido por los pacientes y tomará menos tiempo de entrenamiento que la secuencia de estados del ojo que hacen la transición de un estado del ojo a otro. El lenguaje de comunicación basado en los ojos Blink-To-Live propuesto será más simple, más flexible y utilizable, ya que los ojos del paciente podrían agotarse por una larga secuencia de gestos y transiciones definidas en el libro original Blink-To-Speak. La Tabla 4 muestra las diferencias clave entre los sistemas Blink-To-Speak24 y Blink-To-Live.

Los puntos de referencia faciales detectan partes importantes de la cara, como la nariz, los ojos, las cejas, la boca, etc. La estructura facial más importante de nuestro sistema son los ojos del paciente. El módulo de puntos de referencia faciales en nuestro marco propuesto tiene dos pasos básicos: detectar el rostro de las imágenes recopiladas de los cuadros de video y localizar las estructuras faciales importantes en la región facial de interés en consecuencia.

La detección de rostros se logra con un modelo preentrenado llamado Histograma de gradientes orientados con SVM lineal (HOG + SVM). El descriptor HOG de un rostro humano puede construirse dividiendo la imagen del rostro en pequeños bloques, y para cada bloque, se calculan los gradientes (es decir, pequeños cambios en los valores de píxel en términos de direcciones x e y). Luego, se genera el histograma para cada bloque por separado. Por último, los vectores de gradiente se normalizan y se combinan en un solo descriptor de características HOG que se alimenta a una SVM lineal para la clasificación de objetos de rostro/no rostro48.

Dado que se detecta la región de la cara, el siguiente paso es detectar los puntos de referencia faciales localizando y etiquetando la boca, las cejas izquierda y derecha, los ojos izquierdo y derecho, la nariz y la mandíbula. Un conjunto de estructuras faciales clave etiquetadas manualmente en términos de coordenadas x e y, junto con los valores de intensidad de los píxeles y las probabilidades previas de la distancia de los valores de píxeles correspondientes a los pares de puntos de referencia faciales, se introducen en un modelo conjunto de árboles de regresión49 para entrenar un modelo para el detector de puntos de referencia faciales. El modelo se implementa en la biblioteca dlib50 y se entrena en el conjunto de datos iBUG 300-W51 para estimar las ubicaciones de 68 coordenadas de puntos de referencia faciales en términos de valores x e y. Nuestro sistema propuesto utilizó el modelo preentrenado dlib para detectar puntos de referencia faciales en imágenes en tiempo real extraídas de cuadros de video (ver Fig. 3).

Módulo de detección de puntos de referencia faciales, donde los puntos representan las 68 coordenadas de diferentes estructuras faciales como boca, cejas izquierda derecha, nariz, etc.

Los ojos del paciente se detectan utilizando el módulo de puntos de referencia faciales, que ubica los índices de los ojos izquierdo y derecho en el espacio de coordenadas 68- (x, y). Cada ojo es detectado por 6 coordenadas dibujadas en la máscara negra creada de la misma dimensión para cada marco de lectura correspondiente a la imagen de un paciente. La única región blanca en la máscara negra creada rodea el ojo y se expande mediante la operación morfológica de dilatación. Los ojos se segmentan a través de la operación bit a bit y con la máscara creada en la imagen original. Todos los valores de píxeles cero se convierten a 255 para localizar el globo ocular, la única región negra que queda en la máscara. La máscara de ojo resultante se convierte en escala de grises para preparar la imagen para segmentar el globo ocular del ojo y ubicar su centro. Usamos un umbral fijo para crear una máscara binaria para encontrar el contorno más grande que contiene el globo ocular y segmentarlo en consecuencia. Una vez que se detecta el globo ocular, su posición (en términos de coordenadas x e y) se calcula y se devuelve como tres valores asignados a tres direcciones: izquierda (1), derecha (2) y arriba (3). El estado de ojo hacia abajo no se detecta en esta versión de la aplicación Blink-To-Live ya que entra en conflicto con un estado de parpadeo.

Cada ojo se detecta mediante 6 coordenadas utilizando el módulo de puntos de referencia faciales, y la relación entre la altura y el ancho del ojo se puede codificar mediante la relación denominada Relación de aspecto del ojo, EAR52,53, que se calcula mediante la siguiente ecuación:

donde p1, p2, p3, etc., son las coordenadas de los puntos de referencia del ojo, como se muestra en la Fig. 4.

Las 6 coordenadas de los ojos izquierdo y derecho, que se utilizan en el cálculo de la relación de aspecto del ojo, EAR.

$EAR$ siempre es constante cuando el ojo está abierto, y tiene un valor aproximado de cero cuando parpadea. En consecuencia, la relación puede determinar si el paciente está parpadeando. Se calcula un valor de umbral específico, $t$, (es decir, 0,2 en nuestra aplicación). Supongamos que el valor EAR se reduce en menos de 0,2 y luego aumenta por encima de 0,2, se detecta un solo parpadeo y se puede contar tantos como parpadeos se hayan producido. La siguiente ecuación explica cómo se detectan los estados de apertura y cierre del ojo en función de la comparación de $EAR$ con el valor de umbral $t$.

El parpadeo normal dura de 100 a 400 ms, que es muy rápido en comparación con el parpadeo previsto (es decir, dura 800 ms). Usamos el enfoque explicado en53 para distinguir el parpadeo normal del parpadeo del paciente, que se usa como un alfabeto en el lenguaje basado en ojos de Blink-To-Live. La solución implica inspeccionar el valor $EAR$ en el número predefinido de fotogramas de video (es decir, 13 fotogramas) y si $EAR$ sigue siendo inferior a 0,2, entonces es el parpadeo del idioma previsto. Si el número de cuadros de inspección es inferior a 13 cuadros, el parpadeo es muy rápido y puede ser normal teniendo en cuenta que la cámara captura 25 cuadros por segundo.

De los módulos discutidos anteriormente, los cuatro alfabetos oculares (es decir, Parpadeo (B), Izquierda (L), Derecha (R) y Arriba (U)) pueden detectarse y registrarse en una lista de seguimiento ocular. La lista de seguimiento ocular almacena diferentes estados reconocidos por el ojo y genera las frases codificadas correspondientes de acuerdo con las Tablas 2 y 3. Se utiliza una biblioteca de traducción de Python para traducir estas frases a diferentes idiomas nativos, como árabe, alemán, etc., según diferentes pacientes. ' culturas y nacionalidades54. Además, el texto de las frases generadas se convierte en un discurso sintetizado realista mediante un módulo de conversión de texto a voz desarrollado por Microsoft Azure55. Las claves de registro locales de la biblioteca de Microsoft para Text-to-Speech también se pueden usar e importar directamente a cualquier código Python.

Blink-To-live es una aplicación móvil basada en flutter para ayudar a los pacientes con problemas del habla a comunicarse con sus familias y cuidadores. Se abrirá la cámara de un teléfono móvil y se capturará una secuencia de cuadros de video y se enviará a un modelo de back-end a través de un socket web con FastAPI56. El canal de comunicación bidireccional entre un cliente (aplicación móvil) y un servidor (modelo backend) se establece mediante un socket web con FastAPI que envía rápidamente imágenes en tiempo real sin pasar por todas las capas del protocolo HTTP. El socket web manejará de manera eficiente un problema de contrapresión que resulta de recibir más fotogramas de video que el número esperado para ser manejado por el modelo de back-end. Además, este problema ocurría cuando el modelo estaba ocupado procesando fotogramas existentes y ejecutando módulos de detección de rostros/ojos, prediciendo los movimientos de los ojos y traduciendo los estados reconocidos en un discurso de comunicación mientras recibía nuevos fotogramas de la aplicación móvil. Se creará una cola o búfer con un tamaño limitado para resolver este problema. Cuando la cola está llena, algunos cuadros de video se eliminarán sin afectar la eficiencia de la aplicación, ya que sus detalles se pueden restaurar o crear virtualmente a partir de los almacenados previamente. Dos métodos se implementan simultáneamente y se ejecutan en paralelo: recibir y procesar. El método de recepción se utiliza para leer fotogramas recién capturados codificados por bytes sin formato. Por el contrario, el método de proceso detecta rostros/ojos en los marcos recibidos previamente, rastrea los gestos de los ojos y envía el habla del ojo traducido a la pantalla de la aplicación móvil.

En este documento, desarrollamos una aplicación móvil llamada Blink-To-Live para ayudar a los pacientes con problemas del habla a comunicarse de manera fácil y eficiente. El cuidador del paciente solo necesita abrir la cámara del teléfono móvil para capturar y rastrear los movimientos oculares del paciente de acuerdo con los cuatro alfabetos clave de Blink-To-Live: Izquierda, Derecha, Arriba y Parpadeo. El habla comunicada del paciente se genera de acuerdo con el diccionario predefinido de oraciones codificadas mediante una combinación de tres estados de movimiento ocular. Una vez que se sintetizan las oraciones, un módulo de traducción muestra las frases en el idioma nativo del paciente y el módulo de conversión de texto a voz genera un discurso realista correspondiente en consecuencia. La Figura 4 muestra diferentes pantallas de la aplicación, desde el registro del usuario hasta la pantalla que muestra las frases codificadas de movimientos oculares.

En la Fig. 5, los usuarios pueden registrarse con sus números de teléfono y correos electrónicos. Dependiendo del proceso de registro, se puede inferir información personalizada, como la nacionalidad del paciente, cultura, etc. Las siguientes pantallas de la aplicación (es decir, la Fig. 5) muestran que cuando se abre la cámara, la aplicación comienza a rastrear los movimientos de los ojos y los muestra en la pantalla, y después de reconocer todos los gestos de los ojos, su correspondiente frase sintetizada, de acuerdo con las tablas. 2 y 3, se muestra en la pantalla de la aplicación y se escucha su voz realista.

Interfaz de usuario de la aplicación móvil Blink-To-Live (es decir, interfaces de registro del paciente y seguimiento ocular) junto con la frase que se muestra "No estoy bien".

Además, la aplicación tiene un módulo de aprendizaje con gráficos animados, que ayudará y motivará a los pacientes y cuidadores a aprender más sobre los cuatro alfabetos de movimiento ocular de Blink-To-Live y el habla generada basada en el ojo correspondiente. Además, el habla generada podría traducirse a diferentes idiomas nativos según la información de registro del paciente (véanse las Figs. 6 y 7).

Servicios básicos de la aplicación móvil Blink-To-Live: lectura del libro de lenguaje ocular, detección del ojo y traducción de los movimientos oculares en frases en el habla nativa del paciente.

Diseños de interfaz de usuario del perfil del paciente en la aplicación móvil Blink-To-Live.

La Figura 8 muestra las interacciones entre la aplicación móvil Blink-To-Live y el paciente como una secuencia de intercambio de mensajes. Cuando su cuidador crea un perfil de usuario para un paciente, la información de inicio de sesión se puede usar para iniciar la aplicación Blink-To-Live. Dependiendo de la etapa de parálisis, el paciente o su cuidador pueden abrir la cámara del teléfono y la aplicación comienza a rastrear el ojo del paciente y registra cada movimiento reconocido en la lista de seguimiento ocular. Cada tres movimientos oculares reconocidos se traducen en una frase correspondiente usando el diccionario Blink-To-Live codificado por las tablas 2 y 3. La frase codificada se muestra en la pantalla de la aplicación y se escucha su voz correspondiente. El diccionario se codificó utilizando tres estados oculares para simplificar la comunicación sin agotar el ojo del paciente al hacer una larga secuencia de movimientos oculares. Una vez que el habla codificada del paciente se muestra en la pantalla, la lista de seguimiento ocular se borra para comenzar a grabar una nueva secuencia de tres gestos oculares. Supongamos que el paciente accidentalmente hace un movimiento ocular erróneo no reconocido por el sistema Blink-To-Live. En ese caso, la pantalla de la aplicación no mostrará el estado no reconocido y se asignará al paciente un intervalo de cinco segundos para expresar el correcto.

Un diagrama de secuencia que describe las interacciones entre el paciente y la aplicación móvil Blink-To-Live.

Se comparan diferentes enfoques de seguimiento ocular de acuerdo con criterios como la velocidad de comunicación, el costo, la dependencia del cuidador o los dispositivos de hardware especiales para iniciar la comunicación. Blink-To-Live sigue un enfoque de seguimiento de contacto visual indirecto llamado enfoque de seguimiento ocular basado en visión por computadora. La comparación consideró los resultados informados de diferentes estudios que evalúan diferentes enfoques de seguimiento ocular para la comunicación con pacientes con ELA15,19,35,57,58. El sistema Blink-To-Live no depende de sensores o dispositivos de hardware especiales para iniciar la comunicación con el paciente. Los pacientes/cuidadores pueden usar sus móviles con cámaras compatibles para rastrear los ojos del paciente, generar el discurso previsto y traducirlo al idioma nativo del paciente. No se necesitan anteojos, electrodos o pantallas de detección de mirada; por lo tanto, nuestra aplicación tiene el costo más bajo en comparación con las otras propuestas. Blink-To-Live sufre un pequeño retraso, ya que los extensos módulos backend de visión por computadora procesan los cuadros de video en tiempo real y envían los resultados a la aplicación móvil, por lo que la velocidad de comunicación será lenta en comparación con los sistemas de seguimiento de contacto visual directo. (ver Tabla 5).

Todos los experimentos se llevaron a cabo según las directrices y normativas pertinentes. Además, fueron aprobados por el Comité de Ética de Investigación Científica, Facultad de Informática e Información, Universidad de Mansoura, Egipto. Además, se obtuvo el consentimiento informado de todos los sujetos para publicar la información/imágenes en una publicación en línea de acceso abierto.

Se probó un prototipo del sistema Blink-To-Live propuesto utilizando 10 casos normales con diferentes características demográficas, como edad, género, nivel educativo y conocimiento de la tecnología. La conciencia tecnológica se evalúa de acuerdo con la edad, la experiencia previa, los antecedentes culturales y el nivel de educación de cada participante incluido en el experimento de prueba. Cada caso tuvo una semana de entrenamiento para aprender los diferentes alfabetos del lenguaje ocular y sus frases relacionadas en las Tablas 2 y 3. Luego, se le pide a cada caso que hable 27 frases expresando sus correspondientes alfabetos del lenguaje ocular (es decir, izquierda, derecha, arriba, y parpadear). Cada caso contó con cinco intentos para pronunciar cada una de las frases ensayadas.

La Tabla 6 presenta los resultados registrados, donde cada caso tenía un símbolo codificado en la primera columna. La velocidad de comunicación promedio, el número de intentos y la precisión de la comunicación se informan en las siguientes columnas. La velocidad media de comunicación se mide por el tiempo de procesamiento necesario para reconocer los gestos del ojo y mostrar la frase correspondiente en la pantalla del móvil. La precisión de la comunicación se calcula contando el número de oraciones pronunciadas correctamente utilizando los alfabetos oculares de las 27 oraciones probadas.

Los casos (P-01 a P-10) tienen 6 hombres y 4 mujeres con edades que oscilan entre 21 y 79 años. Los casos P-01, P-02, P-04, P-06, P-08 y P-10 con éxito Expresar diferentes alfabetos del lenguaje visual y pronunciar correctamente la mayoría de sus frases relacionadas en una sola prueba (ver Tabla 6). Los casos P-01, P-02, P-04 y P-10, tienen edades más jóvenes en comparación con P-06 y P-08, con edades superiores a 60 años. Todos tienen un nivel de educación y conocimientos tecnológicos superior al resto de los participantes. . Los casos P-03, P-07 y P-09, tienen un nivel educativo medio y un conocimiento tecnológico bajo, por lo que necesitaron más ensayos para expresar los alfabetos del lenguaje visual. El caso P-05 tiene el peor desempeño ya que el nivel educativo y conocimiento tecnológico es muy bajo en comparación con los demás. La velocidad de comunicación oscila entre 15 y 25 s para expresar una oración para todos los casos. Este tiempo variará según la cantidad de estados oculares de transición en la frase codificada, la capacidad de la persona para mover los ojos correctamente sin mover la cabeza de acuerdo con el discurso previsto y la velocidad de la conexión a Internet entre la aplicación móvil y el sistema backend. En nuestros resultados experimentales, las personas normales con altos niveles educativos, conciencia tecnológica, buen entrenamiento del lenguaje visual, buena conectividad a Internet y estabilidad logran buenos resultados de comunicación. Con suficiente tiempo de formación, las personas con bajo nivel educativo y conocimiento tecnológico pueden lograr un buen desempeño. Los pacientes con entornos experimentales similares necesitarán más entrenamiento (se esperan 15 días) para lograr el mismo rendimiento. La dependencia del paciente de su cuidador para abrir la cámara del teléfono se basa en su capacidad para controlar sus músculos según las diferentes etapas de la enfermedad. Una vez que se abrió la cámara para seguir el ojo del paciente, no hubo necesidad de que un cuidador ayudara con la comunicación del paciente.

Para evaluar más a fondo el sistema Blink-to-Live, eliminamos cualquier factor externo variable, como la velocidad/el ancho de banda de la red, la cantidad total de cuadros enviados desde un remitente (es decir, un dispositivo móvil) a un servidor (modelo de back-end), la resolución del cuadro, y prueba el sistema usando su versión de escritorio. En general, alcanzamos un tiempo promedio de 3 s para la mayoría de las oraciones comunicadas con los mismos estados de movimiento ocular o al menos un estado de transición. A veces, los estados de parpadeo tardan más en ser reconocidos por nuestro sistema y, en consecuencia, sus frases correspondientes tienen un tiempo de comunicación más largo en comparación con las otras frases sin estados de parpadeo. Frases como "Quiero dormir", que se expresa mediante una secuencia de [BLB], no pudieron ser pronunciadas por P-01 y P-04 ya que el sistema no podrá reconocer el tercer estado de parpadeo cuando un rápido/ se hizo una transición lenta entre dos estados consecutivos diferentes (ver Fig. 9). Asimismo, las oraciones "Tapa nasal", "Palpitaciones", "Mi computadora no funciona" y "Quiero orar", que se expresan mediante la secuencia consecutiva [LRR], [LRU], [UBR], [BRU ], no fue hablado por algunos participantes mientras hacían la transición rápida entre dos estados consecutivos o movían la cabeza junto con los gestos de sus ojos. Por lo tanto, el sistema Blink-To-Live no puede reconocer la secuencia de los alfabetos oculares previstos para decodificar su frase correspondiente.

Velocidad de comunicación del sistema Blink-To-Live de oraciones con diferentes estados oculares de transición (es decir, L, R, U y B).

Dado que la velocidad de comunicación de Blink-To-Live se ve afectada por muchos factores externos, como la velocidad/el ancho de banda de la red, la cantidad total de cuadros enviados desde la aplicación móvil al servidor y la resolución del cuadro. La velocidad de comunicación del sistema Blink-To-Live, ${{\varvec{C}}{\varvec{S}}}^{{\varvec{B}}{\varvec{T}}{\varvec{ L}}}$ , se puede caracterizar matemáticamente de la siguiente manera:

donde ${{\varvec{P}}}^{{\varvec{B}}{\varvec{T}}{\varvec{L}}}$ es el tiempo de procesamiento de la secuencia de tres estados oculares en el lado del servidor y ${{\varvec{T}}}^{{\varvec{B}}{\varvec{T}}{\varvec{L}}}$ es el tiempo de transmisión entre la aplicación móvil y el servidor.

En promedio, ${{\varvec{P}}}^{{\varvec{B}}{\varvec{T}}{\varvec{L}}}$ toma de tres a cuatro segundos, mientras que $ {{\varvec{T}}}^{{\varvec{B}}{\varvec{T}}{\varvec{L}}}$ se puede definir en términos de las variables: ${D}^ {BTL}$: tiempo de duración del videoclip inspeccionado para los movimientos oculares del paciente,${FR}^{BTL}$: velocidad de fotogramas, ${F}^{BTL}$: número total de fotogramas ser enviado desde la aplicación móvil al sistema back-end, ${R}^{BTL}$: resolución de cuadro caracterizada por la cámara de un teléfono, ${X}^{BTL}$: número de píxeles en cuadros de video, ${B}^{BTL}$ : número de bits en cuadros de video y $N$: ancho de banda de la red en bps.

En términos técnicos, comparamos dos enfoques de extracción de funciones implementados en la biblioteca dlib. El primer enfoque se basa en CNN y tiene un tiempo de ejecución de 3,33 s solo para un módulo de detección de rostros, mientras que el enfoque basado en Blink-To-Live tiene un tiempo de ejecución de 0,21 s (consulte la Tabla 7).

Las aplicaciones de seguimiento ocular, como Blink-To-Live, se han introducido como tecnología de comunicación de asistencia para pacientes con problemas del habla. Dos elementos juegan un papel clave en el éxito de las tecnologías de seguimiento ocular: el dispositivo de hardware utilizado para realizar un seguimiento del ojo del paciente y la aplicación de software utilizada para procesar los datos recopilados. Los dispositivos que rastrean el ojo del paciente van desde costosos teclados sensibles a la mirada como Tobii Dyanvox o Eye Transfer hasta lentes especiales, electrodos o anteojos con sensores infrarrojos. El sistema Blink-To-Live propuesto sigue otro enfoque para rastrear el ojo del paciente usando una cámara simple sin utilizar costosos dispositivos especializados o sensores de hardware colocados directamente en los ojos humanos.

Las aplicaciones de software que procesan los datos recopilados se basan en la máquina y en técnicas de aprendizaje profundo para la detección de puntos de referencia faciales, la identificación ocular y el seguimiento. El sistema Blink-To-Live utilizó HOG + SVM, el enfoque de extractor de características implementado en la biblioteca dlib, para la identificación de puntos de referencia faciales y otros módulos de visión por computadora para rastrear diferentes movimientos oculares y estados de parpadeo. El estado de ojos caídos no se detecta en esta versión de la aplicación Blink-To-Live, ya que entra en conflicto con un estado de ojos parpadeantes, que puede resolverse en el futuro mediante el uso de técnicas como el aprendizaje por refuerzo. Además, el sistema Blink-To-Live sufre un pequeño retraso, ya que los extensos módulos back-end de visión por computadora procesan los cuadros de video en tiempo real y envían los resultados a la aplicación móvil, por lo que la velocidad de comunicación será lenta en comparación con otros directos. -Sistemas de seguimiento de contacto visual. La velocidad de la comunicación se puede mejorar mediante el desarrollo de servicios back-end de procesamiento rápido y comunicación de socket web entre las aplicaciones del cliente y del servidor.

Blink-To-Live es una aplicación móvil simple y rentable para pacientes con problemas del habla que solo tienen sus ojos para iniciar la comunicación con el mundo que los rodea. Se basa en un conjunto de módulos de visión por computadora y una versión modificada del lenguaje Blink-To-Speak para traducir diferentes gestos oculares en un conjunto de comandos de la vida diaria utilizados por los pacientes para expresar sus emociones y necesidades. Los pacientes/cuidadores solo usarán sus teléfonos con cámaras compatibles para rastrear los movimientos oculares de diferentes pacientes. El habla sintetizada basada en los ojos se mostrará en la pantalla del teléfono en consecuencia. Las mejoras futuras de nuestro sistema consisten en aumentar la velocidad de comunicación mediante el desarrollo de un sistema de back-end de procesamiento rápido que utiliza enfoques modernos de análisis y procesamiento de imágenes en tiempo real. Además, los algoritmos de aprendizaje por refuerzo pueden mejorar los módulos de detección de ojos, parpadeo y seguimiento para lograr resultados de alta precisión y resolver conflictos entre los estados de movimiento de los ojos. Además, cada paciente tiene un perfil registrado en nuestra aplicación. En el futuro, la aplicación aprenderá los atributos, los movimientos y el comportamiento de parpadeo de su ojo, lo que puede aumentar la velocidad de comunicación y personalizar la aplicación de acuerdo con las diferentes necesidades del paciente. Blink-To-Live podría integrarse fácilmente con otros sistemas que dependen de dispositivos de hardware para controlar el entorno de vida del paciente con gestos oculares.

Blink-To-Live es un software gratuito de código abierto lanzado bajo la licencia GNU GPL y su fuente es el repositorio de GitHub (https://github.com/ZW01f/Blink-To-Live).

Spataro, R., Ciriacono, M., Manno, C. & La Bella, V. El dispositivo informático de seguimiento ocular para la comunicación en la esclerosis lateral amiotrófica. Acta Neurol. Escanear. 130, 40–45 (2014).

Artículo CAS PubMed Google Académico

Caligari, M., Godi, M., Guglielmetti, S., Franchignoni, F. & Nardone, A. Dispositivos de comunicación de seguimiento ocular en la esclerosis lateral amiotrófica: impacto en la discapacidad y la calidad de vida. Amiotropo. Esclerosis Lateral Frontotemp. Degen. 14, 546–552 (2013).

Artículo Google Académico

Tobiidynavox. Tecnología de asistencia para la comunicación, https://us.tobiidynavox.com/ (2023).

Tablero, E.-t. Tablero de transferencia ocular, https://www.bridges-canada.com/products/9594-1 (2023).

Cognolato, M., Atzori, M. & Müller, H. Dispositivos de seguimiento de la mirada ocular montados en la cabeza: una descripción general de los dispositivos modernos y los avances recientes. J. rehabilitación. Asistir. Tecnología Ing. 5, 2055668318773991 (2018).

Google Académico

Verbaarschot, C. et al. Una interfaz visual cerebro-computadora como ayuda de comunicación para pacientes con esclerosis lateral amiotrófica. clin. Neurofisiol. 132, 2404–2415. https://doi.org/10.1016/j.clinph.2021.07.012 (2021).

Artículo PubMed Google Académico

Katona, J., Ujbanyi, T., Sziladi, G. y Kovari, A. examinan el efecto de diferentes medios basados en la web en las ondas cerebrales humanas, en la 8.ª Conferencia internacional de IEEE sobre infocomunicaciones cognitivas (CogInfoCom) de 2017. 000407–000412 (IEEE).

Holz, EM, Botrel, L., Kaufmann, T. & Kübler, A. El uso doméstico de la interfaz cerebro-computadora independiente a largo plazo mejora la calidad de vida de un paciente en estado de encierro: un estudio de caso. Arco. física Medicina. rehabilitación 96, S16–S26 (2015).

Artículo PubMed Google Académico

Farwell, LA & Donchin, E. Hablando de la parte superior de su cabeza: hacia una prótesis mental que utiliza potenciales cerebrales relacionados con eventos. Electroencefalograma clin. Neurofisiol. 70, 510–523 (1988).

Artículo CAS PubMed Google Académico

Sutter, EE La interfaz de respuesta cerebral: comunicación a través de respuestas cerebrales eléctricas inducidas visualmente. J. Microcomputadora. aplicación 15, 31–45 (1992).

Artículo Google Académico

Gembler, FW, Benda, M., Rezeika, A., Stawicki, PR y Volosyak, I. Herramientas de comunicación asincrónicas c-VEP: comparación de eficiencia de ortografía BCI asistida por diccionario, de objetivos múltiples y de objetivos bajos. ciencia Rep. 10, 17064 (2020).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Nagel, S. & Spüler, M. La interfaz cerebro-computadora más rápida del mundo: combinación de EEG2Code con aprendizaje profundo. PLoS ONE 14, e0221909 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Proudfoot, M. et al. Seguimiento ocular en la esclerosis lateral amiotrófica: un estudio longitudinal de tareas sacádicas y cognitivas. Amiotropo. Esclerosis Lateral Frontotemp. degenerado 17, 101–111 (2016).

Artículo Google Académico

Pinto, S., Quintarelli, S. & Silani, V. Nuevas tecnologías y esclerosis lateral amiotrófica: ¿qué paso acometido por la pandemia de COVID-19?. J. Neurol. ciencia 418, 117081. https://doi.org/10.1016/j.jns.2020.117081 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Pasqualotto, E. et al. Usabilidad y carga de trabajo de la tecnología de acceso para personas con discapacidad motora grave: una comparación de la interfaz cerebro-computadora y el seguimiento ocular. Neurorrehabilitación. Reparación neural 29, 950–957 (2015).

Artículo PubMed Google Académico

Calvo, A. et al. en Congreso Internacional de Informática para Personas con Discapacidad. 70-77 (saltador).

Gibbons, C. & Beneteau, E. Desempeño funcional usando control ocular y escaneo de un solo interruptor por personas con ELA. Perspectiva. Aumentar. Alternativo común 19, 64–69 (2010).

Artículo Google Académico

Yedavalli, VS, Patil, A. & Shah, P. Esclerosis lateral amiotrófica y sus imitaciones/variantes: una revisión exhaustiva. J. Clin. Ciencia de la imagen. 8 (2018).

Zarei, S. et al. Una revisión completa de la esclerosis lateral amiotrófica. Cirugía Neurol. En t. 6 (2015).

Luz, J. et al. Desafíos y oportunidades en comunicación aumentativa y alternativa: investigación y desarrollo de tecnología para mejorar la comunicación y la participación de personas con necesidades de comunicación complejas. Aumentar. Alterno común 35, 1–12 (2019).

Artículo ADS PubMed Google Scholar

Pai, S. y Bhardwaj, A. en la Conferencia Internacional Conjunta sobre Redes Neuronales (IJCNN) de 2019. 1–8.

Tarek, N. et al. Gafas Morse: un sistema de comunicación IoT basado en el código Morse para usuarios con problemas del habla. Informática 104, 789–808. https://doi.org/10.1007/s00607-021-00959-1 (2022).

Artículo Google Académico

Mukherjee, K. & Chatterjee, D. en 2015 Conferencia Internacional sobre Tecnologías de la Comunicación, la Información y la Computación (ICCICT). 1–5 (IEEE).

Sane, H. Blink-To-Speak, https://www.blinktospeak.com/blink-to-speak-guide (2022).

Edughele, HO et al. Tecnologías de asistencia de seguimiento ocular para personas con esclerosis lateral amiotrófica. Acceso IEEE 10, 41952–41972. https://doi.org/10.1109/access.2022.3164075 (2022).

Artículo Google Académico

Pugliese, R., Sala, R., Regondi, S., Beltrami, B. & Lunetta, C. Tecnologías emergentes para el manejo de pacientes con esclerosis lateral amiotrófica: de la telesalud a la robótica de asistencia y las interfaces neuronales. J. Neurol. 269, 2910–2921. https://doi.org/10.1007/s00415-022-10971-w (2022).

Artículo PubMed PubMed Central Google Académico

Lim, JZ, Mountstephens, J. & Teo, J. Extracción de funciones de seguimiento ocular para el aprendizaje automático biométrico. Frente. Neurorob. 15 (2021).

Cheng, S., Ping, Q., Wang, J. y Chen, Y. EasyGaze: enfoque de seguimiento ocular híbrido para dispositivos móviles de mano. Intel de realidad virtual. Hardware 4, 173–188 (2022).

Artículo Google Académico

Cocha Toabanda, E., Erazo, MC y Yoo, SG en Modelado y desarrollo de sistemas inteligentes: 8.ª Conferencia internacional, MDIS 2022, Sibiu, Rumania, 28 al 30 de octubre de 2022, Documentos seleccionados revisados. 18–41 (Springer).

Santini, T., Fuhl, W. & Kasneci, E. PuRe: Detección robusta de pupila para seguimiento ocular generalizado en tiempo real. computar Vis. Comprensión de imagen 170, 40–50. https://doi.org/10.1016/j.cviu.2018.02.002 (2018).

Artículo Google Académico

Liu, J., Chi, J., Yang, H. y Yin, X. En el ojo del espectador: un estudio de las técnicas de seguimiento de la mirada. Reconocimiento de patrones. 132, 108944. https://doi.org/10.1016/j.patcog.2022.108944 (2022).

Artículo Google Académico

Khan, MQ & Lee, S. Mirada y seguimiento ocular: Técnicas y aplicaciones en ADAS. Sensores 19, 5540 (2019).

Artículo ADS PubMed PubMed Central Google Scholar

Al-Rahayfeh, A. & Faezipour, M. Seguimiento ocular y detección del movimiento de la cabeza: una encuesta de vanguardia. IEEE J. traducción. Ing. Salud Med. 1, 2100212–2100212 (2013).

Artículo PubMed PubMed Central Google Académico

Lingegowda, DR, Amrutesh, K. y Ramanujam, S. en la conferencia internacional IEEE de 2017 sobre electrónica de consumo-Asia (ICCE-Asia). 36–40 (IEEE).

Käthner, I., Kübler, A. & Halder, S. Comparación de seguimiento ocular, electrooculografía y una interfaz auditiva cerebro-computadora para comunicación binaria: un estudio de caso con un participante en el estado bloqueado. J. Neuroeng. rehabilitación 12, 1–11 (2015).

Artículo Google Académico

Morimoto, CH & Mimica, MR Técnicas de seguimiento de la mirada para aplicaciones interactivas. computar Vis. Comprensión de imagen 98, 4–24 (2005).

Artículo Google Académico

Liu, SS et al. Un sistema de seguimiento de la mirada y de interfaz humano-computadora para personas con ELA y otras enfermedades encerradas. Actas CMBES 33 (2010).

Raudonis, V., Simutis, R. & Narvydas, G. en 2009 2º Simposio Internacional de Ciencias Aplicadas en Tecnologías Biomédicas y de la Comunicación. 1–6 (IEEE).

Lu, F., Sugano, Y., Okabe, T. y Sato, Y. Regresión lineal adaptativa para la estimación de la mirada basada en la apariencia. Trans. IEEE. Patrón Anal. Mach. Intel. 36, 2033-2046 (2014).

Artículo Google Académico

Wang, Y. et al. Aprendizaje de un estimador de mirada con selección de vecinos a partir de imágenes de ojos sintéticos a gran escala. Sistema basado en conocimientos. 139, 41–49 (2018).

Artículo Google Académico

Kacete, A., Séguier, R., Collobert, M. y Royan, J. en Conferencia asiática sobre visión artificial. 419–432 (Springer).

Wu, Y.-L., Yeh, CT-T., Hung, W.-C. & Tang, C.-Y. Estimación de la dirección de la mirada utilizando una máquina de vectores de soporte con un modelo de apariencia activo. multím. Aplicación de herramientas 70, 2037–2062 (2014).

Artículo Google Académico

Akinlar, C., Kucukkartal, HK y Topal, C. Segmentación precisa de pupila basada en cnn con un término de regularización de error de ajuste de elipse. Sistema experto aplicación 188, 116004 (2022).

Artículo Google Académico

Katona, J. et al. Uso del seguimiento ocular para examinar la sintaxis de consultas y la comprensión de la sintaxis de métodos en LINQ. en 2020 11ª Conferencia Internacional IEEE sobre Infocomunicaciones Cognitivas (CogInfoCom). 000437–000444 (IEEE).

Adhanom, IB, MacNeilage, P. & Folmer, E. Eye Tracking en realidad virtual: una revisión amplia de aplicaciones y desafíos. Realidad virtual, 1–24 (2023).

Dæhlen, A., Heldal, I. & Katona, J. Hacia el desarrollo de aplicaciones de realidad virtual inmersiva para respaldar el examen de la vista: un estudio de usuario. Aplicación J. tecnología Educ. ciencia 12, 330 (2022).

Google Académico

Flutter: cree aplicaciones para cualquier pantalla, https://flutter.dev/ (2022).

Dalal, N. & Triggs, B. en 2005 Conferencia de la IEEE Computer Society sobre visión artificial y reconocimiento de patrones (CVPR'05). 886–893 vol. 881.

Kazemi, V. & Sullivan, J. en Actas de la Conferencia IEEE sobre Visión por Computador y Reconocimiento de Patrones. 1867–1874.

Biblioteca Dlib C++ para la estimación de poses faciales en tiempo real, http://blog.dlib.net/2014/08/real-time-face-pose-estimation.html (2014).

Sagonas , C. , Antonakos , E. , Tzimiropoulos , G. , Zafeiriou , S. & Pantic , M. 300 Faces In-The-Wild Challenge: base de datos y resultados . Vista de imagen. Informática. 47 , 3–18 . https://doi.org/10.1016/j.imavis.2016.01.002 (2016).

Artículo Google Académico

Cech, J. & Soukupova, T. Detección de parpadeo en tiempo real utilizando puntos de referencia faciales. Centavo. Mach. Percepción, Dep. cibernético fac. eléctrico Ing. tecnología checa. Universidad Praga, 1–8 (2016).

Reddy, B., Kim, Y.-H., Yun, S., Seo, C. y Jang, J. Detección de parpadeo en tiempo real mediante puntos de referencia faciales. IEEE CVPRW (2017).

Biblioteca Traducir Python, https://pypi.org/project/translate/ (2022).

Servicio de texto a voz de Microsoft Azure, https://azure.microsoft.com/en-in/services/cognitive-services/text-to-speech/ (2022).

FastAPI, https://fastAPI.com/ (2022).

Brownlee, A. & Bruening, LM Métodos de comunicación al final de la vida para la persona con esclerosis lateral amiotrófica. Arriba. Idioma Desorden. 32, 168–185 (2012).

Artículo Google Académico

Brownlee, A. & Palovcak, M. El papel de los dispositivos de comunicación aumentativa en el manejo médico de la ELA. NeuroRehabilitación 22, 445–450 (2007).

Artículo PubMed Google Académico

Descargar referencias

Google Anita Borg Memorial Scholarship ha apoyado este trabajo a S.El-M.

Departamento de Informática, Facultad de Informática e Información, Universidad de Mansoura, PO Box: 35516, Mansoura, Egipto

Mohamed Ezzat, Mohamed Maged, Youssef Gamal, Mustafa Adel, Mohammed Alrahmawy y Sara El-Metwally

También puede buscar este autor en PubMed Google Scholar

ME, MA y S.El-M. fueron responsables del diseño de la metodología, el análisis formal, la validación del software y la curación de datos. ME, MM, YG y M.Ad. han participado en el desarrollo, validación y prueba de software. S.El-M. fue responsable de la conceptualización, visualización, redacción y revisión del borrador original. MA y S.El-M. fueron los responsables de la administración del proyecto. Todos los autores validaron los resultados y revisaron el manuscrito.

Correspondencia a Sara El-Metwally.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Ezzat, M., Maged, M., Gamal, Y. et al. Sistema de comunicación basado en ojos Blink-To-Live para usuarios con problemas de habla. Informe científico 13, 7961 (2023). https://doi.org/10.1038/s41598-023-34310-9

Descargar cita

Recibido: 10 noviembre 2022

Aceptado: 27 de abril de 2023

Publicado: 17 mayo 2023

DOI: https://doi.org/10.1038/s41598-023-34310-9

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.