Un estudio sobre la visión artificial para el reconocimiento de emociones faciales
HogarHogar > Noticias > Un estudio sobre la visión artificial para el reconocimiento de emociones faciales

Un estudio sobre la visión artificial para el reconocimiento de emociones faciales

Jul 22, 2023

Scientific Reports volumen 13, Número de artículo: 8425 (2023) Citar este artículo

510 Accesos

1 Altmetric

Detalles de métricas

La inteligencia artificial se ha aplicado con éxito en varios campos, uno de los cuales es la visión artificial. En este estudio, se adoptó una red neuronal profunda (DNN) para el reconocimiento de emociones faciales (FER). Uno de los objetivos de este estudio es identificar las características faciales críticas en las que se centra el modelo DNN para FER. En particular, utilizamos una red neuronal convolucional (CNN), la combinación de la red de compresión y excitación y la red neuronal residual, para la tarea de FER. Utilizamos AffectNet y Real-World Affective Faces Database (RAF-DB) como bases de datos de expresiones faciales que proporcionan muestras de aprendizaje para CNN. Los mapas de características se extrajeron de los bloques residuales para su posterior análisis. Nuestro análisis muestra que las características alrededor de la nariz y la boca son puntos de referencia faciales críticos para las redes neuronales. Se realizaron validaciones de bases de datos cruzadas entre las bases de datos. El modelo de red entrenado en AffectNet logró una precisión del 77,37 % cuando se validó en la RAF-DB, mientras que el modelo de red entrenado previamente en AffectNet y luego transferido a la RAF-DB da como resultado una precisión de validación del 83,37 %. Los resultados de este estudio mejorarían la comprensión de las redes neuronales y ayudarían a mejorar la precisión de la visión por computadora.

En las comunicaciones humanas, las expresiones faciales contienen información no verbal crítica que puede brindar pistas y significados adicionales a las comunicaciones verbales1. Algunos estudios han sugerido que el 60-80% de la comunicación es no verbal2. Esta información no verbal incluye expresiones faciales, contacto visual, tonos de voz, gestos con las manos y distanciamiento físico. En particular, el análisis de la expresión facial se ha convertido en un tema de investigación popular3. El reconocimiento emocional facial (FER) se ha aplicado en el campo de la interacción humano-computadora (HCI) en áreas como el piloto automático, la educación, el tratamiento médico, el tratamiento psicológico4, la vigilancia y el análisis psicológico en visión artificial5,6.

En psicología y visión artificial, las emociones se clasifican en modelos categóricos o dimensionales (valencia y excitación)7,8,9. En el modelo categórico, Ekman et al.7 definieron las emociones humanas básicas como felicidad, ira, asco, miedo, tristeza y sorpresa. En el modelo dimensional, la emoción se evalúa mediante escalas numéricas continuas para determinar la valencia y la excitación. FER es una tarea importante en visión artificial que tiene numerosas aplicaciones prácticas y el número de estudios sobre FER se ha incrementado en los últimos años10,11,12,13, beneficiándose de los avances proporcionados por las redes neuronales profundas. En particular, las redes neuronales convolucionales (CNN) han obtenido excelentes resultados en términos de extracción de características. Por ejemplo, He et al.14 propusieron la arquitectura de red neuronal residual (ResNet) en 2015, que agregó aprendizaje residual a una CNN para resolver los problemas del gradiente de fuga y la precisión decreciente de las redes profundas.

Varios autores han aplicado modelos de redes neuronales para clasificar las emociones según modelos categóricos15,16,17,18,19,20,21,22,23 y modelos dimensionales15,23,24,25,26. Huang27 aplicó una arquitectura de bloques residuales a una CNN VGG para realizar el reconocimiento de emociones y obtuvo una precisión mejorada. Mao et al.28 propusieron un nuevo modelo FER llamado POSTER V2, cuyo objetivo es mejorar el rendimiento de la técnica de vanguardia y reducir el costo computacional requerido mediante la introducción de un mecanismo de atención cruzada basado en ventanas y puntos de referencia faciales. características de escala. Para incorporar más información en el proceso de reconocimiento automático de emociones, algunos estudios recientes han fusionado varias modalidades, como las modalidades temporal, auditiva y visual10,17,18,23,25, en el algoritmo. Además, los mecanismos de atención han sido adoptados por varios estudios17,18,19,20,22,25 para tareas FER. Zhang et al.19 aplicaron mapas de activación de clases para analizar los mapas de atención aprendidos por su modelo. Se descubrió que el modelo podía regularizarse volteando su mapa de atención y borrando aleatoriamente parte de las imágenes de entrada. Wang et al.22 introdujeron una rama de atención para aprender una máscara facial que resalta las partes discriminatorias para FER. Estos estudios muestran que los mecanismos de atención juegan un papel crítico en FER. Varios enfoques para FER utilizan mecanismos de autoatención para capturar contextos locales y globales a través de un conjunto de capas convolucionales para la extracción de características29,30,31. Las características extraídas luego se usan como entradas de un módulo de atención de relaciones, que utiliza la atención propia para capturar las relaciones entre diferentes parches y el contexto.

Sin embargo, la implementación práctica de los sistemas de reconocimiento facial sigue siendo una tarea desafiante, como resultado de la presencia de ruido, anotaciones ambiguas32 y escenas complicadas en el entorno del mundo real33,34,35. Dado que los módulos de atención han demostrado ser efectivos para tareas de visión por computadora, la aplicación de módulos de atención a tareas FER es de gran interés. Además, en psicología, se han analizado las características faciales de FER por humanos. Los resultados presentados por Beaudry et al.35 sugieren que la boca es el principal punto de referencia cuando se observa una emoción feliz y que los ojos son los principales puntos de referencia cuando se observa una emoción triste. De manera similar, el modelo DNN extrae características discriminativas para FER. Es beneficioso aplicar el mapeo de activación de clases para identificar las características discriminatorias aprendidas por la red en cada capa. Se ha demostrado que el método de mapeo de activación de clase se puede utilizar para el reconocimiento de localización alrededor de los ojos con fines de análisis de movimiento37,38. Los mapas de características producidos podrían proporcionar una mejor comprensión del rendimiento del modelo desarrollado.

En este estudio, se utilizó el módulo de compresión y excitación (SENet) con ResNet-18 para lograr un modelo relativamente ligero para FER. Este modelo tiene menos parámetros entrenables (aproximadamente 11,27 millones) que los aproximadamente 23 millones de parámetros necesarios para ResNet-50 y los aproximadamente 86 millones de parámetros del transformador de visión. La efectividad del enfoque propuesto se evaluó en dos conjuntos de datos FER, a saber, AffectNet y Real-World Affective Faces Database (RAF-DB). Ambos conjuntos de datos contienen una gran cantidad de datos de emociones faciales, incluidos los de varias culturas y razas. El número de imágenes en AffectNet es unas 20 veces mayor que el de RAF-DB. Las imágenes de AffectNet son más diversas y salvajes que las de RAF-DB. La red neuronal fue entrenada para extraer información emocional de AffectNet y RAF-DB. Se realizó una validación de base de datos cruzada entre el conjunto de datos AffectNet y RAF-DB. Los resultados muestran que con AffectNet se logró una precisión de entrenamiento del 79,08 % y una precisión de validación del 56,54 %. Con RAF-DB se logró una precisión de entrenamiento del 76,51 % y una precisión de validación del 65,67 %. El transfer-learning se aplicó sobre RAF-DB con peso preentrenado obtenido con AffectNet. La precisión de la predicción después del aprendizaje por transferencia aumenta drásticamente en el conjunto de datos RAF-DB. Los resultados sugieren que la transferencia de aprendizaje se puede realizar para conjuntos de datos más pequeños con una cultura, región o entorno social particular36 para aplicaciones específicas. El aprendizaje por transferencia permite que el modelo aprenda las emociones faciales de una población en particular con una base de datos más pequeña y logre resultados precisos. Además, se seleccionaron las imágenes en AffectNet y RAF-DB con una puntuación de softmax superior al 90 % para identificar los puntos de referencia faciales importantes que fueron capturados por la red. Se encuentra que en las capas superficiales, las características dominantes extraídas son líneas finas, mientras que en las capas profundas, las regiones cercanas a la boca y la nariz son más importantes.

La base de datos de AffectNet contiene 456.349 imágenes de emociones faciales obtenidas de tres motores de búsqueda, Google, Bing y Yahoo, en seis idiomas diferentes. Las imágenes fueron etiquetadas con las siguientes 11 emociones: neutralidad, felicidad, tristeza, sorpresa, miedo, asco, ira, desprecio, ninguno, incierto y sin rostro. Entre estas emociones, "incierto" significa que la imagen dada no se puede clasificar en una de las otras categorías, y "sin rostro" significa que la imagen contiene expresiones exageradas, animaciones, dibujos o marcas de agua. Mollahosseini et al.15 contrataron anotadores para clasificar manualmente las emociones definidas en AffectNet. Además, AffectNet está muy desequilibrado en cuanto al número de imágenes de cada categoría de emoción. Por ejemplo, el número de imágenes que representan "feliz" es casi 30 veces mayor que el número de imágenes que representan "asco". El número de imágenes para cada categoría se muestra en la Tabla 1. La Figura 1 muestra imágenes de muestra para las 11 emociones contenidas en AffectNet. En este estudio, utilizamos siete categorías, sorpresa, miedo, asco, ira, tristeza, felicidad y neutralidad, en AffectNet.

Categorías de imágenes de los rostros contenidas en la base de datos AffectNet12.

El RAF-DB es proporcionado por el Laboratorio de Reconocimiento de Patrones y Sistemas Inteligentes (PRIS Lab) de la Universidad de Correos y Telecomunicaciones de Beijing39. La base de datos consta de más de 300.000 imágenes faciales extraídas de Internet, que se clasifican en siete categorías: sorpresa, miedo, asco, ira, tristeza, felicidad y neutralidad. Cada una de las imágenes contiene 5 ubicaciones precisas de puntos de referencia y 37 ubicaciones automáticas de puntos de referencia. El RAF-DB también contiene una amplia variedad de información en términos de edades, razas, gestos de la cabeza, niveles de exposición a la luz y bloqueo. El conjunto de entrenamiento contiene cinco veces más imágenes que el conjunto de prueba. La Figura 2 muestra imágenes de muestra para las siete emociones contenidas en el RAF-DB. La Tabla 1 muestra el número de imágenes utilizadas en este artículo para cada emoción de cada base de datos.

Categorías de imágenes de los rostros contenidas en la base de datos RAF-DB37.

SENet es una nueva arquitectura de reconocimiento de imágenes desarrollada en 201740. La red refuerza las características críticas al comparar las correlaciones entre los canales de características para lograr una mayor precisión de clasificación. La figura 3 muestra la arquitectura SENet, que contiene tres operaciones principales. La operación de compresión extrae información de características globales de la capa de convolución anterior y realiza una agrupación promedio global en el mapa de características para obtener un tensor de características (Z) de tamaño 1 × 1 × \({\text{C}}\) (número de canales ), en el que el elemento \({\text{c}} - {\text{th}}\) se calcula mediante:

donde \(F_{sq}\) es la operación de agrupación promedio global, \(u_{c}\) es la \({\text{c}} - {\text{th}}\) matriz bidimensional, W × H representa las dimensiones de cada canal y C es el número de canales.

El esquema del módulo de inicio de SENet.

A la ecuación (1) le siguen dos capas completamente conectadas. La primera capa reduce el número de canales de \({\text{C}}\) a \({\text{C}}/{\text{r}}\) para reducir el número de cálculos necesarios (r es el tasa de compresión), y la segunda capa aumenta el número de canales a \({\text{C}}\). La operación de excitación se define como sigue:

donde \({\upsigma }\) es la función de activación sigmoidea, \(\delta\) es la función de excitación de la unidad lineal rectificada (ReLU), y \(W_{1}\) y \(W_{2}\) son los pesos para reducir y aumentar la dimensionalidad, respectivamente.

La operación de escala multiplica el tensor de características por la excitación. Esta operación captura la importancia de cada canal a través del aprendizaje de características. Luego, el canal correspondiente se multiplica por el peso ganado para discernir la información mayor y menor para la computadora38. La fórmula para la operación de escala, que se utiliza para obtener el resultado final del bloque, se muestra a continuación.

donde el punto es la operación de multiplicación por canal y \(S_{c}\) es la salida de la operación de excitación.

ResNet fue propuesto por He et al.11 para resolver el problema del gradiente de fuga en una red profunda. ResNet introduce un bloque residual a una CNN convencional. La Figura 4 muestra el bloque residual en la arquitectura ResNet. El concepto de un bloque residual es combinar la salida de la capa convolucional anterior con la siguiente capa convolucional en ResNet. Se ha demostrado en varios estudios que los bloques residuales alivian el problema del gradiente de fuga encontrado por una red más profunda. Por lo tanto, los bloques residuales han sido adoptados en varias arquitecturas37,38.

Bloque residual de la arquitectura ResNet.

SE-ResNet combina las arquitecturas SENet y ResNet presentadas anteriormente y agrega el bloque SE de SENet a ResNet. El bloque SE se utiliza para capturar la importancia de cada canal para determinar si contiene información importante o secundaria. La información de características de la capa convolucional anterior se combina luego con la siguiente capa mediante el bloque residual. Este método puede mitigar la precisión decreciente causada por el problema del gradiente de desaparición que ocurre al aumentar las capas de la red. La Figura 5 muestra la arquitectura de red de SE-ResNet.

El esquema del módulo SE-Resnet.

En este estudio, extrajimos siete categorías de AffectNet para garantizar que AffectNet y RAF-DB se validaran con categorías idénticas. Se adoptó la arquitectura SE-ResNet como modelo de red neuronal para entrenamiento y pruebas. Se realizó una comparación y una validación de bases de datos cruzadas entre RAF-DB y AffectNet. Para lograr un mejor desempeño se utilizó la técnica de transferencia de aprendizaje. El modelo entrenado en AffectNet se aplicó como modelo preentrenado para entrenar RAF-DB.

Los mapas de características derivados de cada bloque SE se imprimieron para determinar qué puntos de referencia faciales contienen información importante para la red. Solo se adoptaron imágenes de emociones faciales con una puntuación de softmax superior al 90 % para garantizar la objetividad y la precisión. En la Fig. 6 se muestran ejemplos de los mapas de características impresos desde AffectNet. En la Fig. 7 se muestran los mapas de características impresos desde RAF-DB.

Mapas de características de diferentes capas de bloques SE (AffectNet).

Mapas de características de diferentes capas de bloques SE (RAF-DB).

En este experimento, el hardware de entrenamiento fue una GPU NVIDIA TITAN RTX de 24 GB. El tamaño de la imagen de entrada fue de 256 × 256 píxeles con aumento de datos. Para el proceso de entrenamiento se cambiaron los tonos de las imágenes de entrada. Las imágenes se rotaron aleatoriamente entre +/- 30 grados y se recortaron de acuerdo con las cuatro esquinas y el centro en cinco imágenes del tamaño de 224 × 224 píxeles. Para propósitos de validación, las imágenes de entrada fueron recortadas desde el centro hasta un tamaño final de 224 × 224 píxeles. El algoritmo de optimización y la función de pérdida fueron el descenso de gradiente estocástico y la función de pérdida de entropía cruzada, respectivamente. Se utilizaron veinte épocas y la tasa de aprendizaje inicial se fijó en 0,01. El impulso fue de 0,9 y el tamaño del lote para el entrenamiento fue de 100.

El conjunto de datos AffectNet y el RAF-DB se validaron con bases de datos cruzadas en este estudio. El modelo entrenado en AffectNet se usó para predecir RAF-DB, y el modelo entrenado en RAF-DB se usó para predecir AffectNet. Los resultados se muestran en la Tabla 2. Debido a que AffectNet exhibe más diversidad en términos de datos de emociones faciales y más imágenes, cuando el modelo entrenado en AffectNet predijo el RAF-DB, se logró una precisión del 77,37 %, que fue significativamente más alta que la precisión conseguido por formación directa en la RAF-DB (65,67%). Por el contrario, se obtuvo una precisión baja (42,6 %) para AffectNet predicho por el modelo entrenado en RAF-DB. La diferencia se puede entender por el hecho de que las imágenes en AffectNet son más numerosas y más complejas.

En este estudio se compararon las precisiones logradas en AffectNet y RAF-DB por SE-ResNet. RAF-DB da como resultado una mayor precisión que AffectNet, como se muestra en la Tabla 3. Sin embargo, esto era de esperar ya que el conjunto de datos RAF-DB muestra imágenes más restringidas. La precisión del modelo propuesto en AffectNet es del 56 %, que es ligeramente inferior al 58 % de precisión obtenido en el artículo original19 que proponía AffectNet. Sin embargo, como se menciona en el artículo original15, la concordancia entre dos anotadores humanos fue del 60 % sobre 36 000 imágenes. Nuestro resultado es comparable a esta tasa de acuerdo.

Además, realizamos transferencias de aprendizaje al entrenar previamente el modelo en AffectNet, seguido de un entrenamiento en RAF-DB. Como se muestra en la Tabla 4, la precisión de validación en RAF-DB aumentó en un 26,95 % ([(precisión con modelo preentrenado—precisión sin modelo preentrenado)/precisión sin modelo preentrenado = (83,37–65,67) / 65,67] × 100 %) y fue superior a la del modelo entrenado directamente con la RAF-DB. En comparación con la precisión del 76,73 % obtenida en21 por el conjunto de CNN de varias regiones, el aprendizaje de transferencia con una sola red funciona mejor que el conjunto de CNN que utiliza características globales y locales. Este resultado indica que AffectNet proporciona ponderaciones preentrenadas útiles debido a la amplia diversidad del conjunto de datos. Los diversos antecedentes culturales y raciales de las imágenes en el conjunto de datos de AffectNet brindan un conjunto de capacitación más representativo e inclusivo, lo que lleva a un sistema de reconocimiento más sólido y preciso. El resultado destaca la importancia de considerar la diversidad de datos y transferir el aprendizaje en el desarrollo y despliegue de algoritmos FER.

Las matrices de confusión normalizadas predichas por el modelo entrenado en AffectNet para AffectNet y RAF-DB se muestran en la Fig. 8a y b, respectivamente. Las matrices de confusión normalizadas predichas por el modelo después del aprendizaje de transferencia para RAF-DB se dan en la Fig. 8c. Las Figuras 8a yb muestran que el modelo tiende a clasificar falsamente las imágenes como "neutrales". Sugiere que las características discriminatorias aprendidas de AffectNet son similares entre "neutral" y otras categorías. Además, la comparación entre la Fig. 8b y c muestra que después del aprendizaje por transferencia, el modelo clasifica las emociones en el RAF-DB de una manera más precisa y uniforme.

Matriz de confusión normalizada para AffectNet y RAF-DB (a) AffectNet, (b) RAF-DB y (c) RAF-DB con modelo preentrenado.

Se puede ver a partir de las matrices de confusión normalizadas que la precisión de la clasificación se correlaciona positivamente con el número de imágenes en el conjunto de datos, como se indica en la Tabla 1. En la Fig. 8a, el conjunto de datos de AffectNet contiene el menor número de imágenes de "disgusto", lo que da como resultado la precisión más baja en la matriz de confusión normalizada. Por el contrario, la cantidad de imágenes de la categoría "feliz" es la mayor en AffectNet y, por lo tanto, produce la mayor precisión en la matriz de confusión normalizada para esta categoría. La misma conclusión se puede obtener de la Fig. 8b y c para RAF-DB.

Este estudio examina las características importantes que la red aprende para clasificar las emociones faciales. Los mapas de características en AffectNet con puntajes softmax (P) superiores al 90% se visualizan en la Fig. 9. Se muestra que la boca, la nariz y otras líneas faciales son información importante, mientras que los ojos y los oídos son información menor. Esto es similar a los resultados encontrados en Beaudry et al.35 de que la boca es el punto de referencia principal cuando la red neuronal predice una emoción feliz. Los mapas de características de las imágenes mal clasificadas también se visualizan en la Fig. 10 para compararlas con las que se clasificaron correctamente. Al observar los mapas de características de las imágenes mal clasificadas, es evidente que las características importantes de las imágenes son similares a las de las imágenes correctamente clasificadas. Se puede observar a partir de las Figs. 9 y 10 que la red tiende a detectar bordes y líneas en capas poco profundas y se enfoca más en características locales, como boca y nariz, en capas más profundas.

Mapas de características con una puntuación softmax superior al 90 % (AffectNet).

Mapas de características mal clasificados (AffectNet).

El conjunto de datos de emociones faciales asiáticas41 consta de imágenes de 29 actores con edades comprendidas entre los 19 y los 67 años. Las imágenes fueron tomadas desde ángulos frontales, 3/4 laterales y laterales. La Figura 11 muestra algunas imágenes de ejemplo del conjunto de datos de emociones faciales asiáticas. El número de imágenes de cada clase se proporciona en la Tabla 5. Solo hay seis categorías etiquetadas en este conjunto de datos. La categoría de "neutralidad" no se proporciona en este conjunto de datos. Por lo tanto, en la capa de salida del modelo, que fue entrenada para predecir las probabilidades de 7 categorías, la probabilidad de "neutralidad" se especificó como cero.

Imágenes de ejemplo del conjunto de datos de emociones faciales asiáticas39.

El conjunto de datos de emociones faciales asiáticas se probó con el modelo entrenado en AffectNet. Las imágenes se redimensionaron a 256 × 256 píxeles y luego se recortaron a 224 × 224 píxeles con sus caras centradas. La precisión media derivada fue del 61,99 %, ligeramente superior a la de AffectNet. De manera similar a los resultados de validación de AffectNet, la categoría "feliz" obtuvo la puntuación más alta, mientras que "miedo" y "disgusto" obtuvieron las puntuaciones más bajas. La matriz de confusión normalizada se muestra en la Fig. 12 y los mapas de características se muestran en la Fig. 13. En contraste con los mapas de características de AffectNet, las ubicaciones discriminatorias no se centraron alrededor de la boca y la nariz, sino que se ubicaron más en la mitad derecha. de la cara Muestra que el modelo carecía de generalizabilidad para rostros asiáticos en el entorno de laboratorio. Este experimento muestra que el modelo entrenado en AffectNet tiene un rendimiento de predicción limitado en otros conjuntos de datos.

Matriz de confusión normalizada producida para el conjunto de datos de emociones faciales asiáticas probado con el modelo entrenado en AffectNet.

Mapas de características producidos para el conjunto de datos de emociones faciales asiáticas.

El proceso de interpretación de las expresiones faciales también está sujeto a diferencias culturales e individuales que no son consideradas por el modelo durante la fase de entrenamiento. Los mapas de características en las Figs. 9 y 10 muestran que el modelo propuesto se centró más en la boca y la nariz pero menos en los ojos. Para obtener resultados correctos de FER, las características sutiles como las arrugas y los ojos también pueden ser críticas. Sin embargo, el modelo propuesto no captura las características que están lejos de la boca o la nariz. Los resultados de la prueba obtenidos en el conjunto de datos de emociones faciales asiáticas muestran que las regiones discriminatorias están sesgadas hacia la mitad derecha de la cara. Este hallazgo indica que la generalización limitada del modelo a rostros asiáticos en el entorno de laboratorio. Aunque AffectNet es un conjunto de datos diverso que contiene representaciones de varias culturas y razas, todavía se limita a una pequeña porción de la población mundial. Por el contrario, la RAF-DB contiene grupos étnicos similares y entornos similares a AffectNet. Los resultados de validación obtenidos en RAF-DB (77,37 %) son mejores que los del conjunto de datos de emociones faciales asiáticas. Los resultados muestran que para conjuntos de datos con grupos étnicos similares, el modelo entrenado en un conjunto de datos más diverso y salvaje (AffectNet) realiza una mejor predicción en un conjunto de datos más restringido (el RAF-DB en este trabajo).

Este estudio aborda cómo el modelo de red neuronal aprende a identificar emociones faciales. Las características que se muestran en las imágenes de emociones se derivaron con una CNN, y estas características emocionales se visualizaron para determinar los puntos de referencia faciales que contienen información importante. Las conclusiones extraídas en base a los hallazgos se enumeran a continuación.

Se realizó un experimento de validación de bases de datos cruzadas para AffectNet y RAF-DB. Se logró una precisión del 77,37 % cuando el modelo entrenado en AffectNet predijo la RAF-DB. La precisión es comparable al resultado en21. Se logró una precisión del 42,6% cuando AffectNet fue predicho por el modelo entrenado en RAF-DB. Estos resultados concuerdan con el hecho de que AffectNet exhibe más diversidad que RAF-DB en términos de imágenes de emociones faciales. Además, el aprendizaje por transferencia aumenta drásticamente la precisión en un 26,95 % para RAF-DB. El hallazgo destaca la importancia de utilizar el aprendizaje por transferencia para mejorar el rendimiento de los algoritmos FER al entrenar los modelos asociados en AffectNet para pesos previamente entrenados.

Los mapas de características de emoción visualizados muestran que la boca y la nariz contienen la información principal, mientras que los ojos y los oídos contienen la información menor cuando la red neuronal aprende a realizar FER. Este paradigma es similar a cómo los humanos observan las emociones.

Al comparar los mapas de características que se clasificaron correctamente (aquellos con puntajes softmax superiores al 90 %) con los que se clasificaron incorrectamente, se puede ver que el modelo de red se enfoca en características similares sin mayores diferencias. Este resultado indica que FER requiere la observación de parches grandes cerca de áreas distintivas en una cara.

Los conjuntos de datos aplicados en este estudio están disponibles con autorización de los siguientes sitios web para AffectNet (http://mohammadmahoor.com/affectnet/), la base de datos de rostros afectivos del mundo real (RAF-DB; http://www.whdeng.cn /raf/model1.html) y el conjunto de datos de emociones faciales asiáticas (http://mil.psy.ntu.edu.tw/ssnredb/logging.php?action=login). Sin embargo, se aplican restricciones a la disponibilidad de estos datos, que se usaron bajo licencia para el estudio actual y, por lo tanto, no están disponibles públicamente. Sin embargo, los datos están disponibles a través de los autores previa solicitud razonable y con el permiso de AffectNet, RAF-DB y el conjunto de datos de emociones faciales asiáticas. Los procesos de formación y análisis se discuten en la metodología de la investigación.

Vo, TH, Lee, GS, Yang, HJ y Kim, SH Pirámide con superresolución para el reconocimiento de expresiones faciales en estado salvaje. Acceso IEEE 8, 131988–132001 (2020).

Artículo Google Académico

Mehrabian, A. Comunicación no verbal (Aldine Transaction, 2007).

Ekman, P. Darwin, engaño y expresión facial. Ana. Academia de Nueva York. ciencia 1000, 205–2 (Courtley & Jridi, 2020) (2006).

Farzaneh, AH & Qi, X. Reconocimiento de expresiones faciales en la naturaleza a través de la pérdida profunda del centro atento en la conferencia de invierno IEEE de 2021 sobre aplicaciones de visión por computadora (WACV) 2401–2410 (IEEE, 2021).

Alnuaim, AA et al. Interacción humano-computadora para reconocer las emociones del habla utilizando un clasificador de perceptrón multicapa. J. Salud c. Ing. 2022, 6005446 (2022).

Artículo PubMed PubMed Central Google Académico

Kumari, HMLS Reconocimiento de expresiones faciales mediante red neuronal convolucional junto con aumento de datos y aprendizaje de transferencia (2022).

Ekman, P., Dalgleish, T. & Power, M. Manual de cognición y emoción (Wiley, 1999).

Ekman, P. ¿Existen las emociones básicas?. psicol. Rev. 99, 550–553 (1992).

Artículo CAS PubMed Google Académico

Russell, JA Un modelo circunflejo de afecto. J. Pers. Soc. psicol. 39, 1161–1178 (1980).

Artículo Google Académico

Goodfellow, IJ et al. Desafíos en el aprendizaje de representación: un informe sobre tres concursos de aprendizaje automático en el procesamiento de información neuronal (eds. Lee, M., Hirose, A., Hou, Z. & Kil, R) 117–124 (Springer, 2013).

Maithri, M. et al. Reconocimiento automático de emociones: tendencias actuales y perspectivas futuras. computar Método Prog. biomedicina 215, 106646 (2022).

Artículo CAS Google Académico

Li, S. & Deng, W. Reconocimiento profundo de expresiones faciales: una encuesta. Trans. IEEE. Afectar. computar 13, 1195–1215 (2022).

Artículo Google Académico

Canal, FZ et al. Una encuesta sobre técnicas de reconocimiento de emociones faciales: una revisión de la literatura de vanguardia. información ciencia 582, 593–617 (2022).

Artículo Google Académico

He, K., Zhang, X., Ren, S. & Sun, J. Aprendizaje residual profundo para el reconocimiento de imágenes en la conferencia IEEE de 2016 sobre visión artificial y reconocimiento de patrones (CVPR) 770–778 (IEEE, 2016).

Mollahosseini, A., Hasani, B. & Mahoor, MH AffectNet: Una base de datos para computación de expresión facial, valencia y excitación en la naturaleza. Trans. IEEE. Afectar. computar 10, 18–31 (2019).

Artículo Google Académico

Schoneveld, L. & Othmani, A. Hacia un extractor general de características profundas para el reconocimiento de expresiones faciales en la conferencia internacional IEEE de 2021 sobre procesamiento de imágenes (ICIP) 2339–2342 (IEEE, 2021).

Rajan, V., Brutti, A. & Cavallaro, A. ¿Es preferible la atención cruzada a la autoatención para el reconocimiento de emociones multimodales? en ICASSP 2022–2022 Conferencia internacional IEEE sobre acústica, voz y procesamiento de señales (ICASSP) 4693–4697 (IEEE, 2022).

Zhuang, X., Liu, F., Hou, J., Hao, J. y Cai, X. Red de atención multimodal interactiva basada en transformadores para la detección de sentimientos en video. Proceso Neural. Letón. 54, 1943-1960 (2022).

Artículo Google Académico

Zhang, Y., Wang, C., Ling, X. & Deng, W. Aprenda de todos: Borrar la consistencia de la atención para el reconocimiento de expresiones faciales con etiquetas ruidosas en Lecture notes in computer science (eds. Avidan, S., Brostow, G. , Cissé, M., Farinella, GM y Hassner T.) 418–434 (Springer, 2022).

Savchenko, AV, Savchenko, LV & Makarov, I. Clasificación de emociones y compromiso en el aprendizaje en línea basado en una única red neuronal de reconocimiento de expresiones faciales. Trans. IEEE. Afectar. computar 13, 2132–2143 (2022).

Artículo Google Académico

Fan , Y. , Lam , JCK & Li , VOK Red neuronal convolucional de conjunto de varias regiones para el reconocimiento de expresiones faciales en redes neuronales artificiales y aprendizaje automático: ICANN 2018 (eds. Kůrková , V. , Manolopoulos , Y. , Hammer , B . , Iliadis , L. & Maglogiannis , I. ) 84–94 ( Springer International Publishing , 2018 ).

Wang, Z., Zeng, F., Liu, S. & Zeng, B. OAENet: conjunto de atención orientada para el reconocimiento preciso de expresiones faciales. Reconocimiento de patrones. 112, 107694 (2021).

Artículo Google Académico

Schoneveld, L., Othmani, A. & Abdelkawy, H. Aprovechando los avances recientes en el aprendizaje profundo para el reconocimiento de emociones audiovisuales. Reconocimiento de patrones. Letón. 146, 1–7 (2021).

Artículo ANUNCIOS Google Académico

Hwooi, SKW, Othmani, A. & Sabri, AQM Enfoque basado en el aprendizaje profundo para la predicción continua del afecto a partir de imágenes de expresión facial en el espacio de excitación de valencia. Acceso IEEE 10, 96053–96065 (2022).

Artículo Google Académico

Sun, L., Lian, Z., Tao, J., Liu, B. y Niu, M. Reconocimiento de emociones dimensionales continuas multimodales mediante el uso de una red neuronal recurrente y un mecanismo de autoatención en Actas de la primera edición internacional sobre análisis de sentimiento multimodal en el desafío de los medios de la vida real y el taller 27–34 (ACM, 2020).

Allognon, SOC, de S. Britto, A. & Koerich, AL Reconocimiento continuo de emociones a través de un codificador automático convolucional profundo y un regresor de vector de soporte en la conferencia internacional conjunta sobre redes neuronales (IJCNN) 1–8 de 2020 (IEEE, 2020).

Huang, C. Combinación de redes neuronales convolucionales para el reconocimiento de emociones en la conferencia de tecnología de investigación de pregrado (URTC) 2017 IEEE MIT 1–4 (IEEE, 2017).

Mao, J. et al. POSTER V2: Una red de reconocimiento de expresiones faciales más simple y fuerte. preimpresión de arXiv arXiv:2301.12149 (2023).

Le, N. et al. Aprendizaje de distribución de etiquetas consciente de la incertidumbre para el reconocimiento de expresiones faciales en la conferencia de invierno IEEE/CVF de 2023 sobre aplicaciones de visión artificial (WACV) 6088–6097 (IEEE, 2023).

Singh, S. & Prasad, SVAV Técnicas y desafíos del reconocimiento facial: una revisión crítica. proc. computar ciencia 143, 536–543 (2018).

Artículo Google Académico

Kortli, Y., Jridi, M., Falou, AA y Atri, M. Sistemas de reconocimiento facial: una encuesta. Sensors (Basilea, Suiza) 20, 342 (2020).

Artículo ADS PubMed Google Scholar

Shirazi, MS & Bati, S. Evaluación de las CNN listas para usar para el reconocimiento de expresiones faciales en notas de conferencias en redes y sistemas (ed. Arai, K.) 466–473 (Springer, 2022).

Chen, D., Wen, G., Li, H., Chen, R. y Li, C. Red consciente de relaciones múltiples para el reconocimiento de expresiones faciales en estado salvaje. Trans. IEEE. Sistema de circuitos Tecnología de vídeo. https://doi.org/10.1109/tcsvt.2023.3234312 (2023).

Artículo Google Académico

Heidari, N. & Iosifidis, A. Aprendizaje de representaciones de características diversificadas para el reconocimiento de expresiones faciales en la naturaleza. preimpresión de arXiv arXiv:2210.09381 (2022).

Beaudry, O., Roy-Charland, A., Perron, M., Cormier, I. y Tapp, R. Procesamiento de funciones en el reconocimiento de expresiones faciales emocionales. Cog. emoción 28, 416–432 (2013).

Artículo PubMed Google Académico

Bhattacharyya, A. et al. Un modelo de aprendizaje profundo para clasificar las expresiones faciales humanas a partir de imágenes térmicas infrarrojas. ciencia Rep. 11, 20696 (2021).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Alp, N. & Ozkan, H. Correlatos neuronales de los procesos de integración durante la percepción dinámica de rostros. ciencia Rep. 12, 118 (2022).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Siddiqi, MH Sistema de reconocimiento de expresiones faciales robusto y preciso que utiliza conjuntos de datos en tiempo real basados ​​en YouTube. aplicación Intel. 48, 2912–2929 (2018).

Artículo Google Académico

Li, S., Deng, WH & Du, JP Colaboración colectiva confiable y aprendizaje profundo que preserva la localidad para el reconocimiento de expresiones en la naturaleza en la conferencia IEEE de 2017 sobre visión por computadora y reconocimiento de patrones (CVPR) 2584–2593 (IEEE, 2017).

Hu, J., Shen, L. & Sun, G. Redes de compresión y excitación en la conferencia IEEE/CVF de 2018 sobre visión artificial y reconocimiento de patrones 7132–7141 (IEEE, 2018).

Chen, CC, Cho, SL & Tseng, RY Corpora de emociones chinas de Taiwán y datos psicofisiológicos relevantes: norma de evaluación del comportamiento para las expresiones faciales del artista profesional. Mentón. J. Psychol. 55, 439–454 (2013).

Google Académico

Descargar referencias

Este trabajo fue financiado en parte por el Consejo Nacional de Ciencia y Tecnología (número de proyecto MOST 111-2635-E-242-001 -).

Departamento de Ingeniería Mecánica, Universidad Nacional de Ciencia y Tecnología de Kaohsiung, Kaohsiung, Taiwán

Zi-Yu Huang, Chia-Chin Chiang y Hsin-Lung Chung

Instituto de Graduados en Física Aplicada, Universidad Nacional Chengchi, Taipei, Taiwán

Jian-Hao Chen y Hsiu-Chuan Hsu

Departamento de Seguridad e Higiene Ocupacional, Universidad Fooyin, Kaohsiung, Taiwán

Yi-Chian Chen

Departamento de Enfermería, Hsin Sheng Junior College of Medical Care and Management, Taoyuan, Taiwán

Yu Ping Cai

Departamento de Ciencias de la Computación, Universidad Nacional Chengchi, Taipei, Taiwán

Hsiu-entonces Hsu

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

Z.-Y. Huang contribuyó a escribir el manuscrito. C.-C. Chiang contribuyó a supervisar y finalizar el documento. J H. Chen realizó todos los cálculos y contribuyó igualmente como primer autor. Y.-C. Chen contribuyó al diseño de la investigación y la edición del manuscrito. H.-L. Chung contribuyó a editar el manuscrito. Y.-PC evaluó el campo de clasificación de emociones y contribuyó a la revisión de la literatura. H.-CH diseñó el estudio y proporcionó orientación conceptual. Todos los autores discutieron y revisaron el manuscrito.

Correspondencia a Yi-Chian Chen o Hsiu-Chuan Hsu.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Huang, ZY., Chiang, CC., Chen, JH. et al. Un estudio sobre la visión artificial para el reconocimiento de emociones faciales. Informe científico 13, 8425 (2023). https://doi.org/10.1038/s41598-023-35446-4

Descargar cita

Recibido: 08 diciembre 2022

Aceptado: 18 de mayo de 2023

Publicado: 24 mayo 2023

DOI: https://doi.org/10.1038/s41598-023-35446-4

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.