DATOS DEL INVESTIGADOR PRINCIPAL

Nombre

JAIME CASTRO MARTINEZ

Nombre del perfíl

Disciplinar - Grupos de investigación

Grupo de investigación

Psicología, Educación y Cultura

Línea de investigación

Comportamiento, Cognición Y Neurociencias

Equipo del proyecto

OLGA LUCIA QUINTERO MONTOYA	Investigador
	Selecionar...
	Selecionar...
	Selecionar...
	Selecionar...

TÍTULO DEL PROYECTO

SISTEMA AUTOMÁTICO DE DETECCIÓN DE CAMBIOS EMOCIONALES EN AUDIO CON PROPOSITOS DE AUTORIA Y CONTROL

PALABRAS CLAVE

Emoción, Detección, Audio, Auditoria

OBJETIVOS DEL PROYECTO

El objetivo del proyecto marco es:
Desarrollar un prototipo de herramienta tecnológica que permita identificar posibles comportamientos anómalos en las transacciones de la mesas de negocios, mediante una aplicación de software que a través del análisis de las señales de audio de las transacciones usando minería de datos y técnicas de análisis de señales como onditas-wavelets; fusionados con técnicas de inteligencia artificial que permitan aumentar la asertividad y la productividad en las auditorías y la cobertura del monitoreo y evaluación de las conversaciones por parte de analistas de las áreas de Auditoría y/o Compliance.

El objetivo de la intervención del Politécnico Grancolombiano en el proyecto específico es:
- Apoyar los gestión de registro y análisis de contenidos emocional en audio y,
- Diseñar protocolos de experimentación y protocolos éticos para la investigación

PERTINENCIA ESPISTEMOLÓGICA DEL PROYECTO

El reconocimiento automático de las emociones a partir de la voz, ha sido en la última década un área de estudio en la interacción humano-computador y procesamiento de señales de audio. Este tipo de enfoque se ha realizado principalmente con aplicaciones en sistemas de dialogo o call centers. Hay algunos estudios sobre los problemas técnicos que surgen de la implementación de interfaces humano-computador con la habilidad de reconocer las emociones vocales del usuario (Vogt et al, 2008). Los trabajos relacionados se focalizan en las propiedades fonéticas y acústicas del lenguaje hablado afectivo. Los parámetros vocales que han sido más investigados en estudios psicológicos en relación con la emoción y que son además intuitivos son la prosodia (tono, intensidad y velocidad de habla) y la calidad de la voz. Murray y Arnott (Murray and Arnott, 1993) escribieron una revisión de la literatura en emociones a partir del habla y se refirieron a un número de estudios que también habían identificado correlaciones acústicas inequívocas de las emociones. Estos estudios muestran que la prosodia y la calidad de la voz son los rasgos más importantes para distinguir entre emociones de acuerdo a la percepción humana. En particular, el tono y la intensidad parecen estar correlacionadas con la activación, de modo que intensidad y tonos altos implican activación alta y un tono bajo e intensidad baja implican baja activación. Sin embargo, estos estudios psicológicos se basan en un conjunto de datos de personas que simulan la emoción, y no la expresan de una manera real y espontánea. Este tipo de mapeos de variables acústicas pueden ser posibles en un número de casos, incluso actuados, dado que las variaciones intra e inter hablantes son tan altos como la expresividad de las emociones es dependiente de la personalidad o el humor. Este estudio aportaría en el conocimiento del reconocimiento de las emociones a través del audio y en el uso de estas técnicas en un número de situaciones determinadas.

RELEVANCIA DEL PROYECTO PARA LA INSTITUCIÓN Y PARA LOS BENEFICIARIOS DEL PROYECTO

En el mercado se han presentado diversas soluciones para el análisis de la voz a través de llamadas telefónicas, donde la mayoría de estas están orientadas a su utilización en los call centers. Las características de algunas de las soluciones disponibles a nivel mundial, donde se identifican los puntos claves que son de interés para su uso en pro de la satisfacción de la necesidad de bancos. En un ejercicio de exploración tecnológica realizado a nivel interno basado en fuentes como Gartner y Forrester, se concluyó que las compañías más importantes que ofrecen programas de Speech Analysis a nivel mundial son Nice y Verint. Estas brindan software bastante completos que, si bien se emplean principalmente en call centers, pueden ser usadas en otro tipo de empresas y contienen incluso detección de emociones, separación de voces, transcripción audio-texto, análisis en tiempo real, indexación fonética, detección de interrupciones y análisis de problema entre el agente y el cliente. No obstante estos no están adaptados a los términos idiomáticos del país ni a la jerga de los traders, la cual incluye numerosos términos financieros técnicos, abreviaciones dada la agilidad con la que deben ser cerradas las operaciones y siglas en inglés y español.

PROBLEMA DE INVESTIGACIÓN

Este proyecto de investigación busca plantear un desarrollo tecnológico que permita identificar, a partir de una base de datos real, la probabilidad de anomalías en las transacciones basados en la identificación de emociones en el habla. Esta identificación se realizará mediante la aplicación de técnicas de procesamiento digital de la señal de audio y su conversión en texto para la posterior minería de datos usando un diccionario de palabras. Paralelamente, las señales de audio serán procesadas en busca de los rasgos emocionales usando técnicas como las basadas en las componentes espectrales de frecuencia mediante wavelets-onditas, las basadas en teoría de la información, como entropía, complejidad, etc; que serán mapeados al plano excitación-valencia y finalmente ambas salidas serán fusionadas en un sistema de inferencia realizado con técnicas de Inteligencia artificial y proporcionará una salida que indique si tal o cuál conversación requiere un nivel superior de análisis, lo que implica una probabilidad más alta de ocurrencia de la anomalía.

METODOLOGÍA

El proyecto está planeado en tres fases:

El Politécnico colaborará durante la fase de pilotaje y ajuste del diseño y durante la fase de recolección de información y análisis de la misma.

RESULTADOS ESPERADOS

- Un (1) producto tipo artículo resultado del protocolo de experimentación
- Un (1) protocolo de experimentación
- Un (1) protocolo ético del estudio

DURACIÓN DEL PROYECTO

POSIBLES FUENTES DE FINANCIACIÓN EXTERNA

Colciencias

REVISIÓN BIBLIOGRÁFICA

Según la literatura, en cada interacción computador hombre, las emociones que ocurren son muy espontáneas, usualmente presentandas en variaciones considerablemente altas en los parámetros que las caracterizan, además de no ser emociones prototípicas pero que pueden estar enmascaradas, mezcladas o débiles y difícilmente distinguibles. Esto hace la tarea de reconocimiento de emociones mucho más difícil, de modo que aún la mayoría de los rasgos acústicos necesitan ser investigados. Claro está, que el reconocimiento de las emociones realizado personalizadamente es lo más confiable (Wilting et al, 2006).
Sobre esta línea de pensamiento, la pregunta natural surge de la construcción de una buena base de datos. Para ello, la literatura señala que las bases de datos con frases emocionales o "discursos emocionales" no son sólo esenciales en este tipo de estudios sicológicos, sino que también lo son para el reconocimiento automático de emociones, dado que los métodos estándares son de naturaleza estadística y necesitan aprender con ejemplos.
Como fue mencionado anteriormente, en este proyecto se plantea la posibilidad de mapear los rasgos extraídos de las señales de audio al espacio emocional, el cual es un modelo bi-dimensional del afecto. Las dimensiones de este espacio, son usualmente valencia (de positiva a negativa) y excitación (de alta a baja) y algunas veces una tercera dimensión llamada postura (de abierta a cerrada). Este modelo es básicamente una representación en el plano, de la ubicación de las emociones más importantes en los seres humanos (Russell, 1979-80-89-99).
El modelo dimensional permite una descripción continua que es muy factible para las emociones espontáneas. Grimm et al, 2007 usaron una técnica de regresión para clasificar en un espacio continuo de tres dimensiones.
Este tipo de aplicaciones se han utilizado en la industria en empresas como los call centers en los cuales se utiliza para la detección automática de emociones, pero lo más importante de esto es que esta herramienta puede proporcionar a los operadores humanos información muy valiosa acerca de las emociones que su voz contiene. Dicho de otra forma, el sistema sirve de "espejo emocional" (Pickard, 1998). Recientemente, los métodos para reconocimiento de emociones en el habla han sido explorados en el contexto de aprendizaje aumentado por computador. La motivación detrás de esas aproximaciones es la expectativa que el proceso de aprendizaje puede mejorar si un sistema tutor adapta sus estrategias pedagógicas al estado emocional de sus estudiantes (Ai et al, 2006).
En adición, la detección de emociones tiene altos potenciales en juegos (Jones et al, 2008) y sirve de realimentación en interacción humano-robot (Jones et al, 2008) y (Hegel et al, 2006). Generalmente, un sistema de reconocimiento de emoción a partir del habla, consiste de tres componentes principales: procesamiento de la señal, cálculo de rasgos y clasificación. El procesamiento de la señal implica la digitalización y potencialmente procesamiento acústico como filtrado, así como la segmentación de la señal de entrada en unidades con significado. El cálculo de los rasgos se trata de la identificación de los rasgos relevantes de la señal acústica respecto de las emociones. La clasificación, finalmente, mapea los vectores de rasgos en clases de emociones a través de aprendizaje con ejemplos.

Referencias
Ai, H., Litman, D.J., Forbes-Riley, k. Rotaru, M. tetreault, J., Purandare, A.: Using system and user performance features to improve emotion detection in spoken tutoring dialogs. In: proceedings of Interspeech 2006 - ICSLP, Pittsburgh, PA, USA (2006).
Batliner, A., Fisher, K., Huber, R., Spilker, J. Noth, E: How to find a trouble in communication. Speech communication 40, 117-143 (2003)
Bolsa de Valores de Colombia. (1 de Diciembre de 2012). Bolsa de Valores de Colombia. Recuperado el 6 de Diciembre de 2012, de Sociedades Comisionistas de Bolsa: http://www.bvc.com.co/pps/tibco/portalbvc/Home/ComisionistasyAfiliados/ComisionistasdelaBolsa/Listado
Devillers, L., Vidrascu, L., lamel, L.: Challenges in real-life emotion annotation and machine learning based detection. Neural Networks 18(4), 407-422 (2005)
El-Nasr, M.S. Yen, J. Loerger, T.R. (2000). FLAME: Fuzzy Logic Adaptive Model of Emotions. Autonomous agents and multiagents systems, 3, 219-257
Fernandez, R., Picard, R. W.: Classsical and novel discriminan features for affect recognition from speech. In: proceedings of Interspeech 2005, Lisbon, Portugal (2005)
Grimm, M., Kroschel, K., Harris, H., Naas, C., Schuller, B., Rigol, G., Moosmayr, T.: On the necessity and feasibility of detecting a driver's emotional state while driving. In: International Conference on affective Computing and Intelligent Interaction, Lisbon, Portugal, pp. 126-138 (2007).
Jones, C., Sutherland, J.: Acoustic Emotion Recognition for affective Computer Gaming. In: Peter, C., Beale, R. (eds.) Affect and Emotion in Human-Computer Interaction. LNCS, vol. 4868. Springer, Heidelberg (2008)
Jones, C., Deeming, A.: Affective Human Robotic Interaction. In: Peter, C., Beale, R. (eds.) Affect and Emotion in Human-Computer interaction. LNCS, vol. 4868. Springer, Heidelberg (2008)
Mandryk, R.L. Atkins, M.S (2007). A Fuzzy physiological approach for continuously modelling emotion during interaction with play technologies. International journal of Human-Computer studies. 65, 329-347.
Muñoz-Hernández, S., Ceruelo, V., and Strass, H. RFuzzy: An Expressive Simple Fuzzy Compiler. Bio-Inspired Systems: Computational and Ambient IntelligenceLecture Notes in Computer Science Volume 5517, 2009, pp 270-277
Murray, I., Arnott, J.: Toward the simulation of emotion in synthetic speech: A review of the literature on human vocal emotion. Journal of the Acoustical Society of America 93(2), 1097-1108 (1993)
Nicholas, G., Rotaru, M., Litman, D.J.: Exploiting Word-level features for emotion recognition. In Proceedings of the IEEE/ACL Workshop in spoken Language Technology, Aruba (2006)
Pickard, R.W.: Affective Computing. MIT Press, Cambridge 1998.
Vogt, Thurid., André, Elizabeth and Wagner, Johannes. Affect and Emotion in HCI, LNCS 4868, pp 75-91, 2008. Springer-Verlag Berlin Heidelberg 2008.
Romero García, E. (10 de Enero de 2011). amv Colombia. Recuperado el 16 de Octubre de 2012, de Evolución del mercado accionario en Colombia: http://www.amvcolombia.org.co/attachments/data/20111118235203.pdf
Russell, J.A. (1979). Affective space is bipolar, Journal of personality and social psychology, 37(3), 345-356.
Russell, J.A. (1980). A circumplex model of affect. Journal of personality and social psychology, 39, 1161-1178.
Russell, J.A., Weiss, A., and Mendelsohn, G. (1989). Affect grid: a single item scale of pleasure and arousal. Journal of personality and social psychology, 57(3), 493-502.
Russell, J.A., and Feldman-Barret, L. (1999). Core affect, prototypical emotional episodes and other things called emotion: dissecting the elephant. Journal of personality and social psychology, 76(5), 805-819.
Superintendencia Financiera de Colombia. (s.f.). Reglas relativas a la administración del riesgo operativo. Recuperado el 9 de Octubre de 2012, de http://www.superfinanciera.gov.co/
Wagner, J. Vogt, T, André, E.: A systematic comparison of different hmm designs for emotion recognition from acted and spontaneous speech. In: International conference on affective computing and Inteligent interaction (ACII), Lisbon, Portugal, pp. 114-125 (2007)
Wilting, J., Krahmer, E., Swerts, M.: real vs acted emotional speech. In: Proceedings of interspeech 2006 - ICSLP, Pittsburgh, PA, USA (2006)
Yanaru, T. (1997). An emotion processing system based on fuzzy inference and subjective observations. Information sciences, 101, 217-247.

ENTREGABLES

PRODUCTO	LUGAR DE DIVULGACIÓN	AUTORES	BENEFICIARIOS	DESCRIPCIÓN
Nuevo Conocimiento ó I+D	Revista Mexicana de Psicología	Castro y Quintero	Comunidad Académica
Apropiación Social del Conocimiento	Protocolo experimental	Castro y Quintero	Comunidad Académica
Seleccionar...
Seleccionar...
Seleccionar...

CRONOGRAMA

TIPO	DESCRIPCIÓN	F.INICIO	F.FINAL
Entregable	Artículo	25/03/2014	28/11/2014
Entregable	Protocolo	25/03/2014	28/11/2014
Seleccione...
Seleccione...
Seleccione...

PEDIDO DE BIBLIOGRAFÍA

AUTOR	TÍTULO	EDITORIAL

ANEXOS