Logo
DATOS DEL INVESTIGADOR PRINCIPAL
Nombre Ricardo Antonio Mendoza Leon
Nombre del perfíl Investigador Por Proyecto
Grupo de investigación Sistemas y Computación
Línea de investigación Bioinformática e Informática teórica (BIT)
Equipo del proyecto
TÍTULO DEL PROYECTO Predicción de mapas de contacto en proteínas.
PALABRAS CLAVE Mapa de contacto, enlaces de hidrogeno, estructura secundaria, Machine learning.
OBJETIVOS DEL PROYECTO Proponer un método basado en técnicas de machine learning, para la identificación de contactos de hidrogeno entre residuos de aminoácido en las proteínas, que dada su secuencia facilite la predicción de su estructura terciaria y el estudio de su función.
PERTINENCIA ESPISTEMOLÓGICA DEL PROYECTO La identificación de los enlaces de hidrogeno y el mapa de contacto para una proteína, es un importante tarea en la predicción de su estructura terciara (estado nativo), el análisis de su función y catalogación. El desarrollo de nuevos métodos con este fin, permite racionalizar los esfuerzos y acelerar el análisis de nuevos genomas, enfermedades y medicinas, siendo de gran ayuda en diversas disciplinas como la biología molecular y la medicina.
RELEVANCIA DEL PROYECTO PARA LA INSTITUCIÓN Y PARA LOS BENEFICIARIOS DEL PROYECTO La promoción del conocimiento, avance y difusión de la Bioinformática como disciplina de investigación en la facultad, al interior y el exterior de la institución.
La integración con cursos de la facultad que incluyen Bioinformática, Estadística y otras asignaturas relacionadas con los métodos formales, sirviendo como referente de la aplicación en la práctica y profundización de los conocimientos adquiridos en estos cursos.
PROBLEMA DE INVESTIGACIÓN El estudio y categorización de la estructura y función de las proteínas, es uno de los ejes principales en investigación científica actual en Biología y Bioquímica (Baldi, et al, 2001). Lo anterior se sustenta en la necesidad de estudiar su función como prerrequisito para la comprensión profunda de la dinámica de los sistemas vivos, así como de grandes problemas de salud, como el cáncer.
La abrumadora diversidad del proteoma de los seres vivos, representa uno de los mayores retos prácticos de la ciencia, dada nuestra incapacidad técnica de estudiar experimentalmente, siquiera una minúscula proporción de las mismas empleando tiempos y recursos razonables (Lesk 2002).

Durante más de 30 años la Bioinformática, ha formulado propuestas con el ánimo de superar este reto y sus problemas derivados, mediante el uso de modelos computacionales que implementan modelos teóricos y empíricos, que buscan aproximar la dinámica subyacente del objeto de estudio.

El problema de predecir los contactos de hidrogeno inter-residuo (mapa de contacto), es un problema complejo, dada la gran cantidad de interacciones físicas que se presentan en las cadenas poli-péptidas, sumado a su gran tamaño. En particular la predicción de las interacciones distantes aún es un problema pendiente por solventar satisfactoriamente (Cheg et al, 2010).
Este proyecto se plantea el desarrollo de un método para la predicción de los enlaces de hidrogeno inter-residuo en proteínas y su mapa de contacto derivado, mediante el empleo de técnicas de Machine learning, con particular énfasis en la predicción de los enlaces distantes.
METODOLOGÍA Tipo de investigación:
La investigación es enfoque cuantitativo de alcance explicativo, no
experimental, de diseño correlacional.

Universo de investigación:
Proteínas procariotas y eucariotas.

Tamaño y características de la muestra:
Se empleará para entrenamiento y validación del modelo desarrollado, el conjunto de proteínas seleccionado para el CASP 9 (Critical Assessment of Techniques for Protein Structure Prediction), que cuenta con 273 secuencias objetivo no homologas (Wu et al. 2011), siguiendo la misma metodología empleada por los métodos participantes en la misma, cuyos resultados serán comparados con los obtenidos.
RESULTADOS ESPERADOS Se espera que el modelo de predicción diseñado obtenga resultados comparables a los obtenidos por los 25 grupos participantes del CASP 9, que han obtenido resultados con una precisión entre el 20% y 30% (Wu et al. 2011).
DURACIÓN DEL PROYECTO
POSIBLES FUENTES DE FINANCIACIÓN EXTERNA
REVISIÓN BIBLIOGRÁFICA Las proteínas cuentan con una estructura tridimensional compleja. En la actualidad, para determinar experimentalmente su estructura nativa por medios como la cristalografía de rayos-X y la resonancia magnética, se requiere de elevados recursos económicos y de tiempo. Por este motivo solo unos miles de los más de diez millones de proteínas secuenciadas cuentan con su estructura determinada.
Los métodos computacionales buscan facilitar la adquisición de información sobre las proteínas tomando como base únicamente su secuencia y así facilitar permitir entender de mejor forma su posible función. Los mapas de contacto representan información que facilita enormemente la tarea de los métodos de predicción de la estructura terciaria, ya que restringen el espacio de búsqueda del posible estado nativo de la proteína.
Diferentes propuestas se han planteado para predecir estos mapas. Estas propuestas han hecho uso de diversas técnicas propias del Machine Learning, entre las que se destacan las redes neuronales (Fariselli et al. 2001, Chen et al. 2008) y los mapas auto-organizativos (Self organizing maps) (McCallum et al. 2004); métodos de optimización evolutiva no lineal (como los algoritmos genéticos); maquinas de vectores de soporte (SVM) (Cheng et al. 2007, Chen et al. 2008) y los modelos ocultos de markov (HMM) (Pollastri et al. 2002).
Sin embargo hasta la actualidad, los resultados han sido muy limitados, llegando a una precisión de apenas un 30% (Chen et al. 2010, Wu et al. 2011); en gran medida la razón de estos resultados yace en la dificultad de crear modelos de inferencia basados en espacios de características globales y no locales, como ha sido el caso en el pasado.
ENTREGABLES Artículo de revisión en el problema de la predicción de mapas de contacto.
Implementación software del método de predicción desarrollado.
CRONOGRAMA
TIPO DESCRIPCIÓN F.INICIO F.FINAL
Entregable Artículo de revisión 01/06/2012 17/12/2012
Entregable Software 18/12/2012 01/04/2013
Seleccione...
Seleccione...
Seleccione...
PEDIDO DE BIBLIOGRAFÍA
AUTOR TÍTULO EDITORIAL
ANEXOS