¿Qué son y cómo se crean?
Los modelos QSAR, por sus siglas en inglés Quantitative Structure Activity Relationships, se basan en una de las técnicas más empleadas en el campo de la quimioinformática, como veíamos en la entrada anterior.
En esta entrada vamos a ayudaros a conocer mejor la forma de obtener estos modelos y los diferentes términos relacionados con ellos, y a despejar las dudas más habituales que suelen generar.
¿Qué es un modelo QSAR?
Los modelos QSAR son algoritmos matemáticos complejos que permiten facilitar, economizar y acelerar una importante tarea en campos como la química o el desarrollo de fármacos: la evaluación predictiva de las propiedades o actividades biológica de compuestos químicos a partir exclusivamente de su estructura molecular. Se basan en que existe una relación entre la estructura de un compuesto y su actividad, idea propuesta por el químico escocés Crum Brown hace ya más de cien años, y ampliamente demostrada desde entonces.
Estos modelos permiten estimar computacionalmente las propiedades físico-químicas, biológicas o toxicológicas de compuestos cuya actividad desconocemos, sin necesidad de realizar experimentación en el laboratorio, a partir de datos de otros compuestos cuyos valores para dichas propiedades son conocidos.
¿Cómo se obtiene un modelo QSAR?
El desarrollo de los modelos QSAR requiere la caracterización previa de las moléculas cuyas propiedades se conocen mediante descriptores numéricos. Es decir, la estructura de los compuestos se transforma en unos ‘descriptores’, parámetros que asocian valores numéricos a cada compuesto en función de diferentes características su estructura. Estos descriptores (que veremos con más detalle en la siguiente entrada) pueden ser tan simples como el número de determinados heteroátomos (átomos diferentes a carbono o hidrógeno) o de grupos funcionales de la molécula.
Después, se aplican herramientas estadísticas y de aprendizaje automático para generar los algoritmos que relacionen estos descriptores con el parámetro estudiado. El aprendizaje automático (o machine learning) es una rama de la inteligencia artificial que entrena a los ordenadores para ‘aprender’ por sí mismos, sin estar programados explícitamente. En este caso, los algoritmos aprenden las relaciones entre estructura y propiedad o actividad biológica.
Un flujo de trabajo general para construir modelos QSAR puede ser el siguiente:
Se trata el conjunto de datos de moléculas que se emplearán para generar el modelo. Se eliminan estructuras duplicadas, valores biológicos dudosos, etc.
Se calcula una serie de descriptores moleculares para este conjunto de datos que produce una matriz (tabla) de datos con tantas columnas como moléculas y tantas filas como descriptores.
La matriz de datos se divide de forma aleatoria en un conjunto de entrenamiento y un conjunto de prueba o validación.
Se crea el modelo sobre el conjunto de entrenamiento, utilizando diferentes técnicas para producir un modelo predictivo.
Se valida el modelo midiendo su eficacia sobre el conjunto de prueba.
Después del desarrollo y validación de un modelo QSAR, este modelo puede emplearse como herramienta de predicción de la propiedad/actividad de nuevas moléculas con estructuras químicas conocidas.
¿Están aceptados los modelos QSAR?
Los modelos QSAR están aceptados por autoridades reguladoras como la Agencia Europea de Sustancias Químicas (ECHA) si se siguen las reglas establecidas, que son las siguientes:
Los modelos deben orientarse a parámetros (“endpoints”) bien definidos, todos los valores experimentales utilizados deben haberse obtenido en condiciones idénticas,
deben tomar la forma de un algoritmo inequívoco, los modelos QSAR han de ser reproducibles por el resto de la comunidad científica,
su dominio de aplicabilidad tiene que estar claramente definido y justificado, es decir que un modelo QSAR sólo se puede aplicar a compuestos químicos que ocupen el mismo espacio químico que los compuestos que sirvieron para generar dicho modelo,
deben cumplir con las medidas reconocidas científicamente para demostrar la bondad de su ajuste, robustez y capacidad de predicción,
en la medida de lo posible, es conveniente que aporten una posible interpretación sobre mecanismos de acción toxicológica de los compuestos estudiados.
Estas cinco pautas fueron establecidas por la Organización para la Cooperación y el Desarrollo Económicos (OCDE) en el “37th Joint Meeting of the Chemicals Committee and Working Party on Chemicals, Pesticides and Biotechnology”, en noviembre de 2004. La Unión Europea las ha incluido también sin modificaciones en normas específicas como el anexo XI del Reglamento REACH y en el anexo IV de las Normas para Productos Biocidas (BPR). De hecho, la normativa REACH de la ECHA, que regula el uso, importación y comercialización de sustancias químicas en el territorio de la Unión Europea, no solo acepta, sino que promueve el uso de este tipo de modelos computacionales, con el objetivo de reducir el número de animales empleados en la experimentación animal para estos fines. Esta una apuesta clara por los Nuevos Métodos Alternativos (conocidos como NAMs por sus siglas en inglés), entre las que las técnicas computacionales y concretamente los modelos QSAR desempeñan un papel fundamental.
Referencias
[1] Gozalbes, R., & Vicente de Julián-Ortiz, J. (2018). Applications of Chemoinformatics in Predictive Toxicology for Regulatory Purposes, Especially in the Context of the EU REACH Legislation. International Journal of Quantitative Structure-Property Relationships (IJQSPR), 3(1), 1-24. http://doi.org/10.4018/IJQSPR.2018010101
[2] Carpio, L.E., Sanz, Y., Gozalbes, R. et al. Computational strategies for the discovery of biological functions of health foods, nutraceuticals and cosmeceuticals: a review. Mol Divers 25, 1425–1438 (2021). https://doi.org/10.1007/s11030-021-10277-5