¿Qué técnicas estadísticas utilizan los modelos QSAR?
Como hemos visto en las entradas anteriores, los modelos QSAR permiten predecir propiedades o actividades de las moléculas, y se obtienen a partir del análisis de descriptores moleculares con técnicas estadísticas y/o de aprendizaje automático.
Los modelos QSAR pueden utilizarse de un modo cualitativo para clasificar una sustancia, por ejemplo, como irritante para la piel o no irritante. También nos pueden servir para calcular valores numéricos exactos. Es decir, se pueden hacer modelos cuantitativos, por ejemplo, para calcular cuántos días tarda una sustancia en degradarse. Como vimos en la entrada sobre métodos computacionales, el primer tipo de modelos son conocidos como modelos de clasificación, mientras que el segundo tipo de modelos se denominan modelos de regresión.
Dependiendo del tipo de modelo que hagamos, vamos a necesitar unas u otras herramientas estadísticas para evaluar su desempeño. Es lo que se conoce como los parámetros de “bondad del ajuste”, una serie de parámetros que miden cuánto de bien está funcionando un modelo para predecir los datos.
En un modelo de clasificación lo que se tiene como datos de entrada es un grupo de moléculas que se clasifican en un grupo (p.ej., son irritantes para la piel) y otro que no lo son. Una vez generado el modelo, si se desea saber su capacidad predictiva, se necesita aplicarlo a diferentes moléculas cuyas propiedades realmente conocemos.
Aunque lo ideal sería que el modelo sea capaz de predecir correctamente la capacidad de irritación de todas las moléculas, lo normal es que haya un porcentaje de errores, y tendremos moléculas que son irritantes y que hemos predicho como no irritantes y al revés, moléculas no irritantes que predecimos como que lo son. Estos dos valores se conocen, respectivamente, como falsos negativos (FN, aquellos que un modelo predice como negativo, mientras que realmente son positivos) y falsos positivos (FP, aquellos que un modelo predice como positivo, mientras que realmente son negativos). En un buen modelo, la mayoría de los positivos y de los negativos estén bien predichos por el modelo. Estos son conocidos como verdaderos positivos (VP) y verdaderos negativos (VN), respectivamente.
Para que sea más visual, normalmente se utiliza lo que se denomina la matriz de confusión (o matriz de resultados) para representar este resultado. La siguiente tabla muestra un ejemplo:
A partir de esos valores podemos calcular parámetros que midan el porcentaje de aciertos, como la exactitud (en inglés, accuracy); el porcentaje de casos positivos detectados (sensibilidad, sensitivity, recall o true positive rate en inglés) o el porcentaje de casos negativos detectados (especificidad, specificity, selectivity o true negative rate en inglés), entre otros parámetros.
Para los modelos de regresión es un poco diferente. Imaginemos que lo que tenemos es un conjunto de datos muy pequeño, como el de esta tabla, donde tenemos el valor de los días de degradación real (o experimental) y lo que predice nuestro modelo:
A partir de ahí podemos calcular varios parámetros, como, por ejemplo, el promedio del error de la predicción, es decir, cuánto se equivoca esta, promediando la resta de cada valor real menos el predicho. Otro parámetro muy utilizado para conocer la calidad de nuestro modelo es el R2, que nos indica cómo de cerca están los datos de la línea de regresión ajustada.
Con todos estos parámetros, podemos evaluar la calidad de nuestras predicciones para ambos tipos de modelos y así poder medir cómo de bien funcionan los mismos. Cuanto mejores sean los modelos predictivos que conseguimos, más avanzaremos en el uso de estos.
Referencias
[1] Methods for reliability and uncertainty assessment and for applicability evaluations of classification- and regression-based QSARs. Lennart Eriksson et al. Environ Health Perspect. 2003 Aug;111(10):1361-75.
[2] QSAR modeling: where have you been? Where are you going to? Artem Cherkasov et al. J Med Chem. 2014 Jun 26;57(12):4977-5010.