Contrôler la qualité d'un modèle prédictif

Imaginons la conception d'un modèle prédictif H de classification des tumeurs cancéreuses en fonction de la taille de la tumeur et de l'âge du patient.

H est une fonction mathématique prenant en argument deux paramètres: t et a: où

  • t = taille de la tumeur
  • a = âge du patient,

et renvoie la probabilité H(t,a) que le patient soit atteint d'un cancer.

Un patient sera prédit cancéreux si h(t,a) >= 0.5 et non cancéreux si h(t,a) < 0.5.

H est construit à partir de données constatées (de préférence en grands nombres).
Ces doonnées forment ce que l'on nomme communément le Dataset.

exemple:

index taille de la tumeur âge du patient tumeur cancéreuse (oui:1, non 0)
1 4.2 54 1
2 5.1 43 0
3 4.6 50 1
4 6.0 45 0
... ... ... ...
... ... ... ...
N 7.3 84 1

De ces données d'entrée, après les avoir mélangées pour garantir une équirépartition aléatoire, nous allons entrainer notre modèle prédictif sur 70% d'entre elles (données appelées Training Set), et mettons les 30% restants de côté (Test Set).

Sur les 30% des données que notre modèle prédictif ne connait pas, nous obtenons des valeurs prédites pour chaque patient, et allons les comparer aux données réelles:

index valeur prédite par le modèle valeur réelle
... 1 1
... 0 1
... 0 0
... 1 1
... 1 1

L'évaluation du modèle est alors le pourcentage de valeurs correctement prédites par notre modèle. Dans l'exemple ci dessus, 4 valeurs réelles sont correctement prédites sur 5, l'efficacité du modèle contruit est donc de 80%.

Attention toutefois aux subtilités, car sur des données disymétriques (quand l'une des deux classe est nettement en surnombre par rapport à l'autre) des surprises peuvent apparaitre:
Imaginons que nous contruisions un modèle qui prédit correctement 95% des données (ce qui peut parraitre excellent), mais qu'en réalité, la répartition positifs/négatifs des données réelles soient de 98%/2%, une prédiction triviale prédisant toujours un résultat positif donnerait une meilleure efficacité (98%) sans que réellement ce modèle soit d'une utilité queconque.

Il est dans tous les cas judicieux d'étudier la matrice de confusion, donnant le nombre de

  • Vrais positifs (prédits positifs et réellement positifs)
  • Vrais négatifs (prédits négatifs et réellement négatifs)
  • Faux positifs (faussement prédits positifs mais réellement négatifs)
  • Faux négatifs (faussement prédits négatifs mais réellement positifs)
Indéfini