L'idée de l'apprentissage supervisé (supervised learning)

Undefined

Imaginons que nous disposions d'une grande série de données sur les élèves scolarisés en an 2000, dans laquelle il est indiqué s'ils ont réussi leur examen final.
Il nous parrait bien naturel de tenter de lier les résultats scolaires de ces élèves à leur réussite, mais imaginons que nous tentions d'étudier l'influence de la catégorie socio-professionnelle de leurs parents et de leurs établissements de scolarisation sur leur réussite:

Série étudiée:

index catégorie socio-pro établissement réussite finale
1 défavorisée A échec
2 favorisé A réussite
3 défavorisée B échec
... ... ... ...
... ... ... ...
N défavorisée A échec

L'idée directrice dans le domaine de l'apprentissage supervisé est d'essayer d'attribuer des coefficients de pondération numériques aux caractéristiques (catégorie socio-pro et établissement) afin de prédire la réussite finale d'un élève.

Transformation de la série étudiée (pré-processing) :
Les algorithmes ne prennent en entrée que des nombres, nous devons donc modifier nos données: convenons que pour la catégorie socio-pro favorisé soit notée 1, défavorisée soit notée 0 et que l'établissement A soir noté 1 et l'établissement B soit noté 0.
Limitons-nous pour l'exemple à une série des 4 élèves du tableau précédent:

index catégorie socio-pro (notée s) établissement (notée e) réussite finale
1 0 1 0
2 1 1 1
3 0 0 0
4 0 1 0

Cherchons une méthode mathématique permettant de lier les caractéristiques s et e de nos élèves à leur réussite finale. Dans le cas réel, les coefficients de pondération de s et de e sont déterminés par un algorithme.

Choisissons de coefficienter 2 la catégorie socio-professionnelle, et -1 l'établissement d'un élève.
Consédérons donc la fonction mathématique H(s,e) = 2s - e.
Evaluons maintenant H sur nos enregistrements:

index s e H(s,e) = 2s - e réussite finale
1 0 1 2x0 - 1 = -1 0
2 1 1 2x1 - 1 = 1 1
3 0 0 2x0 - 0 = 0 0
4 0 1 2x0 - 1 = -1 0

Maintenant, évaluons la condition H(s,e) = 2s - e > 0.5 sur chacun de nos enregistrements:

index s e H(s,e) = 2s - e H(s,e) = 2s - e > 0.5 réussite finale
1 0 1 2x0 - 1 = -1 -1 > 0.5 est FAUX 0
2 1 1 2x1 - 1 = 1 1 > 0.5 est VRAI 1
3 0 0 2x0 - 0 = 0 0 > 0.5 est FAUX 0
4 0 1 2x0 - 1 = -1 -1 > 0.5 est FAUX 0

Dans chaque cas, nous constatons qu'il y a correspondance entre réussite finale et la condition H(s,e) > 0.5

H(s,e) > 0.5 réussite finale
FAUX 0
VRAI 1
FAUX 0
FAUX 0

Même si en réalité la méthode de détermination de la fonction H (fonction Hypothèse) est nettement plus complexe, l'idée de la recherche de bons coefficients est identique.
Plus précisément, à l'initialisation des algorithmes, les coefficients sont choisis arbitraires, puis les mathématiques permettent de modifier progressivement ces poids aux vues des valeurs attendues de la variable d'étude. C'est par la correction progressive de ces poids que l'ont entend le terme d'apprentissage.