Nous vivons dans un monde où les algorithmes sont omniprésents et beaucoup d’entre nous les utilisent, peut-être même sans savoir qu’il s’agit d’un algorithme. Pour résoudre un problème sur un ordinateur, nous avons besoin d’un algorithme. L’apprentissage automatique dépend d’un certain nombre d’algorithmes pour transformer des ensembles de données en modèles. Le biais et la variance sont les deux concepts fondamentaux de l’apprentissage automatique. Il est important de les comprendre lorsqu’il s’agit de la précision d’un algorithme d’apprentissage automatique.
Qu’est-ce que le biais ?
L’erreur de prédiction de tout algorithme d’apprentissage automatique peut être décomposée en trois parties : l’erreur de biais, l’erreur de variance et l’erreur irréductible. Le biais est un phénomène qui se produit dans le modèle d’apprentissage automatique en raison d’hypothèses incorrectes dans le processus d’apprentissage automatique. Le biais est une erreur systématique qui se produit lorsqu’un algorithme produit des résultats systématiquement biaisés en raison d’hypothèses incorrectes dans le processus d’apprentissage automatique. Il s’agit d’hypothèses formulées par un modèle pour faciliter l’apprentissage de la fonction cible.
Un biais élevé signifie que l’erreur dans les données d’apprentissage et de test est plus importante. Il est toujours recommandé qu’un algorithme soit faiblement biaisé afin d’éviter le problème de l’ajustement insuffisant. Supposons que vous ayez choisi un modèle qui ne peut même pas dériver les modèles essentiels de l’ensemble de données – c’est ce que l’on appelle un sous-ajustement (underfitting). En d’autres termes, il y a biais lorsque vous avez utilisé un algorithme et qu’il ne s’adapte pas correctement.
Qu’est-ce que la variance ?
La variance est la variation de la précision de prédiction de l’apprentissage automatique entre les données de formation et les données de test. Si la variation de l’ensemble de données entraîne une modification des performances du modèle, on parle d’erreur de variance. Il s’agit de la variation de l’estimation de la fonction cible si l’on utilise des données de formation différentes. La fonction cible est supposée à partir des données d’apprentissage par un algorithme d’apprentissage automatique, de sorte qu’une certaine variance dans l’algorithme est attendue.
La variance dépend d’un seul ensemble d’apprentissage et détermine l’incohérence de différentes prédictions utilisant différents ensembles d’apprentissage. Une faible variance suggère de faibles changements dans l’estimation de la fonction cible en cas de modification de l’ensemble de données d’apprentissage, tandis qu’une variance élevée suggère de grands changements dans l’estimation de la fonction cible en cas de modification de l’ensemble de données d’apprentissage. Les algorithmes d’apprentissage automatique présentant une variance élevée sont fortement influencés par les spécificités des données d’apprentissage.
Différence entre le biais et la variance
Signification
– Le biais est un phénomène qui se produit dans le modèle d’apprentissage automatique lorsque vous avez utilisé un algorithme et qu’il ne s’adapte pas correctement. Cela signifie que la fonction utilisée est peu pertinente pour le scénario et qu’elle n’est pas en mesure d’extraire les modèles corrects. La variance, quant à elle, spécifie l’ampleur de la variation de l’estimation de la fonction cible si des données d’apprentissage différentes sont utilisées. Elle indique dans quelle mesure une variable aléatoire s’écarte de sa valeur attendue.
Scénario
– Le biais est la différence entre les valeurs prédites et les valeurs réelles. Un biais faible suggère moins d’hypothèses sur la forme de la fonction cible, tandis qu’un biais élevé suggère plus d’hypothèses sur la forme de la fonction cible. Le cas où le modèle n’est pas en mesure de trouver des modèles dans l’ensemble de formation est appelé sous-adaptation. On parle de variance lorsque le modèle prend en compte les fluctuations des données. Le modèle donne de bons résultats sur les données de test et obtient une grande précision, mais il ne donne pas de bons résultats sur les données nouvelles et inédites.
Résumé
Quel que soit le modèle que vous avez, il doit être un équilibre parfait entre le biais et la variance. L’objectif de tout algorithme d’apprentissage automatique supervisé est d’obtenir un faible biais et une faible variance. Cependant, ce scénario n’est pas possible car les deux sont inversement liés et il est pratiquement impossible d’avoir un modèle d’apprentissage automatique avec un faible biais et une faible variance. Contrairement au biais, la variance est le moment où le modèle prend en compte les fluctuations des données et même le bruit. Si vous essayez de modifier l’algorithme pour qu’il s’adapte mieux à un ensemble de données donné, il se peut que le biais soit faible, mais la variance augmentera.
Qu’est-ce que le biais et la variance avec un exemple ?
Le biais dans l’apprentissage automatique est un phénomène qui se produit lorsqu’un algorithme est utilisé et qu’il ne s’adapte pas correctement. Parmi les exemples de biais, on peut citer le biais de confirmation, le biais de stabilité et le biais de disponibilité. Les algorithmes d’apprentissage automatique présentant une faible variance comprennent la régression linéaire, la régression logistique et l’analyse discriminante linéaire.
Quels sont les quatre types de biais dans l’apprentissage automatique ?
Les quatre types de biais comprennent le biais de sélection, les valeurs aberrantes, le biais de mesure, le biais de rappel, etc.