Exploration vs Exploitation

in #fr5 years ago

Lorsque nous sommes dans un environnement et que nous devons prendre des actions, plusieurs choix s’offrent à nous. Nous pouvons prendre une action que nous avons déjà prise ou bien prendre une nouvelle action. Cette question se pose lorsque nous souhaitons par exemple sélectionner la meilleure option possible. Nous sommes dans le dilemme de l’exploration ou de l’exploitation.

Exploration


Dans le cas de l’exploration, nous avons la possibilité de tester une nouvelle action que nous n’avons jamais réaliser. Cela nous permet dans le même temps d’augmenter notre base de données et de savoir les conséquences de cette action. Par exemple, si nous sommes au restaurant, nous avons la possibilité de choisir un nouveau plat. Ainsi, dans le meilleur des cas, nous avons eu un magnifique plat. Dans le cas contraire, nous aurons eu un plat qui ne nous convient pas forcément. Dans le cas d’un apprentissage par renforcement, cela va se jouer sur la récompense que nous allons attribuer à notre système. Ainsi, notre système aura une récompense positive et il sera que cette action est intéressante. Dans le second cas, il aura une récompense négative et il sera que cette action n’est pas intéressante. Le résultat de cette action est donc indéterminé. Cependant, avec cette méthode, nous pouvons toujours chercher la meilleure action alors qu’il se peut que nous l’ayons déjà trouvé.

Exploitation


Dans le cas de l’exploitation, nous réalisons une action où nous connaissons déjà les conséquences. Ainsi, nous avons déjà une expérience des résultats de cette dernière. Si nous prenons toujours le cas du restaurant, cela correspond au fait de prendre un repas que nous avons déjà pris par le passé. De ce fait, nous savons à quoi nous attendre. Le résultat de cette action est déterminé. Cependant, avec cette méthode, notre base de données reste toujours la même, nous n'évoluons pas. Cela peut parfois être problématique dans le cas où nous cherchons la meilleure action. En effet, il se peut que nous passions à côté de la meilleure action.

Compromis


Il nous faut donc trouver un juste-milieu. En effet, nous ne pouvons pas faire que de l’exploration et que de l’exploitation. Dans le cas d’un système intelligent, il nous faut dans un premier temps avoir une phase d’exploration qui lui permet de créer une base de données. Ainsi, en fonction des résultats que nous avons obtenus, nous pourrions choisir de conserver la phase d’exploration ou bien de passer sur une phase d’exploitation. Ainsi, la meilleure stratégie long-terme peut impliquer des sacrifices court-terme. Dans le cas où nous rassemblons suffisamment d’informations afin d’avoir la meilleure décision globale.

Implémentation


Dans un système par apprentissage par renforcement, nous allons représenter cela par un nombre compris entre 0 et 1 appellé Epsilon Greedy. Ce nombre représente la probabilité d’exploration. Pour obtenir la probabilité d’exploitation, il nous suffit de soustraire 1 avec ce nombre. Si nous assignons à epsilon une valeur de 0.1, alors nous aurons 10% de probabilité de réaliser une exploration et 90% de probabilité de réaliser une exploitation.

Le choix de la valeur de l’epsilon greedy est arbitraire. En effet, il n’existe pas de règle prédéfinie pour connaître sa valeur. Tout dépendra du type de problème que vous souhaitez résoudre. En effet, cela dépendra de la politique que vous souhaitez implémenter.



Pour conclure, dans cet article, nous avons abordé deux notions : l’exploration et l’exploitation. Lorsque nous avons un ensemble de choix possible, nous allons soit sélectionné une option que nous n’avons jamais pris (exploration), soit prendre une option que nous connaissons déjà (exploitation). Dans un système intelligent, nous allons utiliser une valeur appelée Epsilon Greedy modélisant le comportement de ces notions.

Sort:  

Félicitations ! Votre post a été sélectionné de part sa qualité et upvoté par le trail de curation de @aidefr !

La catégorie du jour était : #intelligence_artificielle


Si vous voulez aider le projet, vous pouvez rejoindre le trail de curation ici!

Bonne continuation !

Nouveau : Rendez-vous sur le nouveau site web de FrancoPartages ! https://francopartages.xyz

Intéressant :-) ! Merci du partage @rerere :D !

Merci à toi :)

Coin Marketplace

STEEM 0.30
TRX 0.11
JST 0.033
BTC 64243.42
ETH 3152.93
USDT 1.00
SBD 4.28