3. Обучение с подкреплением (Reinforcement Learning)
Компьютер пробует действия:
Хорошо → получает награду
Плохо → получает штраф
Учится через опыт (как в играх)
«Пробуй и получай обратную связь!»
Аналогия:
Дрессировка собаки. Собака получает лакомство за правильные действия и выговор за ошибки.
Как работает:
-
Агент (компьютер) действует в среде
-
Получает награды за хорошие действия и штрафы за плохие
-
Учится методом проб и ошибок
Примеры из жизни:
Ключевые понятия:
-
Агент — тот, кто учится
-
Среда — мир, где агент действует
-
Награда — обратная связь за действия
-
Политика — стратегия поведения агента
Суть: Компьютер учится через взаимодействие и обратную связь.