Как понять, какой вопрос задать первым? Нужна метрика "беспорядка" в данных!
Представь две корзины с шариками:
- Корзина А: 10 красных шариков
- Корзина Б: 5 красных и 5 синих шариков
Если нужно угадать цвет случайного шарика, в какой корзине это сделать проще? Конечно, в корзине А — там вообще нет неопределенности!
Энтропия — это мера неопределенности или беспорядка. Формула выглядит страшно, но смысл простой:
Энтропия = -Σ(p × log₂(p))
где p — вероятность каждого класса.
Давай посчитаем вручную:
Корзина А (10 красных):
- P(красный) = 10/10 = 1
- P(синий) = 0/10 = 0
- Энтропия = -(1 × log₂(1) + 0 × log₂(0)) = 0
- Полный порядок!
Корзина Б (5 красных, 5 синих):
- P(красный) = 5/10 = 0.5
- P(синий) = 5/10 = 0.5
- Энтропия = -(0.5 × log₂(0.5) + 0.5 × log₂(0.5))
- = -(0.5 × (-1) + 0.5 × (-1)) = 1
- Максимальный беспорядок!
Запомни:
- Энтропия = 0 → все объекты одного класса (идеально!)
- Энтропия = 1 → классы поровну (максимальный хаос для 2 классов)
- Чем меньше энтропия, тем лучше разделение