Есть другой способ измерить "чистоту" узла — коэффициент Джини. Он проще в вычислении!
Идея: Какова вероятность того, что мы неправильно классифицируем случайный элемент?
Gini = 1 - Σ(p²)
где p — вероятность каждого класса.
Те же примеры:
Корзина А (10 красных):
- Gini = 1 - (1² + 0²) = 1 - 1 = 0
- Идеально чисто!
Корзина Б (5 красных, 5 синих):
- Gini = 1 - (0.5² + 0.5²) = 1 - 0.5 = 0.5
- Максимально "грязно" для 2 классов
Сравнение Энтропии и Gini:
- Оба измеряют "нечистоту" узла
- Gini быстрее считать (не нужен логарифм)
- Энтропия чуть лучше для многоклассовых задач
- На практике дают похожие результаты