Информационная выгода (Information Gain)
Теперь самое важное — как выбрать, какой признак использовать для разделения?
Информационная выгода (Information Gain) показывает, насколько уменьшится энтропия после разделения.
IG = Энтропия(до) - Средневзвешенная_Энтропия(после)
Средневзвешенная энтропия
Идея: Большие группы важнее маленьких! Нужно учитывать размер каждой группы.
Средневзвешенная_H = (размер_левой/всего) × H_левой + (размер_правой/всего) × H_правой
Пример
Было 8 человек → разделили на группы по 5 и 3 человека
H_после = (5/8) × 0.7 + (3/8) × 0.2 = 0.4375 + 0.075 = 0.5125
↑ ↑
веса энтропии групп
Пример: Предсказываем, пойдет ли человек играть в футбол
У нас 14 дней данных: 9 дней играли, 5 дней не играли.
Начальная энтропия:
- H = -(9/14 × log₂(9/14) + 5/14 × log₂(5/14)) ≈ 0.94
Вариант 1: Разделить по погоде (Солнечно/Дождь)
- Солнечно (8 дней): играли 2 дня, не играли 6 дней → H ≈ 0.81
- Дождь (6 дней): играли 6 дней, не играли 0 дней → H = 0
- Средневзвешенная энтропия = 8/14 × 0.81 + 6/14 × 0 = 0.46
- IG = 0.94 - 0.46 = 0.48
Вариант 2: Разделить по температуре (Жарко/Холодно)
- Жарко (7 дней): играли 3 дня, не играли 4 дня → H ≈ 0.99
- Холодно (7 дней): играли 6 дней, не играли 1 день → H ≈ 0.59
- Средневзвешенная энтропия = 7/14 × 0.99 + 7/14 × 0.59 = 0.79
- IG = 0.94 - 0.79 = 0.15
Вывод: Погода дает больше информации (0.48 > 0.15), поэтому первый вопрос должен быть о погоде!