Статья Автор: Деникина Н.В., Деникин А.В.

Информационная выгода — выбираем лучший вопрос

Информационная выгода (Information Gain) 

Теперь самое важное — как выбрать, какой признак использовать для разделения?

Информационная выгода (Information Gain) показывает, насколько уменьшится энтропия после разделения.

IG = Энтропия(до) - Средневзвешенная_Энтропия(после)
 

Средневзвешенная энтропия

Идея: Большие группы важнее маленьких! Нужно учитывать размер каждой группы.
Средневзвешенная_H = (размер_левой/всего) × H_левой + (размер_правой/всего) × H_правой

Пример

Было 8 человек → разделили на группы по 5 и 3 человека

H_после = (5/8) × 0.7 + (3/8) × 0.2 = 0.4375 + 0.075 = 0.5125
           ↑            ↑
         веса       энтропии групп

 


Пример: Предсказываем, пойдет ли человек играть в футбол

У нас 14 дней данных: 9 дней играли, 5 дней не играли.

Начальная энтропия:

  • H = -(9/14 × log₂(9/14) + 5/14 × log₂(5/14)) ≈ 0.94


Вариант 1: Разделить по погоде (Солнечно/Дождь)

  • Солнечно (8 дней): играли 2 дня, не играли 6 дней → H ≈ 0.81
  • Дождь (6 дней): играли 6 дней, не играли 0 дней → H = 0
  • Средневзвешенная энтропия = 8/14 × 0.81 + 6/14 × 0 = 0.46
  • IG = 0.94 - 0.46 = 0.48


Вариант 2: Разделить по температуре (Жарко/Холодно)

  • Жарко (7 дней): играли 3 дня, не играли 4 дня → H ≈ 0.99
  • Холодно (7 дней): играли 6 дней, не играли 1 день → H ≈ 0.59
  • Средневзвешенная энтропия = 7/14 × 0.99 + 7/14 × 0.59 = 0.79
  • IG = 0.94 - 0.79 = 0.15

Вывод: Погода дает больше информации (0.48 > 0.15), поэтому первый вопрос должен быть о погоде!

Печать