До сих пор мы работали только с бинарными признаками (0 или 1). Но что если признак — это число, например, возраст или рост?
Решение: находим пороговое значение!
Вместо вопроса "Признак = 0?" мы спрашиваем "Признак < порог?"
Алгоритм поиска порога:
- Отсортировать все уникальные значения признака
- Попробовать пороги между соседними значениями
- Для каждого порога посчитать информационную выгоду
- Выбрать лучший порог
Пример: Предсказываем, сдаст ли студент экзамен
Часы_подготовки | Сдал_экзамен
1 | 0
3 | 0
5 | 1
7 | 1
9 | 1
Пробуем пороги: 2, 4, 6, 8
- Порог 2: слева [1], справа [3,5,7,9] → плохо
- Порог 4: слева [1,3], справа [5,7,9] → отлично!
- Порог 6: слева [1,3,5], справа [7,9] → хорошо