Статья Автор: Деникина Н.В., Деникин А.В.

Выбор параметров eps и minPts

Как выбрать eps?

Метод k-distance графика

Идея: Постройте график расстояний до k-го ближайшего соседа



Как использовать:

Расстояние
    |
 5  |●              ← 1 точка с k-distance ≈ 5
    |●              ← 1 точка с k-distance ≈ 4.5
 4  |●              ← 1 точка с k-distance ≈ 4
    |●●             ← 2 точки с k-distance ≈ 3.5
 3  |●●●     ← ЛОКОТЬ! 3 точки с k-distance ≈ 3
    |●●●●●●         ← 6 точек с k-distance ≈ 2.5
 2  |●●●●●●●●●●     ← 10 точек с k-distance ≈ 2
    |●●●●●●●●●●●●●  ← 13 точек с k-distance ≈ 1.5
 1  |●●●●●●●●●●●●●●●● ← 16 точек с k-distance ≈ 1
    |________________
         Точки (отсортированные)
Интерпретация:
Первые 3-4 точки (слева) — это выбросы (k-distance = 4-5)
Резкий спуск ("локоть") происходит на уровне Y ≈ 3
Остальные точки (справа) — это точки внутри кластеров (k-distance = 1-2.5)

Вывод: eps ≈ 3
 

 

Примечание

В matplotlib график выглядит как линия, соединяющая точки (запустите код выше)

 



Как выбрать minPts?

Эмпирическое правило:

minPts >= размерность + 1

 

Для 2D данных (x, y):

  minPts >= 2 + 1 = 3

 

Для 3D данных (x, y, z):

  minPts >= 3 + 1 = 4

 

Обычно используют:

  minPts = 4 (для 2D)

  minPts = 5-10 (для многомерных данных)

 

Практические советы:

Маленький minPts (2-3):

  ✅ Находит маленькие кластеры

  ❌ Много шума может попасть в кластеры

 

Большой minPts (10+):

  ✅ Только очень плотные кластеры

  ❌ Маленькие кластеры будут шумом

Печать