Статья Автор: Деникина Н.В., Деникин А.В.

СРАВНЕНИЕ K-means vs DBSCAN

Когда использовать какой алгоритм?

Критерий K-means DBSCAN
Нужно знать k? ✅ ДА (недостаток) ❌ НЕТ (преимущество)
Форма кластеров Только выпуклые (круглые) Любая форма!
Обработка выбросов Все точки в кластерах Автоматически находит шум
Скорость Очень быстро Медленнее (но OK)
Параметры k, max_iter eps, minPts


 


Когда что выбрать?

K-means подходит для:

  • ✓ Знаете количество кластеров
  • ✓ Кластеры примерно круглые
  • ✓ Нет выбросов
  • ✓ Нужна максимальная скорость
  • ✓ Большие данные

DBSCAN подходит для:

  • ✓ НЕ знаете количество кластеров
  • ✓ Кластеры сложной формы
  • ✓ Есть выбросы/аномалии
  • ✓ Нужны реальные результаты
  • ✓ Научные данные

Примеры использования

  • K-means: сегментация клиентов, сжатие изображений
  • DBSCAN: обнаружение аномалий, анализ географии, медицина
Печать