Я выбрала датасет со статистикой игры в рулетку. Рулетка - игра на чистое везение и случай, то есть загружая этот датасет для машинного обучения, мы возможно даже сможем посчитать этот самый случай, определить везение через статистику. Мне кажется, что это просто поразительно!
Всего в моем датасете 8 колонок: Round (номера раунда),Winning Number (выигравшее в раунде число),Winning Color (цвет, победивший в раунде),Red Bet Win(количество выигравших красных полей),Black Bet Win(количество выигравших черных полей),Even Bet Win(количество выигравших четных номеров),Odd Bet Win(количество выигравших нечетных номеров),Zero Bet Win(количество выигравших номеров 0)
Из этих колонок все кроме winning color являются числовыми значениями, для которых мы можем посчитать статистику, для подсчета которой необходимы следующие формулы:
среднее значение - сумма чисел /количество чисел
медиана -
все числа упорядочены, если их количество четное: находим 2 значения посередине, складываем и делим на 2
если нечетное:
находим значение посередине
мода - самое частое значение
дисперсия - сумма квадрата из разности среднего арифметического и каждого значения разделить на количество чисел
стандартное отклонение - корень из дисперсии