Выборка (Sample)

Выборка (сэмпл) – часть Cовокупности (Population), подмножество точек ее данных. Процесс получения набора сэмплов называют Сэмплингом (Sampling).

Первый шаг статистического анализа – определить, является ли набор данных, с которым Вы имеете дело, генеральной совокупностью или Выборкой. Совокупность – это набор всех элементов, представляющих интерес для вашего исследования.
Совокупность vs. Выборка
Совокупность – это наблюдаемые нами объекты: люди, события, животные и т.д. У нее есть некоторые параметры, такие как Среднее значение (Mean), Медиана (Median), Мода (Mode), Стандартное отклонение (Standard Deviation) и другие.
Выборка – это случайное подмножество совокупности. Когда она слишком велика и затрудняет анализ, пригождается выборка. Перечисленные выше метрики также можно рассчитать и для выборки, но называться они будут статистиками, обозначаться и рассчитываться по-своему:

Центральная предельная теорема
Говорят, что это самая важная теорема статистики и математики. Она может быть очень мощной при оценке проблем и ситуаций. Центральная предельная теорема (Central Limit Theorem) утверждает, что распределение выборки будет нормальным независимо от анализируемой совокупности.
Пример. Мы располагаем данными о любителях видеоигр:

Расположим данные на двумерной плоскости: ось X отвечает за возраст игрока, y – за количество пройденных игр:

Возьмем 50 сэмплов из нашей совокупности вместо одного:

Для каждого сэмпла вычислим среднее значение. Конечно, не все они будут равны между собой. Мы получим целый список средних значений, и если сгруппировать их в зависимости от попадания в тот или иной десяток, то график будет выглядеть следующим образом:

Это выборочное распределение выборочного среднего. Кривая тяготеет к кривой нормального распределения, несмотря на то, что в отдельно взятых сэмплах среднее значение может сильно отличаться от "центрального".
Замечательно проиллюстрирован этот принцип на onlinestatbook.com: из генеральной совокупности случайным образом вычленяются равные выборки, и для каждой из них вычисляется среднее. Каждое такое среднее становится элементом третьего графика "Распределение средних", агрегирующего средние значения. В конечном итоге, после 10 тысяч повторений, кривая распределения средних становится нормальной:

Фото: @raphaelfyi