1 min read

Генеральная совокупность (Population)

Генеральная совокупность (Population)

Генеральная совокупность (совокупность) – это все данные, из которых формируется статистическая Выборка (Sample). Она может относиться к группе людей, событий, явлений и т.д. Иными словами, это коллекция сгруппированных по общему признаку Наблюдений (Observation) за объектами:

Когда из совокупности производится выборка, появляется так называемая Стандартная ошибка (Standard Error), связанная с непроизвольной субъективностью статиста или Дата-сайентиста (Data Scientist) при выполнении Сэмплирования (Sampling). К примеру, алгоритм случайного выбора Тренировочной (Train Data) и Тестовой (Test Data) частей данных создан людьми и является псевдослучайным:

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.33, random_state = 1)

Когда мы работаем с генеральной совокупностью, то в отличие от выборки, не измеряем такую Ошибку (Error) вообще.

Совокупность определяет количество Признаков (Feature), которые используют, чтобы делать выводы о предметах исследования. Например, совокупность данных о количестве новорожденных в СНГ, общее количество технологических стартапов в России, средний рост всех кандидатов в мастера спорта РФ и так далее.

Совокупность можно определить более конкретно, например, количество новорожденных в СНГ с карими глазами, количество стартапов в России, которые потерпели неудачу за последние три года, средний рост всех женщин-кандидаток в мастера спорта РФ.

В большинстве случаев исследователи хотят знать характеристики каждого наблюдения, чтобы сделать наиболее точный вывод. Однако в большинстве случаев это невозможно или непрактично, поскольку совокупность обычно довольно велика. Например, если компания хочет узнать, удовлетворен ли каждый из ее 50 000 клиентов, обслуживаемых в течение года, звонить каждому из клиентов по телефону для проведения опроса может быть сложно, дорого и непрактично. Поскольку характеристики каждого наблюдения в совокупности невозможно измерить из-за ограничений по времени и ресурсам, генерируется выборка.

Параметры совокупности

Статистические данные совокупности, такие как Среднее значение (Average) и Cтандартное отклонение (Standard Deviation), называются параметрами совокупности.

Фото: @amandabereckonedwith