Понятие об ошибке выборки.

Доказано - для экономистов работа с числами очень важный навык. Игоровой тренажер "Продолжи ряд" создан специально для работы с числами в уме. В начале обучения только 2 из 10 проходят тест без ошибок.

Пройти тест

Стандартная ошибка статистики, т.е. оценка стандартного отклонения ее выборочного распределения, приближенно показывает, насколько значение статистики может отличаться от своего среднего значения (параметра генеральной совокупности).

Стандартная ошибка среднего (или просто стандартная ошибка) приближенно показывает, насколько ее выборочная средняя  (случайная наблюдаемая величина) отличается от среднего генеральной совокупности μ (фиксированная неизвестная величина):

                                                              (7.1)

Стандартная ошибка уменьшается с увеличением размера выборки n (при прочих равных условиях), отражая тот факт, что большая по размеру выборка содержит больше информации и таким образом достигается большая точность.

Когда объем генеральной совокупности настолько мал, что выборка составляет достаточно большую часть генеральной совокупности, стандартную ошибку можно уменьшить, введя в формулу корректирующий (поправочный) коэффициент для конечной совокупности, чтобы получить уточненную (откорректированную) стандартную ошибку:

                                                        (7.2)

Кроме того, формулу (7.1) используют повторной выборке, а формулу (7.2) – для бесповторной, однако, если объем выборочной совокупности достаточно большой, то поправочный коэффициент не играет большой роли и стандартная ошибка для бесповторной выборки определяется по формуле (7.1).

Для измерения стандартной ошибки доли альтернативного признака применяют другие формулы. При повторной выборке:

                                                    (7.3)

При бесповторной выборке:

                                                 (7.4)

Теоретическую (идеальную) генеральную совокупность можно определить; как очень большую, иногда предполагаемую (воображаемую) генеральную совокупность, которую представляет ваша выборка. Если вас интересует теоретическая генеральная совокупность, не используйте поправку на конечность генеральной совокупности. С другой стороны, если необходимо сделать вывод об основе выборки, не выходя за ее пределы, то поправка может быть полезной, так как ее использование уменьшает вариацию системы. Если есть сомнения, лучше не использовать поправку.

Стандартная ошибка доли  показывает неопределенность, или изменчивость, в наблюдаемой доле , а стандартная ошибка среднего–неопределенность в наблюдаемой частоте х.

Доверительным интервалом называют интервал, рассчитанный из данных таким образом, что существует известная вероятность включения интересующего вас (неизвестного) параметра генеральной совокупности в интервал, и эта вероятность интерпретируется с точки зрения случайного эксперимента начинающегося с извлечения случайной выборки. Границы доверительного интервала определяются на основе точечной оценки и предельной ошибки выборки, которая равна произведению стандартной ошибки и - критерия Стьюдента. Предельная ошибка выборки показывает максимально возможную ошибку для принятой вероятности, а доверительное число  – как соотносятся предельная и стандартная ошибки.

                                                                            (7.3)

Вероятность того, что параметр совокупности будет принадлежать доверительному интервалу называют уровнем доверительности, который обычно устанавливают равным 95%, хотя часто используют и другие уровни – 90; 99; 99,9%. Чем выше уровень доверительности, тем шире (а значит, и менее полезен) доверительный интервал. Приблизительная обобщенная формулировка утверждения о доверительном интервале имеет следующий вид: мы уверены на 95%, что значение параметра генеральной совокупности находится между значением оценки минус две стандартные ошибки оценки и значением оценки плюс две стандартные ошибки оценки.

Это утверждение основано на том факте, что при нормальном распределении с вероятностью 0,95 следует ожидать значения на расстоянии , т.е. приблизительно два стандартных отклонения от среднего.

Формулировка утверждения о двустороннем 95% доверительном интервале для среднего генеральной совокупности имеет следующий вид:

мы уверены, на 95%, что среднее генеральной совокупности m находится между   и  , где значение t берется из t-таблицы.

                                                        (7.4)

Формулировка утверждения о двустороннем 95% доверительном интервале для генеральной доли имеет следующий вид:

мы уверены на 95%, что доля интересующего нас свойства в генеральной совокупности р находится между   и  , где значение t берется из t-таблицы.

                                                       (7.5)

Чтобы получить доверительный уровень, отличный от 95%, следует просто при построении доверительного интервала использовать соответствующее значение. t-таблицу используют для коррекции дополнительной неопределенности, обусловленной тем, что вместо неизвестного точного значения изменчивости генеральной совокупности используют оценку (стандартную ошибку). Когда вы работаете с бесповторной выборкой размера п, число степеней свободы, равное , представляет собой количество независимых элементов информации, использованных при вычислении стандартной ошибки (поскольку при вычислении стандартного отклонения из наблюдаемых значений вычитают среднее). Если известно точное значение стандартной ошибки, используют t-значение для бесконечного числа степеней свободы.

Для того чтобы использование доверительного интервала было корректным, необходимо выполнение двух следующих условий:

(1) данные должны представлять собой случайную выборку из рассматриваемой генеральной совокупности;

(2) измеренные значения должны подчиняться нормальному распределению.

Первое условие гарантирует, что данные правильно представляют неизвестный параметр, а второе дает основание использовать t-таблицу для вычисления вероятности.

Односторонний доверительный интервал с известной доверительностью указывает, что среднее генеральной совокупности либо не меньше, либо не больше некоторого вычисленного значения. Граничное значение для одностороннего доверительного интервала вычисляется таким же образом, как и для двустороннего интервала, только t-значение для двустороннего интервала заменяется на t-значение для одностороннего интервала и выбирается граничная точка интервала так, чтобы построенный односторонний интервал включал выборочное среднее .

При использовании одностороннего интервала вы должны быть уверены, что независимо от поведения данных вы будете использовать односторонний интервал с той же стороны (т.е. открытый в сторону больших значений или открытый в сторону меньших значений). В противном случае использование одностороннего доверительного интервала некорректно. При наличии сомнений лучше использовать двусторонний интервал. Утверждение об одностороннем доверительном интервале формулируется следующим образом:

мы уверены на 95%, что среднее генеральной совокупности не меньше, чем ; или мы уверены на 95%, что среднее генеральной совокупности не больше, чем .

Интервал предсказания позволяет использовать данные выборки для предсказания с известной вероятностью значения нового наблюдения при условии, что это новое наблюдение получено тем же способом, что и предшествующие. В качестве меры неопределенности здесь используется стандартная ошибка предсказания , мера изменчивости расстояния между средним значением выборки и новым наблюдением. Интервал предсказания строят тем же способом, что и доверительный интервал; просто заменяют стандартную ошибку среднего на, стандартную ошибку предсказания. Формулировка утверждения об интервале предсказания (двустороннем) для значения нового наблюдения будет следующей:

Мы уверены на 95%, что новое наблюдение будет находиться между   и  .

Формулировка утверждения об интервале предсказания (одностороннем) для значения нового наблюдения будет такой:

Мы уверены на 95%, что новое наблюдение будет не меньше, чем ; или мы уверены на 95%, что новое наблюдение будет не больше, чем .

Выбирая соответствующие t-значение из таблицы, интервалы предсказания для уровней доверительности, отличных от 95%, необходимо помнить, что доверительный интервал дает информацию о среднем генеральной совокупности, в то время как интервал предсказания дает информацию о единственном наблюдении, случайно выбранном из той же генеральной совокупности.