Эмпирическая функция распределения в excel как построить
Перейти к содержимому

Эмпирическая функция распределения в excel как построить

  • автор:

Задание 3. Эмпирическая функция распределения.

Построить график эмпирической функции распределения с подогнанной ожидаемой функцией распределения.

Теоретические основы.

См. стр. 31-32 пособия [4].

Вычисления.

Если попытаться построить ЭФР средствами Excel, упорядочив сначала данные и сопоставив затем каждому упорядоченному значению x(k) значение , то вместо горизонтальных получим наклонные ступеньки. Чтобы избежать этого недостатка, можно каждое значение вариационного ряда повторить дважды, при этом первому из этих значений сопоставить ЭФР, а второму .

Вычисление нормальной функции распределения описано ниже в главе “Встроенные функции Excel”. Здесь кратко только скажем, что для этого можно использовать функцииНОРМРАСПиНОРМСТРАСПиз категории “Статистические”.

Функция распределения экспоненциального закона вычисляется с помощью простой функции EXP.

Кроме того, предполагается, что уже вычислены среднее значение и дисперсия выборки (задание 1).

Пример.

Порядок вычислений.

  1. Скопировать исходные данные в буфер обмена;
  2. перейти на лист “ЭФР” и, установив курсор в ячейку A3, вставить данные из буфера обмена;
  3. повторить процесс восстановления данных, начиная с ячейки A104
  • установить курсор в ячейку A104;
  • вставить данные из буфера обмена
  1. – всего получится 202 значения с 3-й по 204-ю ячейки;
  1. упорядочить значения в столбце A
  • кликнуть мышкой по кнопке ;
  1. ввести в ячейку B3 формулу
  • =(СТРОКА(B3)-1)/202-1/101
  1. – функция «СТРОКА» возвращает номер строки указанного аргумента, то есть в данном случае в ячейке B3 получится значение (3-1)/202-1/101 = 0;
  1. ввести в ячейку B4 формулу
  • =(СТРОКА(B3)-1)/202
  1. – получится значение (3-1)/202 = 1/101;
  1. выделить обе ячейки B3 и B4 и скопировать их параллельно всем данным до ячейки B204
  1. – в последней ячейке должно получиться значение 1;
  1. добавить в ячейку A2 значение, на единицу меньшее значения ячейки A3 и сопоставить ему значение 0 в ячейке B2;
  2. добавить в ячейку A205 значение, на единицу большее значения ячейки A204 и сопоставить ему значение 1 в ячейке B205.

Ввести формулы вычисления нормального распределения:

  1. в ячейки F4, F5 (те, которые скрыты графиком) скопировать среднее и стандартное отклонение, соответственно
  • =МОМЕНТЫ!B4
  • =МОМЕНТЫ!B6
  1. в ячейку C2 ввести формулу нормального распределения
  • =НОРМРАСП(A2;$F$4;$F$5;1)
  1. в ячейку D2 ввести формулу вычисления расхождения между ЭФР и ожидаемой функцией распределения
  • =ABS(C2-B2)
  1. скопировать обе ячейки C2 и D2 вплоть до 205-й строки;
  2. вычислить максимальное расхождение, например, в ячейке F6
  • =МАКС(D2:D205)

Теперь уже можно рисовать графики:

  1. выделить все значения в ячейках A2:C205;
  2. вызвать “Мастера Диаграмм”;
  3. выбрать «Точечную» диаграмму – без маркеров со сглаживающей линией (третья по порядку среди точечных диаграмм);
  4. при выборе представления диаграммы, после двух нажатий кнопки , удалить “Легенду” и добавить “Заголовок по оси Х”:
  • МАКСИМАЛЬНОЕ РАСХОЖДЕНИЕ D=…
  1. (указав здесь полученное значение Δ из ячейки F6);
  1. ;
  2. установить параметры диаграммы, как в примере.

Замечание. Если бы параметры нормальной модели не оценивались по выборочным данным, а были бы в точности равны этим оценкам, то при полученном здесь расхождении Δ=0,097 гипотезу нормальности следовало бы принять с критическим уровнем значимости > 0,20 (см. таблицу 6.2 сборника таблиц [1]). Это надо воспринимать как хороший знак и не более того. Если неизвестные значения параметров оцениваются по выборке, то критический уровень значимости становится зависящим от неизвестных параметров и трудно ожидать, что даже в предположениях гипотезы критерий будет иметь приемлемый размер. Контрольные вопросы.

  1. Сформулируйте статистическую задачу.
  2. Что такое вариационный ряд?
    1. 31.
  3. Дайте определение эмпирической функции распределения?
    1. 31.
  4. Почему некоторые ступеньки ЭФР высокие, а некоторые низкие?
    1. 31.
  5. Почему одни ступеньки ЭФР длинные, а другие короткие?
    1. 31.
  6. Постройте ЭФР по следующим данным: 1; 2; 1; 3; 1; 5; 1; 3.
  7. Выпишите формулу для функции распределения нормального закона (равномерного, экспоненциального).
    1. 16-21.
  8. Можно ли утверждать, что ЭФР является состоятельной оценкой истинной функции распределения? Что сие означает?
    1. 31.
  9. Можно ли утверждать, что ЭФР является несмещенной оценкой истинной функции распределения? Что сие означает?
    1. 31.
  10. Докажите несмещенность ЭФР.
  11. Можно ли по значению максимального расхождения между ЭФР и ожидаемой функцией распределения принять или отвергнуть гипотезу о виде истинной функции распределения?
    1. 32.

2.1.2. Эмпирическая функция распределения

Это статистический аналог функции распределения из теорвера. Данная функция определяется, как отношение:
, где – количество вариант СТРОГО МЕНЬШИХ, чем ,
при этом «икс» «пробегает» все значения от «минус» до «плюс» бесконечности.

Построим эмпирическую функцию распределения для нашей задачи. Чтобы было нагляднее, отложу варианты и их количество на числовой оси:

На интервале – по той причине, что левее ЛЮБОЙ точки этого интервала вариант нет. Кроме того, функция равна нулю ещё и в точке . Почему? Потому, что значение определяет количество вариант (см. определение), которые СТРОГО меньше двух, а это количество равно нулю.

На промежутке – и опять обратите внимание, что значение не учитывает рабочих 3-го разряда, т.к. речь идёт о вариантах, которые СТРОГО меньше трёх (по определению).

На промежутке – и далее процесс продолжается по принципу накопления частот:
– если , то ;
– если , то ;
– и, наконец, если , то – и в самом деле, для ЛЮБОГО «икс» из интервала ВСЕ частоты расположены СТРОГО левее этого значения «икс» (см. чертёж выше).

Накопленные относительные частоты удобно заносить в отдельный столбец таблицы, при этом алгоритм вычислений очень прост: сначала сносим слева частоту (красная стрелка), и каждое следующее значение получаем как сумму предыдущего и относительной частоты из текущего левого столбца (зелёные обозначения):

Вот ещё, кстати, один довод за вертикальную ориентацию данных – справа по надобности можно приписывать дополнительные столбцы.

Построенную функцию принято записывать в кусочном виде:

а её график представляет собой ступенчатую фигуру:

Эмпирическая функция распределения не убывает и принимает значения лишь из промежутка , и если у вас вдруг получится что-то не так, то ищите ошибку.

Теперь смотрим видео, о том, как построить эту функцию в Экселе (Ютуб).

И, конечно, вспомним основной метод математической статистики. Эмпирическая функция распределения строится по выборке и приближает теоретическую функцию распределения . Легко догадаться, что последняя появляется в результате исследования всей генеральной совокупности, но если рабочих в цехе ещё пересчитать можно, то звёзды на небе – уже вряд ли. Вот поэтому и важнА функция эмпирическая, и ещё важнее, чтобы выборка была репрезентативна, дабы приближение было хорошим.

Миниатюрное задание для закрепления материала:

Пример 5

Дано статистическое распределение совокупности:

Составить эмпирическую функцию распределения, выполнить чертёж

Решаем самостоятельно – все числа уже в Экселе! Свериться с образцом можно в конце книги. По поводу красоты чертежа сильно не запаривайтесь, главное, чтобы было правильно – этого обычно достаточно для зачёта.

Функция распределения и плотность вероятности в EXCEL

Даны определения Функции распределения случайной величины и Плотности вероятности непрерывной случайной величины. Эти понятия активно используются в статьях о статистике сайта www.excel2.ru . Рассмотрены примеры вычисления Функции распределения и Плотности вероятности с помощью функций MS EXCEL .

Введем базовые понятия статистики, без которых невозможно объяснить более сложные понятия.

Генеральная совокупность и случайная величина

Пусть у нас имеется генеральная совокупность (population) из N объектов, каждому из которых присуще определенное значение некоторой числовой характеристики Х.

Примером генеральной совокупности (ГС) может служить совокупность весов однотипных деталей, которые производятся станком.

Поскольку в математической статистике, любой вывод делается только на основании характеристики Х (абстрагируясь от самих объектов), то с этой точки зрения генеральная совокупность представляет собой N чисел, среди которых, в общем случае, могут быть и одинаковые.

В нашем примере, ГС — это просто числовой массив значений весов деталей. Х – вес одной из деталей.

Если из заданной ГС мы выбираем случайным образом один объект, имеющей характеристику Х, то величина Х является случайной величиной . По определению, любая случайная величина имеет функцию распределения , которая обычно обозначается F(x).

Функция распределения

Функцией распределения вероятностей случайной величины Х называют функцию F(x), значение которой в точке х равно вероятности события X файл примера ):

В справке MS EXCEL Функцию распределения называют Интегральной функцией распределения ( Cumulative Distribution Function , CDF ).

Приведем некоторые свойства Функции распределения:

  • Функция распределения F(x) изменяется в интервале [0;1], т.к. ее значения равны вероятностям соответствующих событий (по определению вероятность может быть в пределах от 0 до 1);
  • Функция распределения – неубывающая функция;
  • Вероятность того, что случайная величина приняла значение из некоторого диапазона [x1;x2): P(x 1 =0. Следовательно, плотность вероятности для непрерывной величины может быть, в отличие от Функции распределения, больше 1. Например, для непрерывной равномерной величины , распределенной на интервале [0; 0,5] плотность вероятности равна 1/(0,5-0)=2. А для экспоненциального распределения с параметром лямбда =5, значение плотности вероятности в точке х=0,05 равно 3,894. Но, при этом можно убедиться, что вероятность на любом интервале будет, как обычно, от 0 до 1.

Напомним, что плотность распределения является производной от функции распределения , т.е. «скоростью» ее изменения: p(x)=(F(x2)-F(x1))/Dx при Dx стремящемся к 0, где Dx=x2-x1. Т.е. тот факт, что плотность распределения >1 означает лишь, что функция распределения растет достаточно быстро (это очевидно на примере экспоненциального распределения ).

Примечание : Площадь, целиком заключенная под всей кривой, изображающей плотность распределения , равна 1.

Примечание : Напомним, что функцию распределения F(x) называют в функциях MS EXCEL интегральной функцией распределения . Этот термин присутствует в параметрах функций, например в НОРМ.РАСП (x; среднее; стандартное_откл; интегральная ). Если функция MS EXCEL должна вернуть Функцию распределения, то параметр интегральная , д.б. установлен ИСТИНА. Если требуется вычислить плотность вероятности , то параметр интегральная , д.б. ЛОЖЬ.

Примечание : Для дискретного распределения вероятность случайной величине принять некое значение также часто называется плотностью вероятности (англ. probability mass function (pmf)). В справке MS EXCEL плотность вероятности может называть даже «функция вероятностной меры» (см. функцию БИНОМ.РАСП() ).

Вычисление плотности вероятности с использованием функций MS EXCEL

Понятно, что чтобы вычислить плотность вероятности для определенного значения случайной величины, нужно знать ее распределение.

Найдем плотность вероятности для стандартного нормального распределения N(0;1) при x=2. Для этого необходимо записать формулу =НОРМ.СТ.РАСП(2;ЛОЖЬ) =0,054 или =НОРМ.РАСП(2;0;1;ЛОЖЬ) .

Напомним, что вероятность того, что непрерывная случайная величина примет конкретное значение x равна 0. Для непрерывной случайной величины Х можно вычислить только вероятность события, что Х примет значение, заключенное в интервале (а; b).

Вычисление вероятностей с использованием функций MS EXCEL

1) Найдем вероятность, что случайная величина, распределенная по стандартному нормальному распределению (см. картинку выше), приняла положительное значение. Согласно свойству Функции распределения вероятность равна F(+∞)-F(0)=1-0,5=0,5.

В MS EXCEL для нахождения этой вероятности используйте формулу =НОРМ.СТ.РАСП(9,999E+307;ИСТИНА) -НОРМ.СТ.РАСП(0;ИСТИНА) =1-0,5. Вместо +∞ в формулу введено значение 9,999E+307= 9,999*10^307, которое является максимальным числом, которое можно ввести в ячейку MS EXCEL (так сказать, наиболее близкое к +∞).

2) Найдем вероятность, что случайная величина, распределенная по стандартному нормальному распределению , приняла отрицательное значение. Согласно определения Функции распределения, вероятность равна F(0)=0,5.

В MS EXCEL для нахождения этой вероятности используйте формулу =НОРМ.СТ.РАСП(0;ИСТИНА) =0,5.

3) Найдем вероятность того, что случайная величина, распределенная по стандартному нормальному распределению , примет значение, заключенное в интервале (0; 1). Вероятность равна F(1)-F(0), т.е. из вероятности выбрать Х из интервала (-∞;1) нужно вычесть вероятность выбрать Х из интервала (-∞;0). В MS EXCEL используйте формулу =НОРМ.СТ.РАСП(1;ИСТИНА) — НОРМ.СТ.РАСП(0;ИСТИНА) .

Все расчеты, приведенные выше, относятся к случайной величине, распределенной по стандартному нормальному закону N(0;1). Понятно, что значения вероятностей зависят от конкретного распределения. В статье Распределения случайной величины в MS EXCEL приведены распределения, для которых в MS EXCEL имеются соответствующие функции, позволяющие вычислить вероятности.

Обратная функция распределения (Inverse Distribution Function)

Вспомним задачу из предыдущего раздела: Найдем вероятность, что случайная величина, распределенная по стандартному нормальному распределению, приняла отрицательное значение.

Вероятность этого события равна 0,5.

Теперь решим обратную задачу: определим х, для которого вероятность, того что случайная величина Х примет значение =НОРМ.СТ.ОБР(0,5) =0.

Однозначно вычислить значение случайной величины позволяет свойство монотонности функции распределения.

Обратите внимание, что для вычисления обратной функции мы использовали именно функцию распределения , а не плотность распределения . Поэтому, в аргументах функции НОРМ.СТ.ОБР() отсутствует параметр интегральная , который подразумевается. Подробнее про функцию НОРМ.СТ.ОБР() см. статью про нормальное распределение .

Обратная функция распределения вычисляет квантили распределения , которые используются, например, при построении доверительных интервалов . Т.е. в нашем случае число 0 является 0,5-квантилем нормального распределения . В файле примера можно вычислить и другой квантиль этого распределения. Например, 0,8-квантиль равен 0,84.

В англоязычной литературе обратная функция распределения часто называется как Percent Point Function (PPF).

Примечание : При вычислении квантилей в MS EXCEL используются функции: НОРМ.СТ.ОБР() , ЛОГНОРМ.ОБР() , ХИ2.ОБР(), ГАММА.ОБР() и т.д. Подробнее о распределениях, представленных в MS EXCEL, можно прочитать в статье Распределения случайной величины в MS EXCEL .

Статистические функции в Excel

1. Определить выборочные оценки числовых характеристик случайной величины.
Для нахождения выборочных оценок скопируем данные задачи в один столбец таблицы MS Excel . Выделите полученный столбец и на панели инструментов щелкните на кнопку Сортировка и фильтр . В появившемся окошке нажмите сортировку от А до Я. В выделенном столбце значения упорядочатся от наименьшего к наибольшему.
Проанализируем данные с помощью описательной статистики. Для этого на вкладке Данные в группе Анализ щелкните на кнопку Анализ данных . Откроется диалоговое окно Анализ данных.
Выберите инструмент Описательная статистика и щелкните на кнопке Ок . Откроется диалоговое окно Описательная статистика.

Щелкните на поле Входной интервал и выделите ячейки А1:А100.
В поле Входной интервал отобразится диапазон $A1:$A100.
Выберите флажок Итоговая статистика. Щелкните на кнопке Ок.
Будет создан новый лист с итоговой статистикой по выбранным данным.

В рассматриваемом случае As=-0,06, Ex=-0,19, что свидетельствует о распределении, близком к нормальному. 2. Построить вариационный ряд, или ряд распределений и гистограмму для него.
Как видно в итоговой статистике, все возможные значения данного распределения укладываются в интервал 3σ.
Действительно, x =69,43; 3σ=27,3; ( x -3σ; x +3σ) = (41,13; 96,73)
Размах выборки 43,6. Разбиваем данный ряд на 7 интервалов длины 43,6: 7≈6,2.
Составим таблицу ряда распределений: Таблица 1.

Чтобы создать диаграмму, выберите нужные данные таблицы (границы интервала и число наблюдений в интервале) и на вкладке Вставка в группе Диаграммы щелкните на типе диаграммы. Появится список доступных подтипов диаграмм. При щелчке на подтипе диаграммы будет создана диаграмма с макетом и цветовой схемой по умолчанию, определенными в теме оформления книги.

3. Определить теоретическую функцию распределения, её параметры. Выполнить сравнительный графический анализ формы эмпирического и теоретического распределений.
Для построения графика теоретической функции распределения построим вспомогательную таблицу: Таблица 2.

Середина интервала Значение функции Гаусса Теоретическая вероятность
50,5 0,005055791 0,003440824
56,7 0,01649618 0,011226818
62,9 0,033870577 0,023051325
69,1 0,043762967 0,029783797
75,3 0,035582452 0,024216378
81,5 0,018205807 0,012390341
87,7 0,005861772 0,003989351

Середины интервала скопируем из таблицы 1. Значение функции Гаусса вычислим с помощью встроенной в Excel статистической функции НОРМ.РАСП. Для этого на вкладке Формулы щелкаем на кнопку Другие функции – выбираем Статистические и, среди них находим НОРМ.РАСП . Откроется следующее окно:

В открывшемся окне в поле X указываем на ячейку со значением середины интервала, в поле Среднее указываем среднее значение, полученное в первом пункте работы с помощью описательной статистики, в поле Стандартное_откл – стандартное отклонение, найденное также с помощью описательной статистики. В поле Интегральная – ЛОЖЬ, так как ищем функцию плотности вероятности и нажимаем ОК.
Теоретическая вероятность вычисляется по формуле:

В таблице 2 выделяем последний столбец и строим график теоретической вероятности. Для этого на вкладке Вставка в группе График щелкните на типе графика. Появится список доступных подтипов графиков. При щелчке на подтипе графика будет создан график с макетом и цветовой схемой по умолчанию, определенными в теме оформления книги.
Изначально на горизонтальной оси обозначены номера интервалов. Правой кнопкой мыши щелкаем на эту ось и нажимаем на Выбрать данные . Меняем подпись горизонтальной оси, указывая первый столбец таблицы 2. Нажимая на график правой кнопкой мыши можно поменять цвет графика.

А теперь выполним сравнительный графический анализ формы эмпирического и теоретического распределений построением графика теоретической вероятности на гистограмме частот.
Для этого построим гистограмму частостей на интервалах. Щелкнем правой кнопкой мыши в поле гистограммы и нажмем на кнопку Выбрать данные . В открывшемся окне в левом столбце Элементы легенды нажмем кнопку Добавить . Откроется окно Изменение ряда . Имя ряда: укажем на ячейку Теоретическая вероятность, значения: выделим соответствующую строку. После нажатия Ок появится гистограмма теоретических вероятностей. Укажем на неё правой кнопкой мыши и выберем Изменить тип диаграммы для ряда, выбрав график. Также поменяем цвет нового графика.
4.Проверка согласованности теоретического и эмпирического распределений.
Схема применения критерия Χ 2 для проверки гипотезы H0 о соответствии эмпирического ряда нормальному закону распределения, сводится к следующему.
1) Определяется мера расхождения эмпирических и теоретических частот Χ 2 по формуле .
Для этого в свободной ячейке нажмем на вкладке Формулы выберем Статистические и, среди них ХИ2.ТЕСТ. Откроется следующее окно:

В строке Фактический интервал укажем столбец с частостями из таблицы1. В строке Ожидаемый интервал укажем столбец с теоретическими вероятностями из таблицы2. Нажимая на кнопку Ок, получим наблюдаемое значение Χ 2 .
2) Для выбранного уровня значимости α находим критическое значение Χ 2 при числе свободы k-r-1 (в нашем случае для нормального распределения k-3).
Для этого в свободной ячейке нажмем на вкладке Формулы кнопку Другие функции и выбираем Статистические .Среди них ̶ ХИ2.ОБР.ПХ (так как находим правостороннюю критическую область распределения хи-квадрат). Откроется следующее окно:

В строку Вероятность введем нужное значение (в нашем случае 0,05), в строку Степенисвободы соответствующее число (в нашем случае 4, так как k=7 – число интервалов разбиения). Нажав на Ок получим критическое значение Χ 2 .

Χ 2 набл 0,999998579
Χ 2 критич (при α=0,05, r=7-3=4) 9,487729037

3) Если фактически наблюдаемое значение Χ 2 больше критического, то гипотеза H0 отвергается; если наблюдаемое значение не превосходит критического, то гипотеза H0 не противоречит опытным данным.
Так как, Χ 2 наблкритич, можно считать, что рассматриваемое распределение подчиняется нормальному закону.

Профессии будущего

РБК Тренды изучили прогнозы российских и зарубежных футурологов, и составили список самых востребованных профессий в ближайшие 30 лет. Это профессии из 19 отраслей: от медицины и транспорта до культуры и космоса

Налоговый вычет на обучение

√ 120 тыс. руб. — максимальная сумма расходов на обучение
√ вычет от государства
√ вычет от работодателя

Требуются авторы студенческих работ!

  • регулярный поток заказов;
  • стабильный доход

  • Задать вопрос или оставить комментарий
  • Помощь в решении
  • Поиск
  • Поддержать проект

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *