Распределение работников фирмы по размеру заработной платы - файл

приобрести
скачать (342.1 kb.)



2.2. Графическое изображение результатов выборочного наблюдения

Пусть, например, в результате статистического обследования человек работников некоторой фирмы были получены следующие данные относительно размеров их заработной платы, представленные в таблице 2.1.

Таблица 2.1

Распределение работников фирмы по размеру заработной платы



Заработная плата

в $ США,



Количество человек,

Частость



Накопленные частоты,

Относительные накопленные частоты,

190 – 192

1

0,01

1

0,01

192 – 194

5

0,05

6

0,06

194 – 196

9

0,09

15

0,15

196 – 198

22

0,22

37

0,37

198 – 200

28

0,28

65

0,65

200 – 202

19

0,19

84

0,84

202 – 204

11

0,11

95

0,95

204 – 206

4

0,04

99

0,99

206 – 208

1

0,01

100

1,00



100

1

-

-

В таблице 2.1 введены следующие обозначения:



В некоторых случаях таблицу данных дополняют графой, содержащей значения относительных частот или частостей - (графа 3), графой накопленных частот – суммой частот текущего и всех предыдущих интервалов (графа 4) и графой относительных накопленных частот (графа 5).

Изобразим данные таблицы 1.1 в виде гистограммы распределения и полигона частот, а также в виде эмпирической интегральной функции распределения. Построение гистограммы осуществляется по следующим правилам. В прямоугольной системе координат изображают ось абсцисс, на которую наносят значения изучаемого показателя (в данном случае значения размера заработной платы), и ось ординат, на которую наносят количество наблюдений попавших в тот или иной интервал значений изучаемого показателя. В результате вся ось абсцисс будет разбита на ряд непересекающихся интервалов. Над каждым из интервалов построим прямоугольники с высотами, равными количеству значений, попавших в каждый из интервалов. В результате получим столбчатую фигуру, которую принято называть гистограммой. Середины верхних оснований прямоугольников соединим между собой отрезками прямых. В результате будет получена ломаная линия, называемая полигоном частот. Пример построения гистограммы и полигона частот по данным таблицы 2.1 представлен на рисунке 2.1.





Рис.2.1. Полигон частот и гистограмма распределения работников фирмы по размеру з/платы

Построение эмпирической функции распределения осуществляется по следующим правилам. В прямоугольной системе координат по оси абсцисс откладывают значения границ интервалов (в нашем случае 190, 192, и т. д.), а по оси ординат значения, соответствующие сумме частот наблюдений, попавших в данный и все предыдущие интервалы, деленной на общее количество наблюдений. Так, например, для интервала 194 – 196 значение эмпирической интегральной функции распределения будет равно 0,15 (1+5+9)/100, для интервала 196 – 198 равно 0,37 (1+5+9+22)/100 и т. д. График эмпирической функции распределения представлен на рисунке 2.2.





Рис. 2.2. Эмпирическая функция распределения работников фирмы по размеру з/платы
2.3. Расчет выборочных характеристик (описательных статистик) распределения

К наиболее часто применяемым выборочным характеристикам, рассчитываемым для конкретной выборки, традиционно относят показатели центра группирования, показатели вариации, а также показатели формы распределения.

Для характеристики центра группирования выборки используются выборочные среднее арифметическое, мода, медиана. В дальнейшем все характеристики, рассчитанные по выборочным данным, будем называть выборочными характеристиками или оценками аналогичных теоретических характеристик. Если выборочные данные представлены в виде интервального ряда распределения, то выборочное среднее арифметическое рассчитывается по следующей формуле:

, (2.1)

где - середина - го интервала; - частота наблюдений в - м интервале.

Для условий рассматриваемого примера средняя арифметическая заработная плата равна:

,

т.е. средняя заработная плата в данной совокупности составляет 198,96 $. В некоторых случаях расчет среднего арифметического бывает невозможен или нецелесообразен. В данном случае для оценки центра распределения используются мода – значение признака, наиболее часто встречающееся в статистической совокупности, и медиана – значение признака, лежащее в середине ранжированного ряда и делящее этот ряд на две равные части. В случае интервального ряда распределения данные показатели рассчитывают по следующим формулам:

; (2.2)

, (2.3)

здесь , - нижняя граница модального и нижняя граница медианного интервала соответственно; , - ширина модального или медианного интервала соответственно; , , , - частота наблюдений в модальном, предмодальном, следующим за модальным и медианном интервалах соответственно; - сумма частот во всех интервалах, предшествующих медианному.

Рассчитаем значения моды для данных нашего примера. Определим нижнюю границу модального интервала. Модальным считается интервал, имеющий наибольшую частоту. Следовательно, , а модальным является интервал . По данным таблицы 2.1 найдем значения остальных величин, входящих в формулу (2.2): , , , . Подставляя данные значения в (2.2), имеем:

.

Т. е. наиболее часто встречаемая заработная плата составляет в данной совокупности 199,3 $.

Рассчитаем значения медианы для данных нашего примера. Медианным считается интервал, в котором сумма частот впервые превысит половину объема изучаемой выборочной совокупности. По данным таблицы 2.1 легко установить, что , , . Подставляя данные значения в (2.3), имеем:

.

Видно, что в данной выборке значения медианы и средней арифметической оказались равны между собой.

В общем случае расчет таких показателей, как мода и медиана, имеет смысл для выборок, распределение которых является асимметричным. В случае симметричных распределений выборки все три показателя равноправны, т. к. в таких рядах .

Характеристика ряда распределения только с помощью выборочного среднего арифметического, выборочных моды или медианы является недостаточной, т. к. эти показатели не дают полной информации относительно разброса (вариации) индивидуальных значений исследуемой выборки относительно центра группирования. Для характеристики вариации значений признака используются следующие показатели: размах вариации; выборочное среднее линейное отклонение; выборочная дисперсия; выборочное среднеквадратическое отклонение; квартильное отклонение; выборочный коэффициент вариации.

Размах вариации представляет собой разность между максимальным и минимальным значением признака в изучаемой выборочной совокупности:



. (2.4)

При простоте расчета данный показатель обладает недостатком, связанным с тем, что он учитывает вариацию только крайних значений выборки и не учитывает вариацию всех остальных членов изучаемой совокупности. Для нашего примера размах вариации равен:

рублей.

Более точно вариацию характеризуют показатели среднего линейного отклонения, среднего квадратического отклонения и дисперсии, так как учитывают вариацию всех значений в исследуемой совокупности.

Выборочное среднее линейное отклонение в случае интервального ряда рассчитывается по следующей формуле:



. (2.5)

Выборочная дисперсия - средняя из квадратов отклонений значений признака от их средней величины. В случае интервального ряда распределения дисперсия рассчитывается по следующей формуле:



. (2.6)

Выборочное среднее квадратическое отклонение представляет собой квадратный корень из дисперсии и соответственно равно:



.1 (2.7)

Для расчета вышеперечисленных показателей по данным рассматриваемого примера составим вспомогательную таблицу 2.2, данные из которой будем использовать для дальнейших расчетов.

Таблица 2.2



Вспомогательная таблица для расчета характеристик вариации















190-192

1

191

191

7,96

7,96

63,3616

192-194

5

193

965

5,96

29,8

177,608

194-196

9

195

1755

3,96

35,64

141,1344

196-198

22

197

4334

1,96

43,12

84,5152

198-200

28

199

5572

0,04

1,12

0,0448

200-202

19

201

3819

2,04

38,76

79,0704

202-204

11

203

2233

4,04

44,44

179,5376

204-206

4

205

820

6,04

24,16

145,9264

206-208

1

207

207

8,04

8,04

64,6416



100




19896




233,04

935,84

По данным таблицы 2.2 определяем значения искомых параметров:



;

;

.

Дисперсия и среднеквадратическое отклонение являются показателями, наиболее часто используемыми в статистических исследованиях. Однако в некоторых случаях расчет данных показателей является затруднительным (например, когда в качестве оценки центра распределения используется мода или медиана). В данном случае в качестве показателя, характеризующего вариацию в изучаемой совокупности, может использоваться т. н. квартильное отклонение, представляющее собой полуразность третьей и первой квартилей:

, (2.8)

где - первая и третья квартиль исследуемой совокупности соответственно.

Под квартилями понимаются такие значения признака, которые делят всю исследуемую совокупность на четыре равные части. Таким образом, 25% значений исследуемей совокупности расположены левее первой квартили, 50% значений исследуемей совокупности расположены левее второй квартили (т.е. вторая квартиль численно равна медиане), 75 % значений исследуемой совокупности расположены левее третьей квартили.

Общая формула для расчета квартилей может быть записана следующим образом:

, (2.9)

здесь - нижняя граница - го квартильного интервала; - ширина - го квартильного интервала; - частота в - м квартильном интервале; - сумма частот во всех интервалах, предшествующих квартильному.

Определим значение первой и третьей квартили, используя данные таблицы 2.1:



;

.

Таким образом, квартильное отклонение равно:



.

Перечисленные показатели вариации являются абсолютными и поэтому при сравнении вариации в различных статистических совокупностях иногда бывают неудобными, т. к. могут принимать любые значения в зависимости от единиц измерения рассматриваемого признака. Поэтому в практике статистических исследований анализ вариации дополняют расчетом следующих относительных показателей:

; (2.10)

; (2.11)

; (2.12)

. (2.13)

Для данных, приведенных в таблице 2.1, значения данных показателей равны:

; ;

; .

Из всех рассчитываемых показателей наибольшее распространение имеет выборочный коэффициент вариации, который чаще всего используют для характеристики однородности исследуемой совокупности. Если данный показатель менее 0,3, то исследуемая совокупность считается однородной.

Для расчета показателей формы распределения, к которым традиционно относят показатели асимметрии и эксцесса, предварительно дадим понятие выборочных моментов распределения.

Моментом распределения порядка относительно начала отсчета или начальным моментом порядка называется среднее арифметическое - х степеней индивидуальных значений статистической совокупности. Для данных, представленных в виде интервального ряда распределения, начальные моменты рассчитываются по следующей формуле:

. (2.14)

Центральным моментом распределения порядка называется среднее арифметическое - х степеней разностей наблюдаемых значений и средней арифметической:

. (2.15)

Введенные понятия используются для расчетов показателей формы выборочного распределения – асимметрии и эксцесса. Наиболее распространенными являются следующие формулы расчета данных показателей:

; (2.16)

. (2.17)

Показатель асимметрии характеризует симметричность распределения. То, насколько велика асимметрия, оценивается с помощью среднеквадратической ошибки асимметрии:

. (2.18)

Показатель эксцесса характеризует т. н. плосковершинность или островершинность распределения. То, насколько велик эксцесс, оценивается с помощью среднеквадратической ошибки эксцесса:

. (2.19)

Если выполняются соотношения:



; , (2.20)

то асимметрия и эксцесс признаются существенными, в противном случае они признаются несущественными и их наличие может быть объяснено случайными причинами.

Рассчитаем значения асимметрии и эксцесса по данным, представленным в таблице 2.1. Для расчета данных величин составим вспомогательную таблицу 2.3.

Таблица 2.3



Вспомогательная таблица для расчета выборочных моментов











190-192

1

191

-504,358

4014,692

192-194

5

193

-1058,54

6308,92

194-196

9

195

-558,892

2213,213

196-198

22

197

-165,65

324,6736

198-200

28

199

0,001792

7,17E-05

200-202

19

201

161,3036

329,0594

202-204

11

203

725,3319

2930,341

204-206

4

205

881,3955

5323,629

206-208

1

207

519,7185

4178,536



100




0,3072

25623,06

Используя данные таблицы 2.3, рассчитаем значения искомых показателей:

;

.

Среднеквадратические ошибки данных величин, рассчитанные по формулам (2.18, 2.19), составили соответственно , . Отношения (2.20, 2.21) составили соответственно и , следовательно, асимметрия и эксцесс могут быть признаны несущественными.

2.4. Проверка статистических гипотез относительно закона распределения генеральной совокупности. Интервальные оценки параметров распределения генеральной совокупности



Исследование распределения выборки, как уже было сказано выше, преследует цель перенесения выводов, сделанных по результатам выборочного наблюдения, на всю (возможно, бесконечно большую) генеральную совокупность. Одной из основных задач, которую необходимо решить для достижения поставленной цели, является задача оценки соответствия распределения выборки какому-либо теоретическому закону распределения, оценивания параметров распределения генеральной совокупности и проверка статистических гипотез относительно данных параметров.

Оценка степени соответствия распределения выборки какому-либо теоретическому закону распределения проводится с использованием специальных критериев, которые принято называть критериями согласия. Наиболее распространенным из данных критериев является критерий Пирсона (читается хи – квадрат). Алгоритм использования данного критерия состоит в осуществлении следующих процедур:

  1. Выдвигается статистическая гипотеза : выборка извлечена из генеральной совокупности, имеющей распределение с функцией 2, где - параметры распределения, значения которых являются заранее неизвестными, и назначается уровень значимости 3 , на котором будет проверяться данная гипотеза.

  2. Неизвестные параметры заменяются их выборочными оценками.

  3. Весь объем наблюдений разбивают на непересекающихся интервалов , , … , и подсчитывают количество значений в каждом - м интервале.

  4. Зная закон распределения и выборочные оценки его параметров, оценивают вероятность попадания случайно отобранной единицы в - й интервал по известной формуле:

. (2.21)

  1. Зная вероятности и объем выборки , рассчитывают значения теоретических частот (или частот, которые были бы зафиксированы в выборке, если бы она в точности подчинялась гипотетическому закону распределения). При этом если в каком-либо из интервалов , то данные интервалы объединяют с соседними так, чтобы в итоге для каждого интервала теоретическая частота была более . Новое число интервалов обозначим ;

  2. Рассчитывают меру расхождения между ожидаемыми и наблюдаемыми частотами в следующем виде:

. (2.22)

При выполнении гипотезы распределение величины будет -распределению с степенями свободы. В случае если величина окажется меньше критической границы распределения, соответствующего выбранному заранее уровню значимости :

, (2.23)

то гипотезу принимают и считают, что расхождение между теоретическим и эмпирическим распределением является статистически незначимым.

Рассмотрим применение критерия для данных рассматриваемого примера. Форма гистограммы, полигона частот, эмпирической функции распределения, близость моды, медианы и выборочного среднего арифметического, а также несущественность асимметрии и эксцесса распределения выборки позволяют выдвинуть гипотезу : выборка извлечена из генеральной совокупности, подчиняющейся нормальному закону распределения случайных величин с функцией плотности распределения:

. (2.24)

Назначим уровень значимости для проверки гипотезы . Закон нормального распределения имеет два параметра: - математическое ожидание и - среднеквадратическое отклонение, следовательно, необходимо найти оценки данных величин. Наиболее часто в качестве оценок данных параметров принимаются соответственно выборочное среднее арифметическое и выборочное среднеквадратическое отклонение .

Как известно, вероятность того, что случайная величина, подчиняющаяся закону нормального распределения, при испытаниях попадет в интервал , вычисляется по следующей формуле:

, (2.25)

где - нормированная функция Лапласа, значения которой для различных приведены в приложении 1. Заменив в (2.25) величины и их выборочными оценками и , рассчитаем значения вероятностей для соответствующих интервалов4. Так, например, для первого интервала находим:



.

Вычисленные таким образом вероятности заносим в графу 4 таблицы 2.4. Далее в графу 5 таблицы 2.4 для каждого интервала заносим теоретические частоты , а в графу 6 расхождения между теоретическими и наблюдаемыми частотами, вычисленные по формуле (2.22). При этом интервалы 1 – 2 и 9 – 10 были объединены с соседними ввиду того, что в них .

В последней строке шестой графы проставлен итог, который и равен расчетному значению критерия . Таким образом:

.
Таблица 2.4

Вспомогательная таблица для расчета критерия согласия



№ п/п

Интервал

значений


Частота







1

190 – 192

1

5

9





0,0100

1,00

3,85


11,02


0,048


2

192 – 194

0,0385

3

194 – 196

0,1102

4

196 – 198

22

0,2120

21,20

0,03

5

198 – 200

28

0,2586

25,86

0,18

6

200 – 202

19

0,2120

21,20

0,23

7

202 – 204

11

4

1





0,1102

11,02

3,85


1,00


0,001


8

204 – 206

0,0385

9

206 – 208

0,0100












0,489

Вновь образованное количество интервалов . Число параметров нормального распределения, оцениваемых по выборке , следовательно, число степеней свободы величины равно . По таблице значений критических границ распределения (приложение 3) находим, что правосторонняя критическая граница распределения с двумя степенями свободы, соответствующая , равна:



.

Сравнивая расчетное и критическое значение критерия, можно сделать вывод, что:



,

следовательно, гипотеза о принадлежности выборки нормальному закону распределения не отвергается на уровне значимости .

Принятая гипотеза дает возможность указать доверительные интервалы с принятым уровнем доверительной вероятности для параметров распределения генеральной совокупности. В частности, если установлено, что генеральная совокупность подчиняется закону нормального распределения и объем выборки превышает 30 единиц, то доверительные интервалы для параметра с уровнем доверительной вероятности бесконечно большой генеральной совокупности приобретают следующий вид:

, (2.26)

где - двусторонняя критическая граница нормального распределения, соответствующая вероятности , которая может быть найдена из следующего соотношения:

, (2.27)

где - нормированная функция Лапласа (приложение 1).

Дадим интервальную оценку с уровнем доверительной вероятности 0,95 параметра для условий рассматриваемого примера. По таблице приложения 1 находим, что значению 0,95/2=0,475 соответствует значение . Подставляя найденные значения , , и в (2.26), получаем доверительный интервал для параметра в виде:

;

.

Полученный результат говорит о том, что указанный интервал с вероятностью 0,95 содержит в себе значение средней заработной платы всей генеральной совокупности.

Интервальная оценка параметра или нормального распределения рассчитывается с использованием критических границ распределения с степенью свободы при уровне доверительной вероятности по следующей формуле:

, (2.28)

где , - верхняя и нижняя граница распределения, соответствующие уровню доверительной вероятности . При больших значениях значения данных величин могут быть найдены с помощью формулы Уилсона-Гилферти:

, (2.29)

причем для расчета верхней критической границы в (2.29) необходимо принять знак +, для расчета нижней критической границы – знак .

Рассчитаем доверительные интервалы для параметра для условий рассматриваемого примера. По формуле (2.29) рассчитываем значения критических границ распределения:

;

.

Подставляя полученные значения в формулу (2.29), получаем доверительный интервал для параметра с уровнем доверительной вероятности 0,95:

;

.

Полученный результат говорит о том, что данный интервал с вероятностью 0,95 будет содержать в себе значение дисперсии заработной платы всей генеральной совокупности.

Задание


к теме "Выборочное наблюдение".

Для своего варианта исходных данных, представленных в виде интервального ряда распределения:



2.2. Графическое изображение результатов выборочного наблюдения
Учебный материал
© nashaucheba.ru
При копировании укажите ссылку.
обратиться к администрации