Комогорцев В.Ф. Конспект лекций по теории вероятностей и математической статистике - файл n1.doc

Комогорцев В.Ф. Конспект лекций по теории вероятностей и математической статистике
скачать (1174.1 kb.)
Доступные файлы (2):
n1.doc3412kb.30.08.2006 17:03скачать
n2.doc4096kb.30.08.2006 16:27скачать

n1.doc

  1   2   3   4   5   6   7   8   9   10



Часть II
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

_______________________________


Математическая статистика – это прикладная, практическая наука, изучающая большие совокупности однотипных объектов (предметов, живых существ, чисел и т.д.) выборочно. В 19-ом веке она выделилась из теории вероятностей и с тех пор считается самостоятельной наукой.

Математическая статистика пользуется методами различных разделов математики. Но в первую очередь она пользуется методами теории вероятностей, которая служит для неё основной теоретической базой.


§1. Генеральная совокупность и выборка.

Пусть имеется большая совокупность однотипных объектов (зёрен в ворохе зерна, деревьев в лесу, жителей в стране, предметов массового производства, и т.д.), подлежащая изучению. При этом предметом изучения являются какие-то качественные или количественные параметры объектов, составляющих данную совокупность (скажем, пригодность объектов к использованию, их вес, сорт, размер, и т.д.), законы распределения этих параметров и многое другое (об этом конкретнее будет сказано позже).

Исходная совокупность объектов называется генеральной совокупностью, а число N объектов этой совокупности (обычно очень большое и точно не известное) называется объёмом генеральной совокупности.

Произвести сплошное обследование (обследование всех объектов) генеральной совокупности, в силу её огромного объёма, не представляется возможным. А если это обследование связано с порчей или даже уничтожением обследуемых объектов (скажем, нас интересует сила, при действии которой объект ломается), то оно и бессмысленно (исследовать все объекты генеральной совокупности – это значит все их переломать). Поэтому изучают только небольшую, случайно отобранную, часть этой совокупности (горсть зёрен из вороха, небольшую часть деревьев леса, случайно отобранных жителей страны, небольшую партию предметов массового производства, и т.д.).

Отобранная совокупность объектов называется выборочной совокупностью или, короче, выборкой. Количество n объектов, попавших в выборку, называется объёмом выборки. Как правило, объём n выборки много меньше объёма N генеральной совокупности (n « N ). Объекты выборки подвергаются сплошному обследованию, а затем, по результатам этого обследования, делаются определенные выводы и обо всей генеральной совокупности.

Естественно, что обследование объектов выборки не даст полной и точной информации о всей генеральной совокупности (ведь обследуется лишь часть объектов этой совокупности). Поэтому любые выводы, касающиеся генеральной совокупности, к которым мы придем на основании исследования выборки, чреваты неточностями и даже ошибками. Но эти ошибки, естественно, будут тем менее вероятны и тем меньше по величине, чем больше будет n – объем выборки. Как именно от объема выборки зависит точность и надежность получаемых выводов о генеральной совокупности – эти вопросы тоже рассматриваются в математической статистике.

Кроме большого объема, для получения достаточно надежных и достоверных выводов о генеральной совокупности выборка должна еще адекватно представлять собой генеральную совокупность. Или, как ещё говорят, она должна быть репрезентативной. Это значит, что нельзя отбирать преимущественно лучшие или, наоборот, худшие объекты. Правильным (репрезентативным) будет такой отбор, при котором шансы быть отобранными у всех объектов генеральной совокупности будут одинаковыми. А это будет иметь место лишь в том случае, когда выборку объектов из генеральной совокупности осуществляют случайно.

Например, чтобы отбор гости зерна из вороха зерна был произведён репрезентативно, следует взять по щепотке зёрен из разных мест этого вороха (с разных краёв, с поверхности, с глубины, и т.д.). А если этот ворох лежит давно и уже слежался (однородность вороха нарушилась), то перед осуществлением выборки ворох этот хорошо бы и тщательно перемешать.

В тех случаях, когда объекты генеральной совокупности пронумерованы (например, это автомобили, выпускаемые автозаводом, или отдельные части этих автомобилей – моторы, кузова, и т.д.), для случайного отбора каких-то n объектов такой генеральной совокупности можно воспользоваться так называемой таблицей случайных чисел. То есть номера отбираемых объектов можно взять из этой таблицы, открыв страницу таблицы наугад. Эту таблицу получают с помощью ЭВМ, и она содержится во многих справочниках по математической статистике. Кстати, числа, содержащиеся в таблице случайных чисел – это просто наборы цифр дробной части случайной величины X, равномерно распределённой на отрезке [0;1].

После того, как выборка произведена, исследуют каждый объект этой выборки. То есть выясняют (измеряют, устанавливают) значения тех количественных или качественных признаков отобранных объектов, которые представляют исследовательский интерес в генеральной совокупности. Например, если исследуется выборочным путём ворох зерна, то качественным признаком каждого отобранного зерна может быть годность его к посеву или к использованию в мукомольной промышленности. А количественным признаком – вес зерна, количественно выраженная влажность, процентное содержание белка, клейковины и т.д. Другой пример: если генеральная совокупность представляет собой некоторые изделия массового производства, то качественным признаком каждого отобранного изделия может быть его стандартность, а количественным – контролируемый размер изделия, или его вес, или время до выхода его из строя, и т.д.

Будем пока считать, что у объектов генеральной совокупности исследуется лишь один признак Х, и этот признак – количественный (то есть его можно выразить некоторым числом). Это может быть вес, сорт, размер, и т.д. Кстати, при необходимости и качественный признак объектов (например, их годность к своему назначению) можно сделать количественным, если считать, что этот признак Х=1, если объект годен, и считать Х=0, если объект не годен.

Итак, пусть из изучаемой генеральной совокупности сделана случайная выборка объёмом n. И пусть оказалось, что у n1 объектов, попавших в выборку, значение исследуемого признака Х оказалось равным х1, у n2 объектов – значение х2, …, у nm объектов – значение хm. Тогда таблица












(1.1)












содержащая указанные данные, называется статистическим распределением выборки. При этом числа (х1; х2;. . . хm), представляющие собой все встретившиеся в выборке значения исследуемого признака Х, называются вариантами, а количества (n1; n2;. . . nm) объектов, имеющих соответствующие варианты, называются частотами.

Статистическое распределение выборки автоматически имеет вид (1.1), если исследуемый признак Х является дискретной (прерывистой) величиной. Например, если исследуется экзаменационная оценка по какому-либо предмету большого количества студентов, то эта оценка Х по своей природе является величиной дискретной (принимает лишь значения 2; 3; 4; 5). И если выборка составляет, например, 25 человек, то её статистическое распределение может быть, например, следующим:





2

3

4

5

(2+8+10+5=25) (1.2)



2

8

10

5


Статистическое распределение выборки (1.1) для наглядности изображают графически – в виде так называемого полигона частот, представляющего собой ломаную линию с узлами в точках - см. рис.3.1.

Если же исследуемый признак Х является непрерывной величиной, то статистическое распределение выборки обычно оформляют в виде таблицы (1.3.):




-

-



-

(1.3)












Здесь (х12), (х23), . . . (хmm+1) – интервалы (обычно одинаковые по длине), на которые разбивают весь интервал (х1; хm+1) значений признака Х в выборке, а (n1; n2; . . .; nm) – частоты для соответствующих интервалов. Например, если исследуется масса Х (г) клубней картофеля, выращенного на некотором поле, то статистическое распределение выборки для 100 клубней, случайно отобранных из выращенного урожая, может быть таким:




0-40

40-80

80-120

120-160

160-200

(1.4)



12

20

28

25

15


Графически статистическое распределение выборки вида (1.3) изображается уже не полигоном, а так называемой гистограммой частот (рис.3.2.):

ni

хi

х1 х2 х3 хm хm+1

Рис.3.2

Отметим, что часто на оси ординат полигонов и гистограмм откладывают не частоты , а относительные частоты

Перейдём теперь к основным числовым характеристикам статистического распределения выборки. Ими являются:

1. Среднее значение признака Х в выборке, обозначаемое и называемое выборочной средней.

2. Величина , которая характеризует среднее значение квадратов отклонений вариант от выборочной средней . Она называется выборочной дисперсией.

3. Величина , которая характеризует среднее значение отклонения вариант от выборочной средней без учёта знака этого отклонения. Она называется выборочным средним квадратическим отклонением.

4. Величина , называемая выборочным коэффициентом вариации. Этот коэффициент характеризует долю в процентах, которую составляет среднее отклонение от среднего по отношению к самому среднему.

Все названные основные числовые характеристики выборки определяются по формулам:

(1.5)

Эти формулы можно использовать, если статистическое распределение выборки имеет вид (1.1), то есть является дискретным. А если оно имеет вид (1.3), то есть является непрерывным (интервальным), то его предварительно преобразуют в дискретное, в котором середины интервалов принимаются за его новые дискретные варианты.

Заметим, что введённые выше числовые характеристики выборки введены с той же целью и имеют в принципе тот же смысл, что и числовые характеристики случайных величин – математическое ожидание (среднее значение), дисперсия, среднее квадратическое отклонение, коэффициент вариации, о которых шла речь в курсе теории вероятностей. И названия этих характеристик во многом совпадают.

Кстати, формулу для подсчёта выборочной дисперсии можно упростить, если раскрыть в ней квадрат разности, сумму разбить на три суммы и привести затем подобные. В итоге получим следующую упрощённую формулу для выборочной дисперсии (выкладки проделайте самостоятельно):

(1.6)

То есть получаем: выборочная дисперсия равно средней из квадратов вариант выборки минус выборочная средняя в квадрате. Здесь

= (1.7)

Пример 1. Дано статистическое распределение выборки





1

2

3

4

(20+15+10+5=n= 50)



20

15

10

5


Найти , , , .

Решение. Используя приведённые выше формулы, получим:

=

=



Числовые характеристики выборки (, , , ), если они найдены, служат для оценки соответствующих числовых характеристик (, , , ) генеральной совокупности.

Отметим, что числовые характеристики генеральной совокупности – фиксированные, хотя и неизвестные, числа. А числовые характеристики выборки очевидным образом зависят от того, какие объекты генеральной совокупности попали в выборку. От выборки к выборке эти объекты меняются. А так как выборка объектов производится случайно, то и числовые характеристики выборки – случайные величины. А значит, возникают естественные вопросы о законах распределения этих случайных величин, их числовых характеристиках и т.д. Обо всём это пойдёт речь в следующем параграфе.

Упражнения


  1. В чём достоинства и в чём недостатки исследования всей генеральной совокупности и исследования выборки из неё?

  2. Пусть Х – месячная зарплата на сдельной работе одного рабочего на некотором предприятии. Она исследовалась по бухгалтерским ведомостям выборочно. Какой смысл в этом случае будут иметь величины (, , , )? И какой смысл будут иметь (, , , )?

  3. Статистическое распределение выборки имеет следующий вид:





1-3

3-5

5-7

7-9






20

15

10

5


Найти числовые характеристики выборки.

Ответ: =4; =4; =2; =50%.


§2. Числовые характеристики выборочной средней

и выборочной дисперсии.

Оценки числовых характеристик генеральной совокупности
Как отмечено в конце предыдущего параграфа, числовые характеристики выборки ; ; ; являются случайными величинами. В связи с этим возникает естественный и важный для практики вопрос о математическом ожидании, дисперсии и прочих числовых характеристиках этих случайных величин.

Начнём с важнейшей из этих величин – с выборочной средней . Будем считать, что объём N генеральной совокупности настолько велик, что объём n выборки можно считать малой величиной по сравнению с N . Поэтому последовательный отбор из генеральной совокупности каждого отбираемого объекта практически не нарушает состава генеральной совокупности – она как бы всё время остаётся целой.

Обозначим через (Х1; Х2; …Хп) случайные величины, выражающие значения исследуемого признака Х при отборе первого, второго, … n-ого объектов выборки. С учётом предположения, сделанного выше относительно объёма генеральной совокупности, можем считать, что случайные величины (Х1; Х2; …Хn) одинаково распределены и независимы. Распределение каждой из них совпадает с с распределением величины Х1 - с распределением признака Х у первого отобранного объекта. Если (х1; х2; ... хр) – список всех возможных значений исследуемого признака Х в генеральной совокупности, то случайная величина Х1 имеет возможность принять любое из этих значений. А их вероятности будут, очевидно, равны (), где () – количества объектов генеральной совокупности, имеющих соответственно значения (х1; х2; ... хр). Таким образом, закон распределения величины Х1, а вместе с нею и остальных случайных величин (Х2; Х3; …Хп), будет иметь вид:












(k=1, 2, …n) (2.1)












Выборочная средняя - это, очевидно, средняя арифметическая из случайных величин (Х1; Х2; …Хn):

= (2.2)

Если объём n выборки достаточно большой (хотя и много меньше объёма N генеральной совокупности), то согласно (2.2) выборочная средняя является суммой большого числа независимых случайных величин. А потому, согласно теореме Ляпунова (часть ?, глава 2, §4), можем считать, что случайная величина распределена приблизительно по нормальному закону. Причём это будет при любом законе распределения величин (Х1; Х2; …Хn), то есть при любом законе распределения признака Х в генеральной совокупности. А если есть основания считать, что признак Х в генеральной совокупности распределён нормально (что обычно и имеет место), то распределение случайной величины , как суммы независимых нормально распределённых случайных величин, будет нормальным при любом, в том числе и малом, объёме n выборки.

Действительно, распределения случайных величин (Х1; Х2; …Хn) при очень большом объёме генеральной совокупности можно считать совпадающими с распределением величины Х1. Но если величина Х1 приняла некоторое значение xi, то это значит, что признак Х принял это значение. То есть распределения Х и Х1, а значит распределения Х и (Х1; Х2; …Хn) совпадают. И все эти величины являются нормальными, если распределение величины Х нормальное. Но тогда и все слагаемые в (2.2) распределены нормально, а вместе с ними, в силу их независимости, и величина распределена нормально.

В общем, так или иначе, мы практически всегда можем считать величину распределённой нормально (мы не можем этого утверждать лишь в случае, когда выборка имеет малый объём n и при этом исследуемый признак Х заведомо не распределён нормально).

Найдём параметры и нормально распределённой случайной величины . Для этого сначала вычислим математическое ожидание и дисперсию случайных величин Хк (k=1, 2,…n). В соответствии с таблицей (2.1) и формулами (1.4) и (1.23) (часть I, глава 2) имеем:

(2.3)



Здесь и – числовые характеристики генеральной совокупности (генеральная средняя и генеральная дисперсия). А тогда на основании (2.2) и свойств математического ожидания и дисперсии (см. часть I, глава 2) получим:

(2.4)

Итак, нормально распределённая случайная величина распределена с параметрами и .

Свои числовые характеристики имеет и выборочная дисперсия . Она уже заведомо не распределена нормально, ибо по природе своей имеет лишь неотрицательные значения. Из ее числовых характеристик приведем лишь важнейшую – математическое ожидание (среднее значение):

(2.5)

Кстати, если объем n выборки достаточно велик, то 1, и тогда можно считать, что

Докажем формулу (2.5). Согласно определения (1.5) выборочной дисперсии, ее можно выразить через введенные выше случайные величины (X,) формулой:

(2.6)

Тогда

(2.7)

Так как случайные величины (X,) имеют одинаковые распределения, то все n слагаемых в сумме (2.7) одинаковы, и поэтому

(2.8)

То есть

(2.9)

Найдем каждое из трех слагаемых, входящих в (2.9).

1) Найдем . Так как

= -,

то

= + = (2.10)

2) Найдем :





Так как величины (X,) независимы, то

=

== (2.11)

3) Найдём Так как



то

(2.12)

Подставляя выражения (2.10), (2.11) и (2.12) в (2.9), мы и получим доказываемое равенство (2.5).

Анализируя формулы (2.4) для выборочной средней , видим, что математическое ожидание (среднее значение) выборочной средней равно средней генеральной . При этом разброс этих значений вокруг будет уменьшаться с увеличением объема n выборки, ибо, согласно (2.4),

при (2.13)

Таким образом, если нам нужно по выборке оценить неизвестную генеральную среднюю , то эта оценка будет такой:

(2.14)

Причем эта оценка будет тем точнее (надежнее), чем больше будет объем n выборки.

Анализируя теперь формулу (2.5), видим, что . То есть возможные значения выборочной дисперсии (значения для разных выборок) группируются не вокруг генеральной дисперсии , а вокруг несколько меньшего числа То есть является смещенной оценкой . Для устранения этого смещения введем так называемую исправленную выборочную дисперсию :

(2.15)

При этом называется исправленным выборочным средним квадратическим отклонением. Математическое ожидание (среднее значение) уже равно. Действительно:

(2.16)

Таким образом, исправленная выборочная дисперсия имеет среднее значение, равное генеральной дисперсии и, таким образом, является несмещенной оценкой для генеральной дисперсии:

(2.17)

Замечание. Исправленная выборочная дисперсия , согласно её выражения (2.15), является суммой квадратов отклонений вариант выборки от их среднего значения , рассчитанной на одну степень свободы этой суммы.

Действительно, объём выборки равен n, значит и всех вариант в выборке тоже n. Будь в сумме

(2.18)

все эти варианты независимыми, эта сумма квадратов отклонений вариант от

выборочной средней имела бы n степеней свободы - по числу независимых вариант , участвующих в формировании этой суммы. Однако эти варианты в сумме (2.18) не являются независимыми, ибо через них по первой из формул (1.5) вычисляется выборочная средняя , фигурирующая в этой сумме. Формула (1.5) представляет собой линейное соотношение

, (2.19)

cвязывающее варианты . Из него одну из вариант (любую) можно выразить через остальные n-1 вариант. Так что в сумме (2.18) содержится только n-1 независимых слагаемых, в силу чего она имеет не n, а n-1 степеней свободы. Так что исправленная выборочная дисперсия (несмещённая оценка генеральной дисперсии ), согласно (2.15), действительно представляет собой сумму (2.18), рассчитанную на её одну степень свободы. Такое истолкование исправленной выборочной дисперсии (несмещённой оценки дисперсии генеральной) нами ещё позднее не раз будет использоваться.

Исходя из оценок (2.14) и (2.17), можем получить еще две оценки для неизвестных числовых характеристик генеральной совокупности:

(2.20)

Оценки (2.14), (2.17) и (2.20) числовых характеристик ,,, % генеральной совокупности называются точечными оценками, ибо эти оценки осуществляются одним числом (точкой). Все эти оценки несмещённые, и они тем точнее (надёжнее), чем больше объем n выборки.

Кроме точечных оценок числовых характеристик генеральной совокупности, вводятся также и их интервальные оценки.

Пусть, например, - некоторая из выборочных числовых характеристик (, или , или , и т.д.), а - соответствующая ей генеральная характеристика. И пусть , так что мы имеем точечную несмещённую оценку . Нас, естественно, интересует точность этой оценки, то есть разность . Но так как по выборочным данным вычисляется лишь , а неизвестна, то разность эту точно найти нельзя. Её можно лишь попытаться оценить. А именно, можно лишь поставить вопрос: с какой вероятностью можно утверждать, что , где - некоторое заданное положительное число? Или, что одно и то же, какова вероятность того, что ?

Интервал называется доверительным интервалом для оценки ; число называется точностью интервальной оценки ; вероятность называется надежностью интервальной оценки . Все эти понятия связываются в следующем равенстве:

(2.21)

Геометрическая иллюстрация этого равенства изображена на рис. 3.3. Этот рисунок иллюстрирует смысл равенства (2.21): с вероятностью неизвестная содержится в своем доверительном интервале

Очевидно, чем шире доверительный интервал (то есть чем больше ), тем больше надежность (вероятность) того, что принадлежит этому интервалу. И наоборот, чем эже доверительный интервал (меньше ), тем меньше вероятность того, что содержится в этом интервале. Заметим, что широкий доверительный интервал означает малую точность оценки величины , а узкий – наоборот, высокую. Таким образом, чем выше точность оценки , тем меньше её надежность, а чем ниже точность – тем больше надежность, что вполне естественно.

Нас, естественно, будет интересовать конкретная математическая связь между шириной доверительного интервала и вероятностью того, что содержится в этом интервале. Очевидно, что наиболее важно ответить на этот вопрос, когда . Этим мы и ограничимся.

Как отмечалось выше, точечной оценкой для является , которая распределена нормально с математическим ожиданием и средним квадратическим отклонением (формулы (2.4)). Заменяя в (2.21) на , на и пользуясь формулой (4.11) (часть I, глава 2) для нормально распределённых случайных величин, получим:

(2.22)


Урожайность

(ц/га)

Площадь

(га)

(2.24)

12-14

18

14-16

57

16-18

109

18-20

136

20-22

83

22-24

66

24-26

31

Итого

500
Таким образом, точность , определяющая ширину доверительного интервала для оценки генеральной средней , и надёжность этой оценки связаны друг с другом равенством:

, откуда , где 2 (2.23)

Неизвестное среднее квадратическое отклонение генеральной совокупности можно в (2.23) заменить, согласно (2.20), его точечной оценкой . Однако эта замена будет достаточно точной, а значит, и оправданной лишь при достаточно большом объеме n выборки (скажем, при n>30).

Пример 1. Выборочным путём были получены следующие данные об урожайности ржи в некотором зерновом регионе (таблица 2.24). Найти вероятность того, что средняя урожайность ржи, полученная в выборке, отличается в ту или в другую сторону (то есть по абсолютной величине) от средней урожайности на всей площади региона, занятой под рожь, не более чем на 0,2 ц/га.

Решение. Площадь региона, занятая рожью, нам неизвестна. Но она нам и не нужна. Важно лишь, чтобы она была намного больше тех 500 га, которые попали в выборку, что мы и будем предполагать. В соответствии с условием задачи нам требуется найти вероятность (надёжность) того, что , где - средняя урожайность ржи в выборке, а - средняя урожайность ржи во всем регионе. Эту надежность найдем по формуле (2.23). В ней следует положить , (-велико!), а величину заменим на :

(2.25)

Исправленное выборочное среднее квадратическое отклонение найдем из статистического распределения выборки (2.24). Для этого сначала приведем его к дискретному виду:


(урожайность в ц/га)

13

15

17

19

21

23

25

(2.26)


(площадь в га)

18

57

109

136

83

66

31


Применяя затем формулы (1.5), получим:



А тогда, согласно (2.15), получаем:
.

Подставляя найденное значение в (2.25), получим искомую вероятность (надежность) :



Итак, с надежностью (с 86%-ой надежностью) можем утверждать, что средняя урожайность ржи во всем регионе отличается от средней урожайности 19,1 ц/га на обследованных выборочно 500 га по абсолютной величине не более, чем на 0,2 ц/га. Или, что одно и тоже, с 86%-ой надежностью можем утверждать, что находится в следующем доверительном интервале:

18,9 ц/га<<19,3 ц/га.

Если объем выборки небольшой (n<30), то пользоваться формулой (2.23), просто заменив в ней на , не рекомендуется, ибо может значительно отличаться от , а значит, могут получаться слишком грубые результаты. Но если исследуемый признак Х распределен нормально, то доказано, что при любых, в том числе малых, объемах n выборки случайная величина

(2.27)

имеет распределение Стьюдента с степенями свободы (см, глава 16, §16). И поскольку плотность вероятности такой случайной величины известна и является четной функцией своего аргумента t (см. часть I, глава 2, §4), то для любого вероятность осуществления неравенства -<T< найдется по формуле (2.28), следующей из формулы (3.6) главы 2, часть I:

(2.28)

Или, что одно и то же:

, где , (2.29)

а величина связана с и последним равенством (2.28). Составлена специальная таблица (см. таблицу 4 Приложения) – так называемая таблица критических точек распределения Стьюдента, позволяющая по заданным и находить . А значит, в соответствии с (2.29), находить величину , определяющую доверительный интервал (; для оценки генеральной средней с надежностью (вероятностью) . И это – для любых значениях n, в том числе и для малых. При больших же n (n>30) указанный доверительный интервал, найденный посредством вычисления как по формуле (2.23) при замене в ней на , так и по формуле (2.29), оказывается практически одинаковым.

Пример 2. Девять независимых повторных измерений некоторой величины а дали следующие результаты:

1,24; 1,26; 1,25; 1,23; 1,25; 1,24; 1,24; 1,25; 1,24

Оценить с помощью доверительного интервала истинное значение а измеряемой величины с надёжностью (95%-ой надёжностью).

Решение. Будем рассматривать результаты всех девяти повторных измерений величины а как выборочные значения случайной величины Х – результата отдельного измерения этой величины. Тогда статистическое распределение выборки будет иметь вид:




1,23

1,24

1,25

1,26

(n=1+4+3+1=9) (2.30)



1

4

3

1


А генеральной совокупностью в данном случае будет, очевидно, бесконечное множество всех возможных значений одного измерения (N= Случайная величина X, как мы знаем (§4, глава 2) распределена нормально. Её параметры a и должны быть приняты за и . При этом а - это искомое значение измеряемой величины.

Так как объём n выборки невелик (n=9), то для интервальной оценки =a следует использовать равенства (2.29).

Исходя из статистического распределения выборки (2.30), найдём и :









Далее по заданным =0,95 и k =n-1=9-1=8 с помощью таблицы 4 Приложения найдём значение , входящие в выражение (2.29) для : =2,31. Таким образом,



Следовательно, искомый доверительный интервал (; , содержащий с надёжностью =0,95 (с 95%-ой надёжностью) истинное значение а = измеряемой величины, будет таким: (1,234; 1,255).

В заключении этого параграфа рассмотрим следующий важный для практики вопрос: каков минимальный объём n выборки, обеспечивающий оценку неизвестной генеральной средней с заданной точностью при заданной надёжности ?

Очевидно, что искомое минимальное значение объёма выборки при не слишком широком доверительном интервале (; , то есть при не слишком большом , и при не слишком малой надёжности того, что будет содержаться в это интервале, следует ожидать достаточно большим. И это будет тем больше, чем меньше будет (точнее оценка) и чем больше будет (надежнее оценка) генеральной средней . Поэтому для нахождения этого значения первоначально следует использовать формулы (2.23), применяемые при n>30, из которых следует:

где (2.31)

Но если найденное значение окажется небольшим (<30), то тогда для его уточнения следует использовать последнее равенство (2.29), приводящее, кстати, к тому же выражению для , что и (2.31). Только следует находить не из равенства , то есть не из таблицы интеграла вероятности Ф(х), а подбирать из таблицы 4 Приложения для критических точек распределения Стьюдента..

Пример 3. Выборочным путем исследуется зерно, связанное с убранного поля на элеватор. Требуется определить минимальный объём выборки, проводимой с целью определения средней массы одного зерна, чтобы с вероятностью 0,99 ошибка в определении этой средней массы не превысила по абсолютной величине 0,002 г. По данным предыдущих выборок установлено, что 0,014г.

Решение. По таблице функции Ф(х) (по таблице 2 Приложения) из равенства =0.99 находим :



Теперь по формуле (2.31) находим искомый минимальный объём выборки:


Упражнения
1. С целью исследования размера X некоторых однотипных изделий, выпускаемых заводом, было случайным образом отобрано 50 изделий. Их распределение по размеру (статистическое распределение выборки) имеет вид:


x

(см)

107,8-

-108,0

108,0-

-108,2

108,2-

-108,4

108,4-

-108,6

108,6-

-108,8

108,8-

-109,0

n

1

4

16

18

8

3
  1   2   3   4   5   6   7   8   9   10


Часть IIМАТЕМАТИЧЕСКАЯ СТАТИСТИКА
Учебный материал
© nashaucheba.ru
При копировании укажите ссылку.
обратиться к администрации