Панина Н.В. Технология социологического исследования - файл n1.doc

приобрести
Панина Н.В. Технология социологического исследования
скачать (1369.5 kb.)
Доступные файлы (1):
n1.doc1370kb.26.08.2012 15:04скачать

n1.doc

1   2   3   4   5   6   7   8   9   10   11

Квалифицированный статистический анализ средних значений заключается в том, что, приводя значение сред­него арифметического, исследователь должен привести и данные по значению изменчивости этого признака (вариа­ции, рассеянию, колеблемости) — величины отклонений от среднего значения.

Меры изменчивости

Наряду с мерами центральной тенденции, для описа­ния данных необходимо приводить и параметры, характери­зующие степень изменчивости (вариации, рассеяния) при­знака. Существует целый ряд величин, позволяющих оце­нить меры рассеяния признака. В статистике обычно приво­дится ряд параметров, позволяющих оценить изучаемую со­вокупность в целом. Это указание минимума и максимума. Минимум — это наименьшее значение признака, получен­ное в результате измерения (в приведенном примере — 14 лет в первом массиве опрошенных и 9 лет — во втором). Максимум, соответственно, — наибольшее значение (в при­веденном примере 8 лет в первом массиве и 60 — во вто-

ром). Если исследователь при описании полученных дан­ных, дополнительно к указанию среднего возраста привел бы только эти величины, то уже было бы понятно, что опи­сываются разные возрастные контингенты. Указание границ значения признака называется вариационный размах. Но и этого параметра недостаточно для адекватного представле­ния о характеристике возраста опрошенных.

Наиболее информативным параметром рассеяния яв­ляются такие показатели, как стандартное отклонение и дисперсия.

Стандартное отклонение и дисперсия — взамосвязан-ные величины, показывающие среднюю величину отклоне­ния (всех опрошенных) от среднего значения. Стандартное отклонение позволяет, во-первых, судить, насколько далеки в среднем значения всех опрошенных от среднего арифме­тического; во-вторых, стандартное отклонение является ве­личиной, которая лежит з основе многих видов многомер­ного анализа.

В настоящее время у исследователя нет необходимо­сти вручную считать стандартное отклонение: практически все компьютерные программы обработки социологических данных позволяют автоматически получать значение этого показателя.

В задачу же исследователя входит, во-первых, самому обратить внимание на этот индикатор (в первую очередь на то, чтобы значение стандартного отклонения не пре­вышало значение среднего арифметического); а во-вторых, обязательно приводить этот показатель в аналитических таблицах (там, где приводится значение средних арифме­тических, рядом необходимо привести значение стандарт­ного отклонения).

Таким образом, мы видим, что, характеризуя данные, полученные по непрерывным шкалам (метрической и ин­тервальной), исследователь, наряду со средним обобщаю­щим показателем изучаемого признака, описывает и характер его разброса (изменчивость признака)

Форма распределения

Существует еще одна характеристика распределения данных, полученных по непрерывным шкалам, которую исследователь тоже должен обязательно учитывать. Это форма распределения.

Данные распределения старшеклассников по возрас­ту являются примером нормального распределения. Нор­мальным является такое распределение, при котором кри­вая построенного по его данным графика представляет со­бой колоколообразную симметричную кривую.

Например, если мы построим график по данным рас­пределения старшеклассников по возрасту, то получим соот­ветствующую колоколообразную кривую. Если же мы построим график по массиву третьеклассников и учителей, опрошенных в одной школе, мы получим две кривые. Нор­мальное распределение — это теоретическая кривая. Практи­чески любые эмпирические данные в той или иной степени отклоняются от нормального распределения вероятностей, закону которого подчиняются распределения случайных ве­личин. Но поскольку все расчеты, включающие значение среднего арифметического и "стандартного отклонения, осно­ваны на теории вероятности, в аналитическую задачу иссле­дователя входит оценка (по крайней мере, приблизительная) того, насколько правомерно использовать данный тип анали­за к полученным результатам. Поэтому даже на уровне опи­сания (не говоря уже о множественном анализе), прежде чем приводить данные по их средним значениям (среднее ариф­метическое и стандартное отклонение), необходимо оценить характер формы распределения — в какой степени она при­ближается к нормальному распределению.

Для этого используют показатели скоса (ассиметрии, skewness) и эксцесса (kunosis). В скобках указываются терми­ны, которые обычно у разных авторов используются для обозначения одних и тех же понятий. В частности, здесь при­ведены англоязычные обозначения рассматриваемых характе­ристик, которые приводятся в компьютерной программе обработки и анализа социологических данных — SPSS.

Показатель скоса (skewness) позволяет оценить сте­пень и направленность ассиметрии кривой распределения.

В случае идеального нормального распределения ассимет-рия равна нулю.

В эмпирической социологии идеальные нормальные распределения практически не встречаются. Но существу­ют методы оценки степени приближения полученного распределения к нормальному. Коэффициент скоса имеет числовое значение и знак, указывающий направленность скоса. Чем больше величина отличается от нуля, тем боль­шая асимметрия у полученного распределения, и, соответ­ственно, большая погрешность может проявиться при при­менении коэффициентов статистического анализа, форму­ла которых включает значения стандартного отклонения.

Существуют специальные процедуры оценки степени допустимости такой погрешности, а также искусственной нормализации шкалы. Исследователь может, при необходи­мости, осуществлять преобразование данных. С различными способами преобразования данных можно ознакомиться в специальной справочной и учебной литературе, но исследо­вателю необходимо обязательно оценить степень асимметрии. (Простейшим косвенным показателем, указывающим на асимметрию, является расхождение между значениями сред­него арифметического, моды и медианы; при идеальном нормальном распределении все три показателя равны).

Показатель эксцесса (kurtosis) показывает, в какой степени «крутизна» полученной кривой приближается к нормальному распределению.

Показатели асимметрии и эксцесса необходимы ис­следователю в первую очередь для того, чтобы он мог ус­тановить — в какой степени в анализе может быть исполь­зовано стандартное отклонение.

Таким образом, на первом этапе анализа (описания данных), представляя данные, полученные с помощью не­прерывных шкал (метрических и интервальных), исследо­ватель должен руководствоваться следующими правилами.

1. Рассмотреть среднее арифметическое (mean), стан­дартное отклонение, коэффициент асимметрии и коэффи­циент эксцесса. Эти показатели позволяют решить, можно ли эти данные использовать в основном анализе или они требуют дополнительных преобразований.

  1. Если исследователь не овладел техникой преобра­зования данных, ему следует отказаться от представления полученных по этому показателю значений среднего арифметического в итоговом научном документе (отчете, статье, таблицах и т.п.). В противном случае, информация будет носить неадекзатный, искаженный характер.

  2. В тех случаях, когда эти показатели удовлетвори­тельны, данные по метрическим шкалам обычно представ­ляют в итоговых таблицах по следующим параметрам: 1) N (численность группы, по которой считалось среднее значение); 2) величина среднего арифметического; 3) ве­личина стандартного отклонения. Эти параметры позволяют в дальнейшем при необходимости посчитать статистическую значимость различий между средними значениями у раз­личных групп населения. Допустим, если автор анализа приводит данные по средней заработной плате различных групп населения, то эти параметры позволят не только сравнить — насколько различается средняя заработная плата

"у каких-либо двух категорий работников, представленных в таблице, но и оценить — является ли это различие стати­стически значимым (с какой степенью вероятности мы по­лучим то же самое различие при повторных исследованиях на других аналогичных выборках).

Такое представление данных позволяет переходить на следующий уровень анализа — объяснение и интерпре­тация полученных данных.

Лекция 9

Кросс-табуляция:

анализ двумерных таблиц

1. Роль статистики в процессе социологического анализа

Возможности и ограниченность

Если на первом уровне анализа основной задачей ис­следователя являлось адекватное и корректное описание полученных фактов, то ко второму уровню автор перехо­дит с целью поиска объяснения полученным фактам.

Следует сразу же подчеркнуть основную особенность статистического анализа данных, полученных в результате массового опроса. Сами по себе статистические процедуры не приводят к объяснению полученных фактов, они являются лишь инструментом проверки гипотез, выдвигаемых иссле­дователем. Применяя те или иные статистические процедуры, автор получает ответ на свой собственный запрос — под­тверждается или не подтверждается полученными з резуль­тате конкретного опроса данными проверяемая гипотеза.

Роль исследовательской гипотезы б процессе анализа данных

Если гипотеза подтверждается, то статистический ин­струментарий позволяет установить вероятность правильно­сти вывода. Если гипотеза не подтверждается, то это еще не означает, что она была неверной, так как причина может

заключаться в неполноте программы, неадекватности инст­рументария, погрешностях организации сбора данных и т.п. Таким образом, основным инструментом содержа­тельного анализа изучаемых социальных процессов являют­ся аналитические возможности исследователя (его знание предмета исследования, логика, инструментальная компе­тентность), позволяющие ему в процессе теоретического анализа выдвинуть гипотезы, эмпирическая проверка кото­рых открывает возможность объяснять причины исследуе­мых процессов или явлений. Статистический анализ позво­ляет лишь подтвердить (или не подтвердить) выдвинутые гипотезы эмпирическим материалом. Никакой статистичес­кий анализ не поможет объяснить факты причинами, кото­рые не были заложены в инструментарий исследования. Исследователь всегда должен помнить, что реальные причи­ны, влияющие на исследуемые факты, могли остаться вне его поля зрения (или, по крайней мере, вне инструмента­рия). Если автор не предусмотрел возможное влияние тех или иных причин, когда готовил инструментарий исследо­вания, то эти причины и не будут обнаруживаться в процес­се анализа полученных данных.

После этой преамбулы, суть которой не следует забы­вать в процессе статистического анализа полученных дан­ных, рассмотрим основную технологическую схему двумер­ного анализа, позволяющую перейти от статистического описания результатов исследования к использованию стати­стических процедур в объяснении полученных фактов.

2. Кросс-табуляция

Зависимые и независимые переменные

Основой анализа связи между двумя переменными является подготовка двумерных таблиц (cross-tabulation), представляющая собой взаимное пересечение двух рядов распределений.

Переменные для рядов распределения определяются ги­потезами исследователя. Одна переменьая рассматривается как фактор (причина), влияющая на исследуемое явление

другая — как показатель этого явления. Один и тот же при­знак (представленный в инструментарии вопросом анкеты) в процессе анализа может выступать и в качестве показателя и в качестве фактора. Например, одна гипотеза может быть сформулирована так: «Уровень образования влияет на удовле­творенность работой: чем выше уровень образования, тем выше уровень удовлетворенности работой». Другая гипотеза, требующая проверки, может быть следующей: «Удовлетворен­ность работой влияет на общую удовлетворенность человека жизнью: чем выше удовлетворенность работой, тем выше удовлетворенность жизнью». В первом случае удовлетворен­ность работой выступает в качестве показателя, а во втором — в качестве фактора. Когда признак в процессе статистической проверки гипотезы рассматривается в качестве фактора, он называется независимой переменной (подлежащим); когда при­знак рассматривается в качестве показателя, в статистическом анализе он называется зависимой неременной (сказуемым).

Содержательный смысл таблицы, построенной на осно­ве результатов кросс-табуляции, заключается в следующем. По признаку, рассматриваемому в качестве независимой пе­ременной, исследователь разбивает всю совокупность опро­шенных на отдельные группы (подгруппы). Наряду с общим результатом одномерного распределения по изучаемому пока­зателю, исследователь параллельно получает результаты рас­пределения мнений отдельных подгрупп населения, и эти результаты сравнивает между собой. Чем больше различие в характере ответов у этих групп, тем о большей связи между двумя переменными можно говорить. Обращаясь к приведен­ному выше примеру, можно сказать, что, проверяя первую гипотезу, исследователь всю совокупность разбивает на груп­пы с различным уровнем образования (здесь, напомним, про­верять гипотезу будет тем легче, чем более произведенная группировка соответствует выдвинутой гипотезе: если речь идет об уровне образования, то полученные группы должны различаться между собой именно по уровню образования); проверяя же вторую гипотезу, исследователь разбивает всю совокупность на группы людей, различающихся между собой по уровню удовлетворенности работой.

Построенная двумерная таблица позволяет «на глаз» увидеть, различаются ли ответы у разных групп населения. В

таком виде обычно и рассматривает результаты исследования заинтересованный потребитель информации. Но результаты, оцениваемые «на глаз», часто, могут вводить в заблуждение.

Поэтому основной задачей исследователя-аналитика, представляющего результаты опроса в виде двумерных рас­пределений является статистическая экспертиза — оценка и отбор качественной информации. Просмотрев и статистичес­ки оценив сотни (а то и тысячи) двумерных таблиц, он дол­жен для широкой аудитории (и для своего дальнейшего ана­лиза) отобрать только те, которые соответствуют статисти­ческим критериям качества информации. Другими словами, исследователь, прежде чем публиковать результаты дву­мерного анализа, должен осуществить статистическую экс­пертизу, позволяющую либо «пропустить» результаты иссле­дования для широкого обнародования (в том случае, если по­лученные данные статистически обоснованы), либо «отбра­ковать» таблицы (в тех случаях, когда видимые «на глаз» раз­личия статистически недостоверны в силу тех или иных причин, и могут привести к неверным выводам). Если иссле­дователь не удовлетворен результатами статистической про­верки (другими словами, интуиция подсказывает ему, что ги­потеза была верной), он может в дальнейших исследованиях проверять ее, совершенствуя инструментарий и организацию сбора информации. Но он не должен представлять для широ­кой аудитории данные, не соответствующие статистическим критериям. Прежде чем рассмотреть особенности использо­вания статистических показателей для последовательного осу­ществления шагов объяснительного анализа, рассмотрим двумерную таблицу, с точки зрения описания и интерпрета­ции кросс-табуляции полученных данных.

I

Описание и статистическая экспертиза двумерных таблиц

Самая простая процедура — с помошью компьютера получить таблицу двумерного распределения. Допустим, ис­следователь хочет проверить гипотезу о влиянии материаль­ного уровня жизни на общую удовлетворенность жизнью. Бо­лее того, он считает, что на удовлетворенность жизнью влия­ет не столько реальный уровень материального благополучия,

сколько самооценка человеком своего материального статуса. Допустим, что для измерения самооценки материального ста­туса в инструментарий был включен вопрос: «К какой группе людей по уровню материальной обеспеченности Вы бы себя отнесли?». Полученные данные показали, что из 1755 опро­шенных 4 человека отнесли себя «к высокообеспеченным», 909 — к «людям среднего достатка», 842 — к «малоимущим». Объявляя этот признак независимой переменной, а ответы на вопрос об удовлетворенности жизнью (с веером ответов, включающим пять вариантов) — зависимой переменной, ис­следователь может получить два типа двумерных таблиц:

1) шкала ответов на вопрос об удовлетворенности
рассматривается как дискретная (порядковая/ранговая);

2) шкала ответов на вопрос об удовлетворенности рас­
сматривается как непрерывная (порядковая/интервальная).

Таблица 1 (первого типа)

Влияние самооценки л1атериального статуса на удовлетворенность жизнью




Удовлетворены ли Вы своей жизнью в целом?

(в % к каждой группе)

1

2 „

3

4

5




Совер­шенно удовле • творен

Скорее

не удов­летво­рен

illlf

т

Пол­ностью удовле творен

Всего

К какой груп­пе людей Вы бы Себя от­несли?



















Высокообес­печенным

0,0

50,0

0,0

50,0

0,0

100,0

Среднего достатка

11,2

/8,1

28,7

28,2

3,9

100,0

Малоимущим

23,0

37,1

26,5

12,2

1,2

100,0

В общем обзоре таблицы просматривается взаимо­связь между самооценкой материального статуса и удовле­творенностью жизнью. Однако количественное сравнение

различных групп по их общей удовлетворенности жизнью при шкале с повышенной степенью точности (в данном случае — 5 градаций) довольно затруднительно.

Обычно, представляя данные по дискретным шкалам, производят укрупнение групп по зависимой переменной (для удобства сравнения между группами по независимой переменной), преобразуя вид таблицы следующим образом.




Удовлетворены ли Вы своей жизнью в целом? (в % к каждой группе)

Не удовле­творен

Трудно ска­зать, удов­летворен или нет

Удовлетво­рен

Всего

К какой группе людей Вы бы Себя отнесли?













Высокообес­печенным

50,0

0,0

50,0

100,0

Срслнего достатка

39,3

28,7

32,1

100,0

Малоимущим

60,1

26,5

13,3

100,0

Преобразованная таким образом таблица позволяет не только «увидеть», что среди лиц «среднего достатка» больше людей, удовлетворенных жизнью, и меньше не­удовлетворенных по сравнению с «малоимущими», но и подсчитать, насколько (или во сколько раз) их больше. Если исследователь, рассматривая рабочую таблицу (в ко­торой указывается не только процент, но и абсолютное значение численности полученных групп), не обратит внимание на то, что к «высокообеспеченным» себя отне­сли всего 4 человека (в двумерных распределениях, подго­товленных к публикации, абсолютные значения часто не указываются), то он может пытаться найти объяснение тому, что среди «высокообеспеченных» «половина» людей не удовлетворена жизнью, и делать далекоидущие выводы о том, что «не в деньгах счастье», и что повышение уровня жизни выше среднего достатка приводит к повышению доли лиц, не удовлетворенных жизнью и т.д., и т.п.

На самом деле, данные этого опроса не позволяют делать никаких выводов в отношении лиц, относящих себя к высокообеспеченным, поскольку таковых в выборке ока­залось всего 4 человека.

Важнейшим правилом при представлении данных мно­гомерных распределений является необходимость учитывать численность полученных групп. Конечно внимательный ис­следователь даже на уровне здравого смысла догадается, что группа численностью в четыре человека не может репре­зентировать разброс мнений данной категории населения. Возникает вопрос — какой же численности должна быть по­лученная группа, чтобы по данным ее ответов можно было делать выводы о соответствующей категории населения, сравнивая ее с другими категориями (20, 30, 50, 100 и т.д. человек )? На этот вопрос нет однозначного ответа, пос­кольку на репрезентативность полученных данных влияют разные факторы: это и количество характеристик, по кото­рым выборочная группа репрезентирует данную категорию населения, и разброс мнений по исследуемому показателю, и форма распределения^ т.д. Но в статистическом анализе су­ществует такой критерий, как значимость различий. Не вдава­ясь в математические тонкости формулы расчета значимости различий долей (процентов), отметим лишь необходимость расчета статистической значимости различий в любом случае, когда автор рассуждает о различии в мнениях сравниваемых групп населения, и поясним в самом общем виде, о чем го­ворит критерий значимости различий долей.

В выборочном социологическом опросе исследователь обычно опрашивает определенную часть населения (выборку), а выводы делает относительно всей исследуемой совокупности (генеральной совокупности); эти же допущения лежат и в ос­нове ipynn, которые получает автор в процессе анализа (ведь когда он говорит о «высокообеспеченных» или о «малоиму­щих», он имеет ввиду все население, ограниченное лишь рам­ками генеральной совокупности). Предполагается, что выборку автор составил достаточно обоснованно. Но по тем же крите­риям отбора он может подготовить еще одну выборку. Разуме­ется, маловероятно, что он получит абсолютно идентичные ре­зультаты опроса. Формула расчета значимости различий позво­ляет учесть доверительную вероятность повторения такого же результата на идентичных выборках: сколько раз будет получен

тот же самый результат, если бы исследователь повторил опрос 100 раз на идентичных выборках? Обычно принято указывать достоверность различий путем расчета коэффициента, показы­вающего вероятность неправильного решения. Если мы го­ворим о том, что различия значимы на уровне 5% (0,05), то это означает, что в 95 случаях из 100 мы получим тот же результат.

В формулу расчета включаются такие показатели, как численность анализируемой группы, а также доля (процент) лиц давших такой вариант ответа, по которому фиксируется различие. В настоящее время нет необходимости вручную рассчитывать коэффициент значимости различий долей (обычно все программы статистической обработки и анализа позволяют рассчитывать его автоматически). Задача же ис­следователя'заключается в необходимости установления ко­эффициента значимости различий, прежде разговора о самих различиях. В социологическом анализе принято в качестве верхнего предела рассматривать 5%-ый уровень значимости. Другими словами, при анализе социологических данных, раз­личия в результатах, соответствующий коэффициент для ко­торых, больше значения 5% (0.05), признаются статистически незначимыми. Следует, конечно, осознавать условность этой грани!:...-;. Исследователь может представлять данные и с бо­лее низким порогом значимости, если считает их достаточно важными. Но в таких случаях он обязательно должен оценить значимость различий процентов, учитывать при общем ана­лизе материала и обязательно указать ее в тексте итогожмо документа. Но это можно делать только в случаях, когда го­товится научный документ Для специалистов. В общем слу­чае, различия, полученные в результате двухмерного анализа, признаются статистически недостоверными, что и требуется подчеркивать, приводя данные в виде двумерных таблиц.

Порядковая шкала, которую автор условно принимает за интервальную, позволяет представить данные двумерного анализа в несколько ином виде (см. таблицу 2). Такой вид данных предпочтительнее, когда шкала ответов имеет доста­точно высокую точность: в таком виде легче сравнивать раз­личные группы между собой, так как сравнение можно проводить по одному числу; в таком виде легче увидеть оп­ределенные тенденции. Кроме того, анализируемые группы не разбиваются на дополнительные подгруппы в соответст­вии с ответами по зависимой переменной.

Таблица 2 (второго типа)

Влияние самооценки материального статуса на удовлетворенность жизнью

К какой группе людей Вы бы себя отнесли?

Уровень удовлетворенности жизнью

(в баллах; шкала: 1-5)

N

Среднее арифмети­ческое

Стандарт­ное откло­нение

Высокообеспеченным

4

3,00

1,33

Среднего достатка

909

2,85

1,07

Малоимущим

842

2,31*

1,00

* Различие между группами «среднего достатка» и «малоимущими» значимо на уровне 0.01

Какие основные требования следует учитывать, представляя данные в таком виде?

Поскольку исследователь данную шкалу определил как интервальную достаточно условно, он должен быть уве­рен, что полученное распределение по своей форме при­ближается к нормальному. Мы уже говорили о тех показателях, которые позволяют оценить форму распреде­ления (асимметрия, эксцесс). Но если даже исследователь их не вычислил, то, по крайней мере, он может сделать са­мую грубую прикидку — обратить внимание на то, чтобы стандартное отклонение не превышало величину средней. Если стандартное отклонение превышает значение среднего арифметического, то результаты анализа в таком виде (значение средней) представлять нецелесообразно.

Так же, как и в случае сравнения данных в процен­тах, исследователь должен учитывать уровень значимости различия средних. В формулу расчета входят значения та­ких параметров, как численность группы, среднее арифме­тическое и стандартное отклонение.

Как следует оформлять таблицу, если она приводится в контексте анализа? Это зависит от целевого назначения текста.

Если таблицы приводятся в документах сугубо научно­го или отчетного характера, то все эти три параметра обяза­тельно должны включаться в соответствующую таблицу,

чтобы читатель мог сам пересчитать значимость различий, если его заинтересовали полученные данные.

В научных публикациях автор прежде всего несет от­ветственность за те основные положения, которые он обос­новывает полученными данными. Поэтому в тех случаях, когда различия имеют принципиальный для анализа харак­тер (автор отмечает их в тексте, или сами по себе они пред­ставляют социальный интерес, например, сравнивается до­верие к различным политическим лидерам и т.п.), исследо­ватель считает значимость различий и указывает результаты расчета в таблице (см. таблицу 2). Обычно принято одной звездочкой указывать различие, уровень значимости кото­рого 0.05, двумя звездочками — различие, уровень значи­мости которого 0.01 и тремя звездочками обозначать разли­чие, уровень значимости которого 0.001. В соответствующей части текста обычно принято употреблять слово «различие» («различаются»), если это различие значимо на уровне 0.05, и «существенное различие», если видимое в таблице раз­личие значимо на уровне 0.01 (и тем более на уровне 0.001).

Если вернуться к данным таблицы 2 и посмотреть по­лученные результаты — в оДном случае без учета коэффи­циента значимости различий, а в другом, учитывая этот статистический критерий, то выводы будут различаться. В первом случае, если автор не будет учитывать значимость различий, он может сделать следующий вывод: «Данные позволяют обнаружить тенденцию повышения уровня удов­летворенности жизнью с повышением оценки материаль­ного статуса, причем, с переходом на уровень «высокообес­печенных», уровень удовлетворенности жизнью возрастает незначительно». Но на самом деле, полученные данные не позволяют делать именно такой вывод; как и следовало ожидать, ввиду малочисленности группы «высокообеспечен­ных», ее отличие по показателю жизненной удовлетворен­ности статистически не значимо не только по отношению к группе «среднего достатка», но и по отношению к «мало­имущим». Из это не следует, что группа «высокообеспечен­ных» не отличается от других групп населения по уровню жизненной удовлетворенности; а следует только вывод, что полученные данные не позволяют судить об уровне удовле­творенности жизнью «высокообеспеченных», в том числе и сравнивать этот показатель с другими группами.

Сравнительный анализ малочисленных, с точки зре­ния возможностей статистических процедур, социальных групп, как уже отмечалось, очень распространенная ошиб­ка в публикациях, посвященных изложению результатов социологических опросов.

Поэтому, когда исследователь в результате двумерного анализа обнаруживает, что ответы на тот или иной вопрос анкеты представителей малочисленных групп существенно отличаются от ответов других групп населения, он всегда должен посчитать значимость этих различий. И если раз­личия статистически незначимы, он на основании данных только своего исследования не может сказать, отражают ли полученные данные реальную картину, или они вызваны нерепрезентативностью выборочной подгруппы по отноше­нию к соответствующей категории населения. Короче, на основании данных опроса, исследователь не может делать никаких выводов в отношении групп, численность которых в выборочной совокупности не позволяет делать стати­стически обоснованных выводов.

Что же должен делать исследователь, если малочис­ленность группы не позволяет приходить к статистически обоснованным выводам?

Первое, самое простое, решение — убрать из результатов двумерных таблиц, подготавливаемых к широкому обнародо­ванию, данные по группам, численность которых не позволяет делать обоснованных выводов. В противном случае, читатель, видя лишь представленные процентные распределения, будет введен в заблуждение. Конечно, при таком решении, часть информации «к размышлению» теряется. Но это лучше, чем формирование у неискушенного читателя искаженного пред­ставления об особенностях общественного сознания.

Второй "путь, который может избрать исследователь, это допустимое укрупнение анализируемых групп. Например, возрастную группу 18-20 лет можно укрупнить (18-25 лет или 18-30 лет и т.д.), увеличивая тем самым ее численность. В приведенной выше таблице 1 группу «высокообеспеченных» можно объединить с группой «среднего достатка», и в срав­нительном анализе сопоставлять ответы «малоимущих» с людьми «среднего достатка и выше». При этом в тексте ана­лиза следует отметить такое укрупнение, уточнив, сколько именно процентов от общей численности выборки составляет

присоединенная группа. Разумеется, далеко не все малочис­ленные группы правомерно объединять с другими категория­ми. В некоторых случаях это достаточно очевидно: наверня­ка, ни один исследователь при сравнительном анализе различных профессиональных категорий не будет объединять в одну группу «военнослужащих», «студентов» и «предприни­мателей». Несколько сложнее решать проблему укрупнения групп, полученных по условно порядковым шкалам. Напри­мер, градация ответов на вопрос анкеты, касающийся уровня образования, является случаем условно порядковой шкалы; и исследователь часто затрудняется с решением проблемы, с какой группой можно объединить категорию лиц, имеющих неоконченное высшее образование (эта категория тоже, как правило, в репрезентативных региональных выборках слиш­ком малочисленна для многомерного анализа). В таких случаях укрупнение групп — самостоятельная творческая проблема, требующая обоснованного решения, которое не следует отдавать на откуп респондентам: произвести укруп­нение в анкете (дать не все градации), а там — «пусть рес­пондент сам решает, к какой группе себя отнести».

Существует и третий путь решения проблемы воз­можностей анализа малочисленных групп — подготовка «выпуклой» выборки (см. лекцию 4, раздел «Объем выбо­рочной совокупности»).

3. Статистический анализ связи между двумя переменными

Стадии анализа

Построение двумерной таблицы и аналитическая ин­терпретация полученных данных — это лишь первая стадия анализа. Если основная задача исследователи ограничивает­ся представлением результатов опроса общественного мне­ния как населения в целом, так и основных социально-де­мографических групп, то, в принципе, анализ может этим и ограничиться. Но если основной целью исследования явля­ется поиск взаимосвязи между социальными явлениями, объяснение причин полученных данных, то внимание ис-

следователя переключается на изучение взаимосвязей между признаками. Поэтому основной задачей двумерного (как и любого многомерного) анализа на уровне объяснения явля­ется оценка величины и направленности связей между при­знаками, как статистической основы причинного объясне­ния полученных результатов.

Как следует проводить статистическую оценку ре­зультатов двумерного анализа?

Общая схема анализа связей между признаками по­зволяет сориентироваться в назначении наиболее распро­страненных статистических коэффициентов связи. Как уже отмечалось, для социолога-аналитика в настоящее время не так важно разбираться в математической основе формул расчета, как в понимании содержательного смысла и, сле­довательно, аналитического назначения и правил использо­вания различных статистических коэффициентов.

Общая технологическая схема предполагает: !) разгра­ничение трех стадий анализа; 2) определение, какая из пе­ременных будет выступать в анализе в качестве незави­симой, а какая — зависимой', 3) установление типа шкалы каждой из переменных.

Разграничивают три стадии анализа:

  1. установление связи между признаками;

  2. измерение связи между признаками;

  3. объяснение связи между признаками.

Для решения каждой из поставленных задач исполь­зуются свои статистические показатели, соответствующие типу шкалы.

Установление связи между признаками

Те исследователи, которым приходилось интерпретиро­вать результаты, представленные в двумерных таблицах, зна­ют: чем больше вариантов ответов на вопросы, выступающие в таблице в качестве независимых и з; ьисимых переменных, тем труднее проследить тенденции влияния одного признака на другой — обнаружить закономерность в изменении частот зависимой переменной с изменением характеристики незави­симой переменной. В том случае, когда деление на группы по независимой переменной — дихотомическое (например, по

полу или по самооценке материального статуса: «мало­обеспеченные» и «среднеобеспеченные»), и деление по зави­симой переменной — также дихотомическое («доверяют пре­зиденту» — «не доверяют президенту», «удовлетворены жиз­нью» — «не удовлетворены жизнью»), то различия между группами сравнивать достаточно легко; можно даже дать ко­личественную оценку — насколько больше доверяющих пре­зиденту в одной группе по сравнению с другой. Но чем в таблице больше сравниваемых между собой групп, и чем больше вариантов ответа, по которым сравниваются эти группы, тем сложнее визуально установить закономерность изменения в характере ответов.

Существует статистический критерий, позволяющий получить ответ на вопрос: есть ли связь между двумя при­знаками, представленными в таблице. Этот критерий на­зывается «хи квадрат».

Установление величины этого коэффициента и его статистической значимости позволяет ответить на вопрос о наличии связи между исследуемыми признаками. Эти вычисления обычно входят в компьютерные программы об­работки данных (SPSS, OCA). Если значение этого коэффи­циента статистически значимо, по крайней мере, на уровне 5%, то исследователь может сделать вывод о том, что между анализируемыми признаками есть определенная связь (чем выше значение данного коэффициента, тем более тесная связь между этими двумя признаками). Если значение хи-квадрата статистически не значимо на уровне 5%, то исс­ледователь не может сделать определенных выводов о на­личии связи между этими двумя параметрами. Расчетная формула данного коэффициента включает наполненность каждой из полученных в таблице подгрупп. Иногда иссле­дователь «забывает», что, производя группировку всей со­вокупности, он фактически из одной достаточно большой совокупности получает много маленьких. Например, если опрошено 1000 человек, и исследователь хочет определить, как влияет на оценку того или иного социального явления род занятий, то он разбивает всю совокупность на группы по роду занятий. Допустим,таких групп 10. Даже если они наполнены равномерно, то каждая подгруппа составляет 100 человек. Эти сто человек,давая ответ на вопрос о степени

доверия президенту по пятибалльной шкале, в свою очередь, разбиваются на подгруппы в зависимости от вы­бранного варианта ответа. Если они распределятся равно­мерно, то каждый вариант ответа отметят всего 20 человек (если какая-то социальная группа получается большей чис­ленности, или какой-либо вариант ответа отмечается боль­шим числом респондентов этой группы, то, соответственно, численность других подгрупп уменьшается) Поэтому при расчете хи-квадрата исследователь должен осознавать два момента. Первый — чем меньше градации анализируемых переменных, и, соответственно, чем больше численность полученных в результате кросс-табуляции подгрупп (на языке статистики они называются «степенями свободы»), тем более вероятно, что данный коэффициент покажет ве­личину и значимость связи между изучаемыми признаками, если такая связь есть в объективной реальности.

Второй момент, который следует отметить, может быть полезен для тех социологов, которые хотели бы разо­браться в содержательном значении данного коэффициента. Хи-квадрат рассчитывается, исходя из следующего предпо­ложения: если изменение одного признака не приводит к изменению другого, то все ответы распределятся равномер­но (так, как мы описали в вышеприведенном примере, — в каждой подгруппе будет по 20 человек). Чем больше влия­ние одного признака на другой, тем больше будет число и величина отклонений от такого линейного распределения, полученного в результате кросс-табуляции. Усредненное значение таких отклонений и лежит в основе расчета дан­ного коэффициента.

Таким образом, хи-квадрат позволяет получить ответ на вопрос, есть ли связь между признаками.

Здесь следует подчеркнуть, что установленное наличие связи еще не говорит о ее направленности и, тем более, о причинности. Например, один исследователь выдвигает ги­потезу о том, что удовлетворенность работой влияет на удовлетворенность жизнью, а другой исследователь считает, что общая удовлетворенность жизнью влияет на удов­летворенность человека своей работой. При проверке каж­дой из гипотез, коэффициент связи будет одинаков, так как он показывает только взаимосвязанность признаков.

Измерение связи между переменными

Если связь установлена, то исследователь может пе­реходить к следующей стадии анализа — измерению связи.

Выбор статистических процедур измерения связи за­висит от типа шкалы измерения признака. В зависимости от того, является шкала дискретной или непрерывной, ис­следователь должен выбирать те или иные статистические процедуры оценки связи. Принципы определения типа шкалы описаны в предыдущих разделах. Мы не будем де­тально останавливаться на математических и содержатель­ных особенностях данных коэффициентов; читатель при желании всегда может подробно изучить соответствующие разделы в литературе по математической статистике. За­дача данного учебного пособия —- познакомить читателя с основными правилами использования наиболее распро­страненных коэффициентов связи при анализе первичного социологического материала.

Компьютерные программы статистической обработки (SPSS, OCA) позволяют автоматически рассчитать многие из коэффициентов, измеряющих связь между признаками. Однако, получая автоматически рассчитанные коэффициен­ты связи, исследователь не должен забывать об адекват­ности данного коэффициента типу шкалы (компьютер ведь, если его «попросить», может подсчитать и среднее арифме­тическое между мужчинами и женщинами и на этой «основе» проводить дальнейший количественный анализ;.

Поэтому прежде всего необходимо учитывать, что наиболее популярный среди начинающих социологов ко­эффициент корреляции Пирсона-Браве (г), который свиде­тельствует о наличии той или иной степени линейной зави­симости между двумя переменными, может иметь смысл только в том случае, если обе переменные измеряются с помощью непрерывных шкал, а для шкал дискретных при­меняются другие коэффициенты: для ранговых порядко­вых — коэффициенты ранговой корреляции Спирмена и Кэндалла, а для номинальных шкал — коэффициенты ассо­циации и контингенции (для дихотомических шкал) и ко­эффициенты сопряженности (Пирсона и др. для шкал большей размерности).

Все перечисленные выше коэффициенты позволяю! определять только величину связи, но не ее направлен­ность. Для измерения направленности (меры возможного влияния одной переменной на другую) при анализе дис­кретных шкал используют лямбда-коэффициент Гудмана, а при наличии двух непрерывных шкал о направленности влияния можно судить по уравнению линейной регрессии.

Но используя коэффициенты или уравнения, опреде­ляющие направленность связи, исследователь должен пом­нить, что соответствующие значения показывают только некоторую вероятность направленной связи, но не позволяют делать окончательные выводы о причинной зависимости пе­ременных. Что является причиной, а что — следствием — решает исключительно сам исследователь, сначала формули­руя гипотезу, а затем, интерпретируя результаты анализа.

Объяснение связи между переменными

Идеальной целью любого анализа является объяснение полученных в результате опроса фактов. Установление при­чинной зависимости, между различными социальными и со­циально-психологическими явлениями открывает возможно­сти социального прогнозирования и управления изучаемыми процессами.

Статистика, как уже отмечалось, сама по себе объяс­нить ничего не может, она является лишь инструментом, позволяющим в определенной мере перевести в ко­личественные параметры все многообразие социальных явлений и связей между ними, определить правила их со­поставления, чтобы обоснованно подтвердить (или опро­вергнуть) содержательные посылки и выводы аналитика.

Адекватность объяснения полученным результатам оп­ределяется в основном теоретическим уровнем подготовлен­ности автора анализа (его знанием предмета и следованием законам логики). В какой мере статистические процедуры могут помочь в поиске каузальных (причинных) зависимос­тей? Мы не будем останавливаться на последних достиже­ниях в области статистики, направленных на поиск процедур, позволяющих обеспечить каузальный анализ. Чтобы их осво­ить, необходимо в какой-то мере пройти весь тот пугь, кото-

рый проходила математическая статистика в своем развитии. В данном учебном пособии, предназначенном в основном для тех исследователей, которые только начали осознавать необходимость повышения своего уровня квалификации в области анализа, мы остановимся на тех возможностях, осво­ить которые позволяет элементарная логика и изложенные выше правила анализа двумерных распределений.

Трехмерный анализ: введение контрольной переменной

Приступая к логическому объяснению установленных взаимосвязей, следует учитывать, что обнаруженная связь может не только не являться причинно-следственной, но, более того, может ввести исследователя в заблуждение. На­пример, в одном из исследований в процессе двухмерного анализа была установлена значимая связь между политичес­кими ориентациями людей и уровнем их тревожности: сто­ронники социалистической и, особенно, коммунистической ориентации значимо отличались более высоким уровнем тревожности по сравнению с людьми, ориентирующимися на демократическое преобразование общества. Если полу­ченные данные начинать интерпретировать, не учитывая того обстоятельства, что, возможно, существует третий фак­тор, который, одновременно влияет и на политические ори­ентации, и на уровень тревожности, то только из одной этой двумерной таблицы можно было бы сделать далеко идущие выводы. Однако предположение о том, что такой фактор существует, позволило установить, что в данном случае основным фактором того и другого показателей (по­литических ориентации и уровня тревожности) является возраст (со всеми социальными и психологическими осо­бенностями, сопутствующими этой переменной): у молодых сторонников социализма уровень тревожности практически не отличался от уровня тревожности лиц, придерживаю­щихся других политических взглядов. Подобная картина наблюдалась и у пожилых людей с разными политическими ориентациями. Основная же причина обнаружения более высокого уровня тревожности в группе сторонников «левых сил» состояла в том, что в этой группе доля пожилых людей

была существенно выше, чем в группе приверженцев идеи демократического преобразования общества.

Введение в двумерный анализ контрольной переменной позволяет избежать ошибок объяснения установленных в результате, двумерного анализа связей. В качестве контроль­ных переменных следует, в первую очередь, использовать те демографические характеристики, которые были заложены в основу подготовки репрезентативной выборки. Это объяс­няется тем, что когда исследователь обосновывает принци­пы отбора, он прежде всего заботится о том, чтобы выборочная совокупность репрезентировала генеральную по тем параметрам, которые в наибольшей степени могут вли­ять на показатели изучаемого явления. Если изучается связь между исследуемым показателем и различными социально-демографическими факторами, и установлено, что в той или иной степени каждый из них влияет на исследуемый пока­затель, то иерархизируя их по величине связи, следует убе­диться, что каждый из этих факторов оказывает влияние сам по себе, а не только опосредуется другими.

Введение контрольной переменной приводит к по­строению трехмерных таблиц.

Эти таблицы можно анализировать визуально, а мож­но и статистически. Визуальный просмотр таблицы позво­ляет «увидеть», действительно ли зависимая переменная изменяется с изменением независимой, если группы урав­нены по третьему параметру.

В качестве примера введения третьей переменной приведем фрагмент анализа факторов самочувствия (само­оценки здоровья). Допустим исследователь построил две двумерные таблицы: Таблица А (в качестве независимой переменной — пол, зависимой — самочувствие); и Таблица Б (в качестве независимой переменной — возраст, зависи­мой — самочувствие).

Таблица А

Влияние пола на самооценку здоровья (самочувствие), %

Самочувствие

Пол

Мужчины

Женщины

Плохое

24

38

Среднее

48

47

Хорошее

28

15

Всего %

!00

100

N

794

1007

Таблица Б

Влияние возраста на самооценку здоровья (самочувствие), %

Самочувствие

Возраст

18-30

31-55

56-80

Плохое

12

23

61

Среднее

46

57

35

Хорошее

42

20

4

Всего %

100

100

100

N

446

834

497

Визуальный обзор и сопоставление этих двух таблиц показывает, что на самочувствие влияют оба фактора: пол (среди женщин больше тех, кто чувствует себя плохо, и меньше тех, кто чувствует себя хорошо, по сравнению с мужчинами) и возраста (чем старше возрастная группа, тем больше доля «чувствующих себя плохо» и меньше — «чувс­твующих себя хорошо»)- Данные таблицы также позволяют «увидеть», что возраст оказывает более сильное влияние на самочувствие, чем пол: величина зависимой переменной в

большей степени изменяется с изменением независимой в таблице Б. Статистическая проверка по хи-квадрату под­тверждает вывод, сделанный на основе визуального сравне­ния: в таблице А хи-квадрат равен 67,3, в таблице Б — 197,4 (оба коэффициента значимы на уровне 0.01).

Внимательный аналитик не может не поставить перед собой вопрос: «Действительно ли пол сам по себе влияет на самочувствие. Может быть, поскольку продолжительность жизни женщин выше, их средний возраст выше, чем у мужчин, и в таблице А влияние пола опосредуется возрас­тным фактором?». Поэтому, прежде чем делать окончатель­ные выводы о влиянии пола на самочувствие, необходимо проверить, влияет ли пол на самочувствие независимо от возраста. Для проверки этой гипотезы строится трехмерная таблица, позволяющая нивелировать влияние возраста: са­мочувствие мужчин и женщин сравнивается в пределах каж­дой возрастной группы (см. таблицу С).

Таблица С

Влияние пола на самочувствие у различных возрастных контингентов, %

Возраст

18-30

31-55

56-80

Пол

Муж­чины

Жен­щины

Муж­чины

Жен­щины

Муж­чины

Жен­щины

Самочувствие



















Плохое

9

15

17

29

53

65

Среднее

38

54

58

56

42

30

Хорошее

53

31

25

15

5

5

Всего %

100

100

100

100

100

100

N

212

234

394

439

175

320
1   2   3   4   5   6   7   8   9   10   11


Учебный материал
© nashaucheba.ru
При копировании укажите ссылку.
обратиться к администрации