Панина Н.В. Технология социологического исследования - файл n1.doc
приобрестиПанина Н.В. Технология социологического исследованияскачать (1369.5 kb.)
Доступные файлы (1):
n1.doc
Квалифицированный статистический анализ средних значений заключается в том, что, приводя значение среднего арифметического, исследователь должен привести и данные по значению изменчивости этого признака (вариации, рассеянию, колеблемости) — величины отклонений от среднего значения.
Меры изменчивости Наряду с мерами центральной тенденции, для описания данных необходимо приводить и параметры, характеризующие степень изменчивости (вариации, рассеяния) признака. Существует целый ряд величин, позволяющих оценить меры рассеяния признака. В статистике обычно приводится ряд параметров, позволяющих оценить изучаемую совокупность в целом. Это указание
минимума и
максимума. Минимум — это наименьшее значение признака, полученное в результате измерения (в приведенном примере — 14 лет в первом массиве опрошенных и 9 лет — во втором). Максимум, соответственно, — наибольшее значение (в приведенном примере 8 лет в первом массиве и 60 — во вто-
ром). Если исследователь при описании полученных данных, дополнительно к указанию среднего возраста привел бы только эти величины, то уже было бы понятно, что описываются разные возрастные контингенты. Указание границ значения признака называется
вариационный размах. Но и этого параметра недостаточно для адекватного представления о характеристике возраста опрошенных.
Наиболее информативным параметром рассеяния являются такие показатели, как
стандартное отклонение и
дисперсия. Стандартное отклонение и дисперсия — взамосвязан-ные величины, показывающие среднюю величину отклонения (всех опрошенных) от среднего значения. Стандартное отклонение позволяет, во-первых, судить, насколько далеки в среднем значения всех опрошенных от среднего арифметического; во-вторых, стандартное отклонение является величиной, которая лежит з основе многих видов многомерного анализа.
В настоящее время у исследователя нет необходимости вручную считать стандартное отклонение: практически все компьютерные программы обработки социологических данных позволяют автоматически получать значение этого показателя.
В задачу же исследователя входит, во-первых, самому обратить внимание на этот индикатор (в первую очередь на то, чтобы значение стандартного отклонения не превышало значение среднего арифметического); а во-вторых, обязательно приводить этот показатель в аналитических таблицах (там, где приводится значение средних арифметических, рядом необходимо привести значение стандартного отклонения).
Таким образом, мы видим, что, характеризуя данные, полученные по непрерывным шкалам (метрической и интервальной), исследователь, наряду со средним обобщающим показателем изучаемого признака, описывает и характер его разброса (изменчивость признака)

Форма распределения Существует еще одна характеристика распределения данных, полученных по непрерывным шкалам, которую исследователь тоже должен обязательно учитывать. Это
форма распределения. Данные распределения старшеклассников по возрасту являются примером
нормального распределения. Нормальным является такое распределение, при котором кривая построенного по его данным графика представляет собой колоколообразную симметричную кривую.
Например, если мы построим график по данным распределения старшеклассников по возрасту, то получим соответствующую колоколообразную кривую. Если же мы построим график по массиву третьеклассников и учителей, опрошенных в одной школе, мы получим две кривые. Нормальное распределение — это теоретическая кривая. Практически любые эмпирические данные в той или иной степени отклоняются от нормального распределения вероятностей, закону которого подчиняются распределения случайных величин. Но поскольку все расчеты, включающие значение среднего арифметического и "стандартного отклонения, основаны на теории вероятности, в аналитическую задачу исследователя входит оценка (по крайней мере, приблизительная) того, насколько правомерно использовать данный тип анализа к полученным результатам. Поэтому даже на уровне описания (не говоря уже о множественном анализе), прежде чем приводить данные по их средним значениям (среднее арифметическое и стандартное отклонение), необходимо оценить характер формы распределения — в какой степени она приближается к нормальному распределению.
Для этого используют показатели скоса (ассиметрии, skewness) и эксцесса (kunosis). В скобках указываются термины, которые обычно у разных авторов используются для обозначения одних и тех же понятий. В частности, здесь приведены англоязычные обозначения рассматриваемых характеристик, которые приводятся в компьютерной программе обработки и анализа социологических данных — SPSS.
Показатель скоса (skewness) позволяет оценить степень и направленность ассиметрии кривой распределения.
В случае идеального нормального распределения ассимет-рия равна нулю.
В эмпирической социологии идеальные нормальные распределения практически не встречаются. Но существуют методы оценки степени приближения полученного распределения к нормальному. Коэффициент скоса имеет числовое значение и знак, указывающий направленность скоса. Чем больше величина отличается от нуля, тем большая асимметрия у полученного распределения, и, соответственно, большая погрешность может проявиться при применении коэффициентов статистического анализа, формула которых включает значения стандартного отклонения.
Существуют специальные процедуры оценки степени допустимости такой погрешности, а также искусственной нормализации шкалы. Исследователь может, при необходимости, осуществлять преобразование данных. С различными способами преобразования данных можно ознакомиться в специальной справочной и учебной литературе, но исследователю необходимо обязательно оценить степень асимметрии. (Простейшим косвенным показателем, указывающим на асимметрию, является расхождение между значениями среднего арифметического, моды и медианы; при идеальном нормальном распределении все три показателя равны).
Показатель эксцесса (kurtosis) показывает, в какой степени «крутизна» полученной кривой приближается к нормальному распределению.
Показатели асимметрии и эксцесса необходимы исследователю в первую очередь для того, чтобы он мог установить — в какой степени в анализе может быть использовано стандартное отклонение.
Таким образом, на первом этапе анализа (описания данных), представляя данные, полученные с помощью непрерывных шкал (метрических и интервальных), исследователь должен руководствоваться следующими правилами.
1. Рассмотреть среднее арифметическое (mean), стандартное отклонение, коэффициент асимметрии и коэффициент эксцесса. Эти показатели позволяют решить, можно ли эти данные использовать в основном анализе или они требуют дополнительных преобразований.

Если исследователь не овладел техникой преобразования данных, ему следует отказаться от представления полученных по этому показателю значений среднего арифметического в итоговом научном документе (отчете, статье, таблицах и т.п.). В противном случае, информация будет носить неадекзатный, искаженный характер.
В тех случаях, когда эти показатели удовлетворительны, данные по метрическим шкалам обычно представляют в итоговых таблицах по следующим параметрам: 1) N (численность группы, по которой считалось среднее значение); 2) величина среднего арифметического; 3) величина стандартного отклонения. Эти параметры позволяют в дальнейшем при необходимости посчитать статистическую значимость различий между средними значениями у различных групп населения. Допустим, если автор анализа приводит данные по средней заработной плате различных групп населения, то эти параметры позволят не только сравнить — насколько различается средняя заработная плата
"у каких-либо двух категорий работников, представленных в таблице, но и оценить — является ли это различие статистически значимым (с какой степенью вероятности мы получим то же самое различие при повторных исследованиях на других аналогичных выборках).
Такое представление данных позволяет переходить на следующий уровень анализа — объяснение и интерпретация полученных данных.
Лекция 9
Кросс-табуляция:
анализ двумерных таблиц
1. Роль статистики в процессе социологического анализа
Возможности и ограниченность Если на первом уровне анализа основной задачей исследователя являлось адекватное и корректное
описание полученных фактов, то ко второму уровню автор переходит с целью поиска
объяснения полученным фактам.
Следует сразу же подчеркнуть основную особенность статистического анализа данных, полученных в результате массового опроса. Сами по себе статистические процедуры не приводят к объяснению полученных фактов, они являются лишь инструментом проверки гипотез, выдвигаемых исследователем. Применяя те или иные статистические процедуры, автор получает ответ на свой собственный запрос — подтверждается или не подтверждается полученными з результате конкретного опроса данными проверяемая гипотеза.
Роль исследовательской гипотезы б процессе анализа данных Если гипотеза подтверждается, то статистический инструментарий позволяет установить вероятность правильности вывода. Если гипотеза не подтверждается, то это еще не означает, что она была неверной, так как причина может
заключаться в неполноте программы, неадекватности инструментария, погрешностях организации сбора данных и т.п. Таким образом, основным инструментом содержательного анализа изучаемых социальных процессов являются аналитические возможности исследователя (его знание предмета исследования, логика, инструментальная компетентность), позволяющие ему в процессе теоретического анализа выдвинуть гипотезы, эмпирическая проверка которых открывает возможность объяснять причины исследуемых процессов или явлений. Статистический анализ позволяет лишь подтвердить (или не подтвердить) выдвинутые гипотезы эмпирическим материалом. Никакой статистический анализ не поможет объяснить факты причинами, которые не были заложены в инструментарий исследования. Исследователь всегда должен помнить, что реальные причины, влияющие на исследуемые факты, могли остаться вне его поля зрения (или, по крайней мере, вне инструментария). Если автор не предусмотрел возможное влияние тех или иных причин, когда готовил инструментарий исследования, то эти причины и не будут обнаруживаться в процессе анализа полученных данных.
После этой преамбулы, суть которой не следует забывать в процессе статистического анализа полученных данных, рассмотрим основную технологическую схему двумерного анализа, позволяющую перейти от статистического описания результатов исследования к использованию статистических процедур в объяснении полученных фактов.
2. Кросс-табуляция
Зависимые и независимые переменные Основой анализа связи между двумя переменными является подготовка двумерных таблиц (cross-tabulation), представляющая собой взаимное пересечение двух рядов распределений.
Переменные для рядов распределения определяются гипотезами исследователя. Одна переменьая рассматривается как фактор (причина), влияющая на исследуемое явление
другая — как показатель этого явления. Один и тот же признак (представленный в инструментарии вопросом анкеты) в процессе анализа может выступать и в качестве показателя и в качестве фактора. Например, одна гипотеза может быть сформулирована так: «Уровень образования влияет на удовлетворенность работой: чем выше уровень образования, тем выше уровень удовлетворенности работой». Другая гипотеза, требующая проверки, может быть следующей: «Удовлетворенность работой влияет на общую удовлетворенность человека жизнью: чем выше удовлетворенность работой, тем выше удовлетворенность жизнью». В первом случае удовлетворенность работой выступает в качестве показателя, а во втором — в качестве фактора. Когда признак в процессе статистической проверки гипотезы рассматривается в качестве фактора, он называется
независимой переменной (подлежащим); когда признак рассматривается в качестве показателя, в статистическом анализе он называется
зависимой неременной (сказуемым).
Содержательный смысл таблицы, построенной на основе результатов кросс-табуляции, заключается в следующем. По признаку, рассматриваемому в качестве независимой переменной, исследователь разбивает всю совокупность опрошенных на отдельные группы (подгруппы). Наряду с общим результатом одномерного распределения по изучаемому показателю, исследователь параллельно получает результаты распределения мнений отдельных подгрупп населения, и эти результаты сравнивает между собой. Чем больше различие в характере ответов у этих групп, тем о большей связи между двумя переменными можно говорить. Обращаясь к приведенному выше примеру, можно сказать, что, проверяя первую гипотезу, исследователь всю совокупность разбивает на группы с различным уровнем образования (здесь, напомним, проверять гипотезу будет тем легче, чем более произведенная группировка соответствует выдвинутой гипотезе: если речь идет об уровне образования, то полученные группы должны различаться между собой именно по уровню образования); проверяя же вторую гипотезу, исследователь разбивает всю совокупность на группы людей, различающихся между собой по уровню удовлетворенности работой.
Построенная двумерная таблица позволяет «на глаз» увидеть, различаются ли ответы у разных групп населения. В


таком виде обычно и рассматривает результаты исследования заинтересованный потребитель информации. Но результаты, оцениваемые «на глаз», часто, могут вводить в заблуждение.
Поэтому основной задачей исследователя-аналитика, представляющего результаты опроса в виде двумерных распределений является
статистическая экспертиза — оценка и отбор качественной информации. Просмотрев и статистически оценив сотни (а то и тысячи) двумерных таблиц, он должен для широкой аудитории (и для своего дальнейшего анализа) отобрать только те, которые соответствуют статистическим критериям качества информации. Другими словами, исследователь, прежде чем публиковать результаты двумерного анализа, должен осуществить статистическую экспертизу, позволяющую либо «пропустить» результаты исследования для широкого обнародования (в том случае, если полученные данные статистически обоснованы), либо «отбраковать» таблицы (в тех случаях, когда видимые «на глаз» различия статистически недостоверны в силу тех или иных причин, и могут привести к неверным выводам). Если исследователь не удовлетворен результатами статистической проверки (другими словами, интуиция подсказывает ему, что гипотеза была верной), он может в дальнейших исследованиях проверять ее, совершенствуя инструментарий и организацию сбора информации. Но он не должен представлять для широкой аудитории данные, не соответствующие статистическим критериям. Прежде чем рассмотреть особенности использования статистических показателей для последовательного осуществления шагов объяснительного анализа, рассмотрим двумерную таблицу, с точки зрения описания и интерпретации кросс-табуляции полученных данных.
I
Описание и статистическая экспертиза двумерных таблиц Самая простая процедура — с помошью компьютера получить таблицу двумерного распределения. Допустим, исследователь хочет проверить гипотезу о влиянии материального уровня жизни на общую удовлетворенность жизнью. Более того, он считает, что на удовлетворенность жизнью влияет не столько реальный уровень материального благополучия,
сколько самооценка человеком своего материального статуса. Допустим, что для измерения самооценки материального статуса в инструментарий был включен вопрос: «К какой группе людей по уровню материальной обеспеченности Вы бы себя отнесли?». Полученные данные показали, что из 1755 опрошенных 4 человека отнесли себя «к высокообеспеченным», 909 — к «людям среднего достатка», 842 — к «малоимущим». Объявляя этот признак независимой переменной, а ответы на вопрос об удовлетворенности жизнью (с веером ответов, включающим пять вариантов) — зависимой переменной, исследователь может получить два типа двумерных таблиц:
1) шкала ответов на вопрос об удовлетворенности
рассматривается как дискретная (порядковая/ранговая);
2) шкала ответов на вопрос об удовлетворенности рас
сматривается как непрерывная (порядковая/интервальная).
Таблица 1 (первого типа) Влияние самооценки л1атериального статуса на удовлетворенность жизнью
| Удовлетворены ли Вы своей жизнью в целом? (в % к каждой группе) |
1 | 2 „ | 3 | 4 | 5 |
|
Совершенно удовле • творен | Скорее не удовлетворен | illlf | т | Полностью удовле творен | Всего |
К какой группе людей Вы бы Себя отнесли? |
|
|
|
|
|
|
Высокообеспеченным | 0,0 | 50,0 | 0,0 | 50,0 | 0,0 | 100,0 |
Среднего достатка | 11,2 | /8,1 | 28,7 | 28,2 | 3,9 | 100,0 |
Малоимущим | 23,0 | 37,1 | 26,5 | 12,2 | 1,2 | 100,0 |
В общем обзоре таблицы просматривается взаимосвязь между самооценкой материального статуса и удовлетворенностью жизнью. Однако количественное сравнение

различных групп по их общей удовлетворенности жизнью при шкале с повышенной степенью точности (в данном случае — 5 градаций) довольно затруднительно.
Обычно, представляя данные по дискретным шкалам, производят укрупнение групп по зависимой переменной (для удобства сравнения между группами по независимой переменной), преобразуя вид таблицы следующим образом.
| Удовлетворены ли Вы своей жизнью в целом? (в % к каждой группе) |
Не удовлетворен | Трудно сказать, удовлетворен или нет | Удовлетворен | Всего |
К какой группе людей Вы бы Себя отнесли? |
|
|
|
|
Высокообеспеченным | 50,0 | 0,0 | 50,0 | 100,0 |
Срслнего достатка | 39,3 | 28,7 | 32,1 | 100,0 |
Малоимущим | 60,1 | 26,5 | 13,3 | 100,0 |
Преобразованная таким образом таблица позволяет не только «увидеть», что среди лиц «среднего достатка» больше людей, удовлетворенных жизнью, и меньше неудовлетворенных по сравнению с «малоимущими», но и подсчитать, насколько (или во сколько раз) их больше. Если исследователь, рассматривая рабочую таблицу (в которой указывается не только процент, но и абсолютное значение численности полученных групп), не обратит внимание на то, что к «высокообеспеченным» себя отнесли всего 4 человека (в двумерных распределениях, подготовленных к публикации, абсолютные значения часто не указываются), то он может пытаться найти объяснение тому, что среди «высокообеспеченных» «половина» людей не удовлетворена жизнью, и делать далекоидущие выводы о том, что «не в деньгах счастье», и что повышение уровня жизни выше среднего достатка приводит к повышению доли лиц, не удовлетворенных жизнью и т.д., и т.п.
На самом деле, данные этого опроса не позволяют делать никаких выводов в отношении лиц, относящих себя к высокообеспеченным, поскольку таковых в выборке оказалось всего 4 человека.
Важнейшим правилом при представлении данных многомерных распределений является необходимость учитывать численность полученных групп. Конечно внимательный исследователь даже на уровне здравого смысла догадается,
что группа численностью
в четыре человека не может репрезентировать разброс мнений данной категории населения. Возникает вопрос — какой же численности должна быть полученная группа, чтобы по данным ее ответов можно было делать выводы о соответствующей категории населения, сравнивая ее с другими категориями (20, 30, 50, 100 и т.д. человек )? На этот вопрос нет однозначного ответа, поскольку на репрезентативность полученных данных влияют разные факторы: это и количество характеристик, по которым выборочная группа репрезентирует данную категорию населения, и разброс мнений по исследуемому показателю, и форма распределения^ т.д. Но в статистическом анализе существует такой критерий, как значимость различий. Не вдаваясь в математические тонкости формулы расчета значимости различий долей (процентов), отметим лишь необходимость расчета статистической значимости различий в любом случае, когда автор рассуждает о различии в мнениях сравниваемых групп населения, и поясним в самом общем виде, о чем говорит критерий значимости различий долей.
В выборочном социологическом опросе исследователь обычно опрашивает определенную часть населения (выборку), а выводы делает относительно всей исследуемой совокупности (генеральной совокупности); эти же допущения лежат и в основе ipynn, которые получает автор в процессе анализа (ведь когда он говорит о «высокообеспеченных» или о «малоимущих», он имеет ввиду все население, ограниченное лишь рамками генеральной совокупности). Предполагается, что выборку автор составил достаточно обоснованно. Но по тем же критериям отбора он может подготовить еще одну выборку. Разумеется, маловероятно, что он получит абсолютно идентичные результаты опроса. Формула расчета значимости различий позволяет учесть доверительную вероятность повторения такого же результата на идентичных выборках: сколько раз будет получен
тот же самый результат, если бы исследователь повторил опрос 100 раз на идентичных выборках? Обычно принято указывать достоверность различий путем расчета коэффициента, показывающего вероятность неправильного решения. Если мы говорим о том, что различия значимы на уровне 5% (0,05), то это означает, что в 95 случаях из 100 мы получим тот же результат.
В формулу расчета включаются такие показатели, как численность анализируемой группы, а также доля (процент) лиц давших такой вариант ответа, по которому фиксируется различие. В настоящее время нет необходимости вручную рассчитывать коэффициент значимости различий долей (обычно все программы статистической обработки и анализа позволяют рассчитывать его автоматически). Задача же исследователя'заключается в необходимости установления коэффициента значимости различий, прежде разговора о самих различиях. В социологическом анализе принято в качестве верхнего предела рассматривать 5%-ый уровень значимости. Другими словами, при анализе социологических данных, различия в результатах, соответствующий коэффициент для которых, больше значения 5% (0.05), признаются статистически незначимыми. Следует, конечно, осознавать условность этой грани!:...-;. Исследователь может представлять данные и с более низким порогом значимости, если считает их достаточно важными. Но в таких случаях он обязательно должен оценить значимость различий процентов, учитывать при общем анализе материала и обязательно указать ее в тексте итогожмо документа. Но это можно делать только в случаях, когда готовится научный документ Для специалистов. В общем случае, различия, полученные в результате двухмерного анализа, признаются статистически недостоверными, что и требуется подчеркивать, приводя данные в виде двумерных таблиц.
Порядковая шкала, которую автор условно принимает за интервальную, позволяет представить данные двумерного анализа в несколько ином виде (см. таблицу 2). Такой вид данных предпочтительнее, когда шкала ответов имеет достаточно высокую точность: в таком виде легче сравнивать различные группы между собой, так как сравнение можно проводить по одному числу; в таком виде легче увидеть определенные тенденции. Кроме того, анализируемые группы не разбиваются на дополнительные подгруппы в соответствии с ответами по зависимой переменной.
Таблица 2 (второго типа)
Влияние самооценки материального статуса на удовлетворенность жизнью
К какой группе людей Вы бы себя отнесли? | Уровень удовлетворенности жизнью (в баллах; шкала: 1-5) |
N | Среднее арифметическое | Стандартное отклонение |
Высокообеспеченным | 4 | 3,00 | 1,33 |
Среднего достатка | 909 | 2,85 | 1,07 |
Малоимущим | 842 | 2,31* | 1,00 |
*
Различие между группами «среднего достатка» и «малоимущими» значимо на уровне 0.01 Какие основные требования следует учитывать, представляя данные в таком виде?
Поскольку исследователь данную шкалу определил как интервальную достаточно условно, он должен быть уверен, что полученное распределение по своей форме приближается к нормальному. Мы уже говорили о тех показателях, которые позволяют оценить форму распределения (асимметрия, эксцесс). Но если даже исследователь их не вычислил, то, по крайней мере, он может сделать самую грубую прикидку — обратить внимание на то, чтобы стандартное отклонение не превышало величину средней. Если стандартное отклонение превышает значение среднего арифметического, то результаты анализа в таком виде (значение средней) представлять нецелесообразно.
Так же, как и в случае сравнения данных в процентах, исследователь должен учитывать уровень значимости различия средних. В формулу расчета входят значения таких параметров, как численность группы, среднее арифметическое и стандартное отклонение.
Как следует оформлять таблицу, если она приводится в контексте анализа? Это зависит от целевого назначения текста.
Если таблицы приводятся в документах сугубо научного или отчетного характера, то все эти три параметра обязательно должны включаться в соответствующую таблицу,
чтобы читатель мог сам пересчитать значимость различий, если его заинтересовали полученные данные.
В научных публикациях автор прежде всего несет ответственность за те основные положения, которые он обосновывает полученными данными. Поэтому в тех случаях, когда различия имеют принципиальный для анализа характер (автор отмечает их в тексте, или сами по себе они представляют социальный интерес, например, сравнивается доверие к различным политическим лидерам и т.п.), исследователь считает значимость различий и указывает результаты расчета в таблице (см. таблицу 2). Обычно принято одной звездочкой указывать различие, уровень значимости которого 0.05, двумя звездочками — различие, уровень значимости которого 0.01 и тремя звездочками обозначать различие, уровень значимости которого 0.001. В соответствующей части текста обычно принято употреблять слово «различие» («различаются»), если это различие значимо на уровне 0.05, и «существенное различие», если видимое в таблице различие значимо на уровне 0.01 (и тем более на уровне 0.001).
Если вернуться к данным таблицы 2 и посмотреть полученные результаты — в оДном случае без учета коэффициента значимости различий, а в другом, учитывая этот статистический критерий, то выводы будут различаться. В первом случае, если автор не будет учитывать значимость различий, он может сделать следующий вывод: «Данные позволяют обнаружить тенденцию повышения уровня удовлетворенности жизнью с повышением оценки материального статуса, причем, с переходом на уровень «высокообеспеченных», уровень удовлетворенности жизнью возрастает незначительно». Но на самом деле, полученные данные не позволяют делать именно такой вывод; как и следовало ожидать, ввиду малочисленности группы «высокообеспеченных», ее отличие по показателю жизненной удовлетворенности статистически не значимо не только по отношению к группе «среднего достатка», но и по отношению к «малоимущим». Из это не следует, что группа «высокообеспеченных» не отличается от других групп населения по уровню жизненной удовлетворенности; а следует только вывод, что полученные данные не позволяют судить об уровне удовлетворенности жизнью «высокообеспеченных», в том числе и сравнивать этот показатель с другими группами.
Сравнительный анализ малочисленных, с точки зрения возможностей статистических процедур, социальных групп, как уже отмечалось, очень распространенная ошибка в публикациях, посвященных изложению результатов социологических опросов.
Поэтому, когда исследователь в результате двумерного анализа обнаруживает, что ответы на тот или иной вопрос анкеты представителей малочисленных групп существенно отличаются от ответов других групп населения, он всегда должен посчитать значимость этих различий. И если различия статистически незначимы, он на основании данных только своего исследования не может сказать, отражают ли полученные данные реальную картину, или они вызваны нерепрезентативностью выборочной подгруппы по отношению к соответствующей категории населения. Короче, на основании данных опроса, исследователь не может делать никаких выводов в отношении групп, численность которых в выборочной совокупности не позволяет делать статистически обоснованных выводов.
Что же должен делать исследователь, если малочисленность группы не позволяет приходить к статистически обоснованным выводам?
Первое, самое простое, решение — убрать из результатов двумерных таблиц, подготавливаемых к широкому обнародованию, данные по группам, численность которых не позволяет делать обоснованных выводов. В противном случае, читатель, видя лишь представленные процентные распределения, будет введен в заблуждение. Конечно, при таком решении, часть информации «к размышлению» теряется. Но это лучше, чем формирование у неискушенного читателя искаженного представления об особенностях общественного сознания.
Второй "путь, который может избрать исследователь, это допустимое укрупнение анализируемых групп. Например, возрастную группу 18-20 лет можно укрупнить (18-25 лет или 18-30 лет и т.д.), увеличивая тем самым ее численность. В приведенной выше таблице 1 группу «высокообеспеченных» можно объединить с группой «среднего достатка», и в сравнительном анализе сопоставлять ответы «малоимущих» с людьми «среднего достатка и выше». При этом в тексте анализа следует отметить такое укрупнение, уточнив, сколько именно процентов от общей численности выборки составляет
присоединенная группа. Разумеется, далеко не все малочисленные группы правомерно объединять с другими категориями. В некоторых случаях это достаточно очевидно: наверняка, ни один исследователь при сравнительном анализе различных профессиональных категорий не будет объединять в одну группу «военнослужащих», «студентов» и «предпринимателей». Несколько сложнее решать проблему укрупнения групп, полученных по условно порядковым шкалам. Например, градация ответов на вопрос анкеты, касающийся уровня образования, является случаем условно порядковой шкалы; и исследователь часто затрудняется с решением проблемы, с какой группой можно объединить категорию лиц, имеющих неоконченное высшее образование (эта категория тоже, как правило, в репрезентативных региональных выборках слишком малочисленна для многомерного анализа). В таких случаях укрупнение групп — самостоятельная творческая проблема, требующая обоснованного решения, которое не следует отдавать на откуп респондентам: произвести укрупнение в анкете (дать не все градации), а там — «пусть респондент сам решает, к какой группе себя отнести».
Существует и третий путь решения проблемы возможностей анализа малочисленных групп — подготовка «выпуклой» выборки (см. лекцию 4, раздел «Объем выборочной совокупности»).
3. Статистический анализ связи между двумя переменными
Стадии анализа Построение двумерной таблицы и аналитическая интерпретация полученных данных — это лишь первая стадия анализа. Если основная задача исследователи ограничивается представлением результатов опроса общественного мнения как населения в целом, так и основных социально-демографических групп, то, в принципе, анализ может этим и ограничиться. Но если основной целью исследования является поиск взаимосвязи между социальными явлениями, объяснение причин полученных данных, то внимание ис-
следователя переключается на изучение взаимосвязей между признаками. Поэтому основной задачей двумерного (как и любого многомерного) анализа на уровне объяснения является оценка величины и направленности связей между признаками, как статистической основы причинного объяснения полученных результатов.
Как следует проводить статистическую оценку результатов двумерного анализа?
Общая схема анализа связей между признаками позволяет сориентироваться в назначении наиболее распространенных статистических коэффициентов связи. Как уже отмечалось, для социолога-аналитика в настоящее время не так важно разбираться в математической основе формул расчета, как в понимании содержательного смысла и, следовательно, аналитического назначения и правил использования различных статистических коэффициентов.
Общая технологическая схема предполагает: !) разграничение трех стадий анализа; 2) определение, какая из переменных будет выступать в анализе в качестве независимой, а какая — зависимой', 3) установление типа шкалы каждой из переменных.
Разграничивают три стадии анализа:
установление связи между признаками;
измерение связи между признаками;
объяснение связи между признаками.
Для решения каждой из поставленных задач используются свои статистические показатели, соответствующие типу шкалы.
Установление связи между признаками Те исследователи, которым приходилось интерпретировать результаты, представленные в двумерных таблицах, знают: чем больше вариантов ответов на вопросы, выступающие в таблице в качестве независимых и з; ьисимых переменных, тем труднее проследить тенденции влияния одного признака на другой — обнаружить закономерность в изменении частот зависимой переменной с изменением характеристики независимой переменной. В том случае, когда деление на группы по независимой переменной — дихотомическое (например, по

полу или по самооценке материального статуса: «малообеспеченные» и «среднеобеспеченные»), и деление по зависимой переменной — также дихотомическое («доверяют президенту» — «не доверяют президенту», «удовлетворены жизнью» — «не удовлетворены жизнью»), то различия между группами сравнивать достаточно легко; можно даже дать количественную оценку — насколько больше доверяющих президенту в одной группе по сравнению с другой. Но чем в таблице больше сравниваемых между собой групп, и чем больше вариантов ответа, по которым сравниваются эти группы, тем сложнее визуально установить закономерность изменения в характере ответов.
Существует статистический критерий, позволяющий получить ответ на вопрос: есть ли связь между двумя признаками, представленными в таблице. Этот критерий называется «хи квадрат».
Установление величины этого коэффициента и его статистической значимости позволяет ответить на вопрос о наличии связи между исследуемыми признаками. Эти вычисления обычно входят в компьютерные программы обработки данных (SPSS, OCA). Если значение этого коэффициента статистически значимо, по крайней мере, на уровне
5%, то исследователь может сделать вывод о том, что между анализируемыми признаками есть определенная связь (чем выше значение данного коэффициента, тем более тесная связь между этими двумя признаками). Если значение хи-квадрата статистически не значимо на уровне 5%, то исследователь не может сделать определенных выводов о наличии связи между этими двумя параметрами. Расчетная формула данного коэффициента включает наполненность каждой из полученных в таблице подгрупп. Иногда исследователь «забывает», что, производя группировку всей совокупности, он фактически из одной достаточно большой совокупности получает много маленьких. Например, если опрошено 1000 человек, и исследователь хочет определить, как влияет на оценку того или иного социального явления род занятий, то он разбивает всю совокупность на группы по роду занятий. Допустим,таких групп 10. Даже если они наполнены равномерно, то каждая подгруппа составляет 100 человек. Эти сто человек,давая ответ на вопрос о степени
доверия президенту по пятибалльной шкале, в свою очередь, разбиваются на подгруппы в зависимости от выбранного варианта ответа. Если они распределятся равномерно, то каждый вариант ответа отметят всего 20 человек (если какая-то социальная группа получается большей численности, или какой-либо вариант ответа отмечается большим числом респондентов этой группы, то, соответственно, численность других подгрупп уменьшается) Поэтому при расчете хи-квадрата исследователь должен осознавать два момента. Первый — чем меньше градации анализируемых переменных, и, соответственно, чем больше численность полученных в результате кросс-табуляции подгрупп (на языке статистики они называются «степенями свободы»), тем более вероятно, что данный коэффициент покажет величину и значимость связи между изучаемыми признаками, если такая связь есть в объективной реальности.
Второй момент, который следует отметить, может быть полезен для тех социологов, которые хотели бы разобраться в содержательном значении данного коэффициента. Хи-квадрат рассчитывается, исходя из следующего предположения: если изменение одного признака не приводит к изменению другого, то все ответы распределятся равномерно (так, как мы описали в вышеприведенном примере, — в каждой подгруппе будет по 20 человек). Чем больше влияние одного признака на другой, тем больше будет число и величина отклонений от такого линейного распределения, полученного в результате кросс-табуляции. Усредненное значение таких отклонений и лежит в основе расчета данного коэффициента.
Таким образом, хи-квадрат позволяет получить ответ на вопрос, есть ли связь между признаками.
Здесь следует подчеркнуть, что установленное наличие связи еще не говорит о ее направленности и, тем более, о причинности. Например, один исследователь выдвигает гипотезу о том, что удовлетворенность работой влияет на удовлетворенность жизнью, а другой исследователь считает, что общая удовлетворенность жизнью влияет на удовлетворенность человека своей работой. При проверке каждой из гипотез, коэффициент связи будет одинаков, так как он показывает только взаимосвязанность признаков.
Измерение связи между переменными Если связь установлена, то исследователь может переходить к следующей стадии анализа — измерению связи.
Выбор статистических процедур измерения связи зависит от типа шкалы измерения признака. В зависимости от того, является шкала дискретной или непрерывной, исследователь должен выбирать те или иные статистические процедуры оценки связи. Принципы определения типа шкалы описаны в предыдущих разделах. Мы не будем детально останавливаться на математических и содержательных особенностях данных коэффициентов; читатель при желании всегда может подробно изучить соответствующие разделы в литературе по математической статистике. Задача данного учебного пособия —- познакомить читателя с основными правилами использования наиболее распространенных коэффициентов связи при анализе первичного социологического материала.
Компьютерные программы статистической обработки (SPSS, OCA) позволяют автоматически рассчитать многие из коэффициентов, измеряющих связь между признаками. Однако, получая автоматически рассчитанные коэффициенты связи, исследователь не должен забывать об адекватности данного коэффициента типу шкалы (компьютер ведь, если его «попросить», может подсчитать и среднее арифметическое между мужчинами и женщинами и на этой «основе» проводить дальнейший количественный анализ;.
Поэтому прежде всего необходимо учитывать, что наиболее популярный среди начинающих социологов коэффициент корреляции Пирсона-Браве (г), который свидетельствует о наличии той или иной степени линейной зависимости между двумя переменными, может иметь смысл только в том случае, если обе переменные измеряются с помощью непрерывных шкал, а для шкал дискретных применяются другие коэффициенты: для ранговых порядковых — коэффициенты ранговой корреляции Спирмена и Кэндалла, а для номинальных шкал — коэффициенты ассоциации и контингенции (для дихотомических шкал) и коэффициенты сопряженности (Пирсона и др. для шкал большей размерности).
Все перечисленные выше коэффициенты позволяю! определять только величину связи, но не ее направленность. Для измерения направленности (меры возможного влияния одной переменной на другую) при анализе дискретных шкал используют лямбда-коэффициент Гудмана, а при наличии двух непрерывных шкал о направленности влияния можно судить по уравнению линейной регрессии.
Но используя коэффициенты или уравнения, определяющие направленность связи, исследователь должен помнить, что соответствующие значения показывают только некоторую вероятность направленной связи, но не позволяют делать окончательные выводы о причинной зависимости переменных. Что является причиной, а что — следствием — решает исключительно сам исследователь, сначала формулируя гипотезу, а затем, интерпретируя результаты анализа.
Объяснение связи между переменными Идеальной целью любого анализа является объяснение полученных в результате опроса фактов. Установление причинной зависимости, между различными социальными и социально-психологическими явлениями открывает возможности социального прогнозирования и управления изучаемыми процессами.
Статистика, как уже отмечалось, сама по себе объяснить ничего не может, она является лишь инструментом, позволяющим в определенной мере перевести в количественные параметры все многообразие социальных явлений и связей между ними, определить правила их сопоставления, чтобы обоснованно подтвердить (или опровергнуть) содержательные посылки и выводы аналитика.
Адекватность объяснения полученным результатам определяется в основном теоретическим уровнем подготовленности автора анализа (его знанием предмета и следованием законам логики). В какой мере статистические процедуры могут помочь в поиске каузальных (причинных) зависимостей? Мы не будем останавливаться на последних достижениях в области статистики, направленных на поиск процедур, позволяющих обеспечить каузальный анализ. Чтобы их освоить, необходимо в какой-то мере пройти весь тот пугь, кото-
рый проходила математическая статистика в своем развитии. В данном учебном пособии, предназначенном в основном для тех исследователей, которые только начали осознавать необходимость повышения своего уровня квалификации в области анализа, мы остановимся на тех возможностях, освоить которые позволяет элементарная логика и изложенные выше правила анализа двумерных распределений.
Трехмерный анализ: введение контрольной переменной Приступая к логическому объяснению установленных взаимосвязей, следует учитывать, что обнаруженная связь может не только не являться причинно-следственной, но, более того, может ввести исследователя в заблуждение. Например, в одном из исследований в процессе двухмерного анализа была установлена значимая связь между политическими ориентациями людей и уровнем их тревожности: сторонники социалистической и, особенно, коммунистической ориентации значимо отличались более высоким уровнем тревожности по сравнению с людьми, ориентирующимися на демократическое преобразование общества. Если полученные данные начинать интерпретировать, не учитывая того обстоятельства, что, возможно, существует третий фактор, который, одновременно влияет и на политические ориентации, и на уровень тревожности, то только из одной этой двумерной таблицы можно было бы сделать далеко идущие выводы. Однако предположение о том, что такой фактор существует, позволило установить, что в данном случае основным фактором того и другого показателей (политических ориентации и уровня тревожности) является возраст (со всеми социальными и психологическими особенностями, сопутствующими этой переменной): у молодых сторонников социализма уровень тревожности практически не отличался от уровня тревожности лиц, придерживающихся других политических взглядов. Подобная картина наблюдалась и у пожилых людей с разными политическими ориентациями. Основная же причина обнаружения более высокого уровня тревожности в группе сторонников «левых сил» состояла в том, что в этой группе доля пожилых людей
была существенно выше, чем в группе приверженцев идеи демократического преобразования общества.
Введение в двумерный анализ контрольной переменной позволяет избежать ошибок объяснения установленных в результате, двумерного анализа связей. В качестве контрольных переменных следует, в первую очередь, использовать те демографические характеристики, которые были заложены в основу подготовки репрезентативной выборки. Это объясняется тем, что когда исследователь обосновывает принципы отбора, он прежде всего заботится о том, чтобы выборочная совокупность репрезентировала генеральную по тем параметрам, которые в наибольшей степени могут влиять на показатели изучаемого явления. Если изучается связь между исследуемым показателем и различными социально-демографическими факторами, и установлено, что в той или иной степени каждый из них влияет на исследуемый показатель, то иерархизируя их по величине связи, следует убедиться, что каждый из этих факторов оказывает влияние сам по себе, а не только опосредуется другими.
Введение контрольной переменной приводит к построению трехмерных таблиц.
Эти таблицы можно анализировать визуально, а можно и статистически. Визуальный просмотр таблицы позволяет «увидеть», действительно ли зависимая переменная изменяется с изменением независимой, если группы уравнены по третьему параметру.
В качестве примера введения третьей переменной приведем фрагмент анализа факторов самочувствия (самооценки здоровья). Допустим исследователь построил две двумерные таблицы: Таблица А (в качестве независимой переменной — пол, зависимой — самочувствие); и Таблица Б (в качестве независимой переменной — возраст, зависимой — самочувствие).
Таблица А Влияние пола на самооценку здоровья (самочувствие), %
Самочувствие | Пол |
Мужчины | Женщины |
Плохое | 24 | 38 |
Среднее | 48 | 47 |
Хорошее | 28 | 15 |
Всего % | !00 | 100 |
N | 794 | 1007 |
Таблица Б
Влияние возраста на самооценку здоровья (самочувствие), %
Самочувствие | Возраст |
18-30 | 31-55 | 56-80 |
Плохое | 12 | 23 | 61 |
Среднее | 46 | 57 | 35 |
Хорошее | 42 | 20 | 4 |
Всего % | 100 | 100 | 100 |
N | 446 | 834 | 497 |
Визуальный обзор и сопоставление этих двух таблиц показывает, что на самочувствие влияют оба фактора: пол (среди женщин больше тех, кто чувствует себя плохо, и меньше тех, кто чувствует себя хорошо, по сравнению с мужчинами) и возраста (чем старше возрастная группа, тем больше доля «чувствующих себя плохо» и меньше — «чувствующих себя хорошо»)- Данные таблицы также позволяют «увидеть», что возраст оказывает более сильное влияние на самочувствие, чем пол: величина зависимой переменной в
большей степени изменяется с изменением независимой в таблице Б. Статистическая проверка по хи-квадрату подтверждает вывод, сделанный на основе визуального сравнения: в таблице А хи-квадрат равен 67,3, в таблице Б — 197,4 (оба коэффициента значимы на уровне 0.01).
Внимательный аналитик не может не поставить перед собой вопрос: «Действительно ли пол сам по себе влияет на самочувствие. Может быть, поскольку продолжительность жизни женщин выше, их средний возраст выше, чем у мужчин, и в таблице А влияние пола опосредуется возрастным фактором?». Поэтому, прежде чем делать окончательные выводы о влиянии пола на самочувствие, необходимо проверить, влияет ли пол на самочувствие независимо от возраста. Для проверки этой гипотезы строится трехмерная таблица, позволяющая нивелировать влияние возраста: самочувствие мужчин и женщин сравнивается в пределах каждой возрастной группы (см. таблицу С).
Таблица С Влияние пола на самочувствие у различных возрастных контингентов,
% Возраст | 18-30 | 31-55 | 56-80 |
Пол | Мужчины | Женщины | Мужчины | Женщины | Мужчины | Женщины |
Самочувствие |
|
|
|
|
|
|
Плохое | 9 | 15 | 17 | 29 | 53 | 65 |
Среднее | 38 | 54 | 58 | 56 | 42 | 30 |
Хорошее | 53 | 31 | 25 | 15 | 5 | 5 |
Всего % | 100 | 100 | 100 | 100 | 100 | 100 |
N | 212 | 234 | 394 | 439 | 175 | 320 |