Калинина В.Н., Соловьев В.И. Введение в многомерный статистический анализ: Учебное пособие - файл n1.doc

приобрести
Калинина В.Н., Соловьев В.И. Введение в многомерный статистический анализ: Учебное пособие
скачать (1679.5 kb.)
Доступные файлы (1):
n1.doc1680kb.12.09.2012 21:53скачать

n1.doc

  1   2   3   4   5


Министерство образования Российской Федерации

Государственный университет управления

Институт информационных систем управления


Одобрено

Президиумом НМС ГУУ


В. Н. Калинина

кандидат технических наук, профессор

В. И. Соловьев

кандидат экономических наук


Введение в многомерный
статистический анализ



Учебное пособие

для студентов всех специальностей

Москва — 2003

ББК 22.17я7

УДК 519.22 (075.8)

6Н1



К 60
Калинина В. Н., Соловьев В. И. Введение в многомерный статистический анализ: Учебное пособие / ГУУ. – М., 2003. – 92 с.

ISBN 5-215-????? — ?
Излагаются теоретические основы и алгоритмы методов многомерного статистического анализа. Рассмотрены два метода снижения размерности многомерного пространства (метод главных компонент и факторный анализ) и два метода классификации (кластерный и дискриминантный анализ). Изложение иллюстрируется решением практических задач с помощью пакета прикладных программ SPSS. Приводятся задачи для самостоятельного решения.

Для студентов экономических специальностей. Может быть полезно аспирантам, преподавателям, научным сотрудникам, специалистам-практикам, интересующимся применением многомерных статистических методов в экономике.

Библиогр. 99 назв. Табл. 2. Ил. 9.


Ответственный редактор
заведующий кафедрой прикладной математики ГУУ,

доктор экономических наук, профессор
В. А. КОЛЕМАЕВ

Рецензенты
доктор физико-математических наук, профессор В. В. ШЕВЕЛЕВ (МИТХТ)
кандидат экономических наук Б. Г. МИХАЛЕВ (ЗАО «Баркли Строй»)

 В. Н. Калинина, В. И. Соловьев, 2003

 Государственный университет управления, 2003

ISBN 5-215-????? — ?

Введение


Социальные и экономические объекты, как правило, характеризуются достаточно большим числом параметров, образующих многомерные векторы, и особое значение в экономических и социальных исследованиях приобретают задачи изучения взаимосвязей между компонентами этих векторов, причем эти взаимосвязи необходимо выявлять на основании ограниченного числа многомерных наблюдений.

Многомерным статистическим анализом называется раздел математической статистики, изучающий методы сбора и обработки многомерных статистических данных, их систематизации и обработки с целью выявления характера и структуры взаимосвязей между компонентами исследуемого многомерного признака, получения практических выводов.

Такие статистические методы, как множественный корреляционный и регрессионный анализ традиционно рассматриваются в курсах «Теория вероятностей и математическая статистика» [?], [??], «Основы эконометрики» [?], [??].

Другим методам исследования многомерных генеральных совокупностей на основании статистических данных посвящено данное пособие.

Методы снижения размерности многомерного пространства, позволяющие без существенной потери информации перейти от первоначальной системы большого числа наблюдаемых взаимосвязанных факторов к системе существенно меньшего числа скрытых (ненаблюдаемых) факторов, определяющих вариацию первоначальных признаков. В первой главе описываются методы компонентного и факторного анализа, с использованием которых можно выявлять объективно существующие, но непосредственно не наблюдаемые закономерности при помощи главных компонент или факторов.

Методы многомерной классификации предназначены для разделения совокупностей объектов (характеризующиеся большим числом признаков) на классы, в каждый из которых должны входить объекты, в определенном смысле однородные или близкие. Такую классификацию на основании статистических данных о значениях признаков на объектах можно провести методами кластерного и дискриминантного анализа, рассматриваемые во второй главе.

Развитие вычислительной техники и программного обеспечения способствует широкому внедрению методов многомерного статистического анализа в практику. Пакеты прикладных программ с удобным пользовательским интерфейсом, среди которых в первую очередь отметим пакеты SPSS и Statistica,снимают трудности в применении указанных методов, заключающиеся в сложности математического аппарата, опирающегося на линейную алгебру, теорию вероятностей и математическую статистику.

Однако применение программ без понимания математической сущности используемых алгоритмов способствует развитию у исследователя иллюзии простоты применения многомерных статистических методов, что может привести к неверным или необоснованным результатам.

Значимые практические результаты могут быть получены только на основе профессиональных знаний в предметной области, подкрепленных владением математическими методами и пакетами прикладных программ, в которых эти методы реализованы,

Поэтому для каждого из рассматриваемых в данной книге методов приводятся основные теоретические сведения, в том числе алгоритмы; описывается реализация этих методов в пакете SPSS. Рассматриваемые методы иллюстрируются примерами их практического применения в экономике, управлении, социологии с использованием пакета SPSS.

Данная книга написана на основе опыта чтения курса «Многомерные статистические методы» студентам Государственного университета управления. Для более подробного изучения методов прикладного многомерного статистического анализа рекомендуются книги [??], [??].

ГЛАВА 1.Методы исследования зависимостей

§ 1.1.Сущность задач исследования зависимостей

§ 1.2.Корреляционный анализ

1.2.1Основные понятия

1.2.2Реализация методов корреляционного анализа в пакете SPSS

1.2.3Решение практических задач с помощью корреляционного анализа




§ 1.3.Регрессионный анализ

1.3.1Основные понятия

1.3.2Реализация методов регрессионного анализа в пакете SPSS

1.3.3Решение практических задач с помощью регрессионного анализа



ГЛАВА 2.Методы снижения размерности
многомерного пространства

§ 2.1.Сущность задач снижения размерности


Во многих практических задачах исследователя интересуют главным образом признаки, которые обнаруживают наибольшую изменчивость (т. е. разброс, дисперсию) при переходе от одного объекта к другому, при этом такие признаки часто невозможно наблюдать непосредственно на объектах.

Приведем несколько примеров.

При индивидуальном пошиве одежды портной замеряет на клиенте от восьми до одиннадцати различных параметров (рост, размах рук, длину предплечья, длину ног, окружности груди, бедер, талии и др.). При массовом производстве одежды ее размеры характеризуются всего двумя признаками: ростом и размером, являющимися производными от указанных параметров, и в большинстве случаев указание размера и роста при покупке одежды приводит к удовлетворительному выбору.

Склонность населения к миграции определяется по данным о достаточно большом числе социально-экономических, демографических, географических и др. показателей и результатам социологических опросов (см с. 458-0459 АйвазянПриклСтатИОсновы).

Только большая совокупность непосредственно измеряемых признаков позволяет сравнивать страны, регионы и города по уровню жизни, продукцию различных производителей — по качеству и т. п.

Приведенные примеры иллюстрируют сущность методов снижения размерности многомерного пространства, которая заключается в выражении большого числа исходных факторов, непосредственно измеренных на объектах, через меньшее число более емких, максимально информативных внутренних характеристик объектов, непосредственно не наблюдаемых. При этом предполагается, что более емкие признаки будут отражать наиболее существенные свойства объектов.

Целью методов снижения размерности является исследование внутренней структуры изучаемой системы k случайных величин, «сжатие» этой системы без существенной потери содержащейся в ней информации путем выявления небольшого числа факторов, объясняющих изменчивость и взаимосвязи исходных случайных величин. Метод главных компонент выявляет k компонент — факторов, объясняющих всю дисперсию и корреляции исходных k случайных величин; причем компоненты строятся в порядке убывания объясняемой ими доли суммарной дисперсии исходных величин, что позволяет зачастую ограничиться первыми несколькими компонентами. Факторный анализ выявляет m (m < k) общих для всех исходных величин факторов, объясняя оставшуюся после этого дисперсию величин влиянием специфических факторов.

Среди прикладных задач, решаемых указанными методами, отметим следующие.

1. Поиск скрытых, но объективно существующих взаимосвязей между экономическими и социальными показателями, проверка гипотез о взаимосвязях этих показателей, выявление природы различий между объектами.

2. Описание изучаемой системы числом признаков, значительно меньшим числа исходных факторов, при этом выявленные факторы или главные компоненты содержат в среднем больше информации, чем непосредственно зафиксированные на объектах значения исходных факторов.

3. Построение обобщенных экономических и социальных показателей, таких как качество продукции, размер предприятия, интенсивность ведения хозяйства и т. п.

4. Визуализация исходных многомерных наблюдений путем их проецирования в специально подобранное трехмерное пространство, на плоскость или на прямую.

5. Классификация по обобщенным экономическим показателям. Практика показывает, что классификация объектов, проведенная по факторам или главным компонентам оказывается более объективной, чем классификация тех же объектов по исходным признакам. По одному — трем факторам или главным компонентам возможно проведение визуальной классификации. В случае большей размерности пространства обобщенных показателей, полученного в результате компонентного или факторного анализа необходимо привлечение методов многомерной классификации, рассматриваемых во второй главе данного пособия.

6. Построение регрессионных моделей по главным компонентам. В социальных и экономических задачах исходные факторы часто обладают мультиколлинеарностью, что затрудняет построение и интерпретацию регрессионных моделей, не позволяя часто получать сколь-нибудь точные прогнозы. Главные компоненты, сохраняя всю информацию об изучаемых объектах, являются некоррелированными по построению.

7. Сжатие исходной информации, значительное уменьшение объемов информации, хранимой в базах данных, без существенных потерь в информативности.
  1   2   3   4   5


Учебный материал
© nashaucheba.ru
При копировании укажите ссылку.
обратиться к администрации