1 Кластерный анализ 4 - файл

приобрести
скачать (611.4 kb.)


Работа была сделана для девочки с направления «журналистика», но , получив работу, отказались выкупать по причине вдруг появившегося мышления

СОДЕРЖАНИЕ

Введение 3

1 Кластерный анализ 4

2 Регрессионный анализ со статистической значимостью 11

3 Дисперсионный анализ 28

4 Коэффициент регрессии: статистическое значение 33

Список использованных источников 36

ВВЕДЕНИЕ


Дисперсионный анализ применяется для исследования влияния одной или нескольких качественных переменных (факторов) на одну зависимую количественную переменную (отклик).

Регрессионные процедуры позволяют рассчитать модель, описываемую некоторым уравнени­ем и отражающую функциональную зависимость между эксперименталь­ными количественными переменными, а также проверяют гипотезу об адекватности модели экспериментальным данным. По полученным резуль­татам можно оценить природу и степень зависимости переменных и пред­сказать новые значения зависимой переменной.

Корреляционный анализ – это группа статистических методов, направленная на выявление и математическое представление структурных зависимостей между выборками.

Кластерный анализ осуществляет разбиение объектов на заданное число удаленных друг от друга классов, а также строит дерево классификаций объектов посредством иерархического объединения их в группы (кластеры).

Цель работы – на конкретных примерах рассмотреть процесс проведения дисперсионного, кластерного, регрессионного анализов.

1 КЛАСТЕРНЫЙ АНАЛИЗ

Кластерный анализ – это совокупность методов, позволяющих классифицировать многомерные наблюдения. Термин кластерный анализ, впервые введенный Трионом (Tryon) в 1939 году, включает в себя более 100 различных алгоритмов.

В отличие от задач классификации, кластерный анализ не требует априорных предположений о наборе данных, не накладывает ограничения на представление исследуемых объектов, позволяет анализировать показатели различных типов данных (интервальным данным, частотам, бинарным данным). При этом необходимо помнить, что переменные должны измеряться в сравнимых шкалах.

Кластерный анализ позволяет сокращать размерность данных, делать ее наглядной.

Задачи кластерного анализа можно объединить в следующие группы:

1. Разработка типологии или классификации.

2. Исследование полезных концептуальных схем группирования объектов.

3. Представление гипотез на основе исследования данных.

4. Проверка гипотез или исследований для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.



Задача:

Провести классификацию объектов, каждый из которых характеризуется двумя признаками. В качестве расстояния между объектами принять, расстояние между кластерами исчислить по принципу “ближайшего соседа”.


Исходные данные.

№ п/п

1

2

3

4

5

6

7

8

9

10

x1

2

3

8

4

3

5

3

9

3

2

x2

1

8

9

3

6

7

7

3

7

3

1. Воспользуемся агломеративным иерархическим алгоритмом классификации. В качестве расстояния между объектами примем обычное евклидовое расстояние. Тогда согласно формуле:



где l - признаки;

k - количество признаков







2. Полученные данные помещаем в таблицу (матрицу расстояний).

№ п/п

1

2

3

4

5

6

7

8

9

10

1

0

7.071

10

2.828

5.099

6.708

6.083

7.28

6.083

2

2

7.071

0

5.099

5.099

2

2.236

1

7.81

1

5.099

3

10

5.099

0

7.211

5.831

3.606

5.385

6.083

5.385

8.485

4

2.828

5.099

7.211

0

3.162

4.123

4.123

5

4.123

2

5

5.099

2

5.831

3.162

0

2.236

1

6.708

1

3.162

6

6.708

2.236

3.606

4.123

2.236

0

2

5.657

2

5

7

6.083

1

5.385

4.123

1

2

0

7.211

0

4.123

8

7.28

7.81

6.083

5

6.708

5.657

7.211

0

7.211

7

9

6.083

1

5.385

4.123

1

2

0

7.211

0

4.123

10

2

5.099

8.485

2

3.162

5

4.123

7

4.123

0

3. Поиск наименьшего расстояния.

Из матрицы расстояний следует, что объекты 7 и 9 наиболее близки P7;9 = 0 и поэтому объединяются в один кластер.

№ п/п

1

2

3

4

5

6

[7]

8

[9]

10

1

0

7.071

10

2.828

5.099

6.708

6.083

7.28

6.083

2

2

7.071

0

5.099

5.099

2

2.236

1

7.81

1

5.099

3

10

5.099

0

7.211

5.831

3.606

5.385

6.083

5.385

8.485

4

2.828

5.099

7.211

0

3.162

4.123

4.123

5

4.123

2

5

5.099

2

5.831

3.162

0

2.236

1

6.708

1

3.162

6

6.708

2.236

3.606

4.123

2.236

0

2

5.657

2

5

[7]

6.083

1

5.385

4.123

1

2

0

7.211

0

4.123

8

7.28

7.81

6.083

5

6.708

5.657

7.211

0

7.211

7

[9]

6.083

1

5.385

4.123

1

2

0

7.211

0

4.123

10

2

5.099

8.485

2

3.162

5

4.123

7

4.123

0

При формировании новой матрицы расстояний, выбираем наименьшее значение из значений объектов №7 и №9.

В результате имеем 9 кластера: S(1), S(2), S(3), S(4), S(5), S(6), S(7,9), S(8), S(10)

Из матрицы расстояний следует, что объекты 2 и 7,9 наиболее близки P2;7,9 = 1 и поэтому объединяются в один кластер.

№ п/п

1

[2]

3

4

5

6

[7,9]

8

10

1

0

7.071

10

2.828

5.099

6.708

6.083

7.28

2

[2]

7.071

0

5.099

5.099

2

2.236

1

7.81

5.099

3

10

5.099

0

7.211

5.831

3.606

5.385

6.083

8.485

4

2.828

5.099

7.211

0

3.162

4.123

4.123

5

2

5

5.099

2

5.831

3.162

0

2.236

1

6.708

3.162

6

6.708

2.236

3.606

4.123

2.236

0

2

5.657

5

[7,9]

6.083

1

5.385

4.123

1

2

0

7.211

4.123

8

7.28

7.81

6.083

5

6.708

5.657

7.211

0

7

10

2

5.099

8.485

2

3.162

5

4.123

7

0

При формировании новой матрицы расстояний, выбираем наименьшее значение из значений объектов №2 и №7,9.

В результате имеем 8 кластера: S(1), S(2,7,9), S(3), S(4), S(5), S(6), S(8), S(10)

Из матрицы расстояний следует, что объекты 2,7,9 и 5 наиболее близки P2,7,9;5 = 1 и поэтому объединяются в один кластер.

№ п/п

1

[2,7,9]

3

4

[5]

6

8

10

1

0

6.083

10

2.828

5.099

6.708

7.28

2

[2,7,9]

6.083

0

5.099

4.123

1

2

7.211

4.123

3

10

5.099

0

7.211

5.831

3.606

6.083

8.485

4

2.828

4.123

7.211

0

3.162

4.123

5

2

[5]

5.099

1

5.831

3.162

0

2.236

6.708

3.162

6

6.708

2

3.606

4.123

2.236

0

5.657

5

8

7.28

7.211

6.083

5

6.708

5.657

0

7

10

2

4.123

8.485

2

3.162

5

7

0

При формировании новой матрицы расстояний, выбираем наименьшее значение из значений объектов №2,7,9 и №5.

В результате имеем 7 кластера: S(1), S(2,7,9,5), S(3), S(4), S(6), S(8), S(10)

Из матрицы расстояний следует, что объекты 1 и 10 наиболее близки P1;10 = 2 и поэтому объединяются в один кластер.

№ п/п

[1]

2,7,9,5

3

4

6

8

[10]

[1]

0

5.099

10

2.828

6.708

7.28

2

2,7,9,5

5.099

0

5.099

3.162

2

6.708

3.162

3

10

5.099

0

7.211

3.606

6.083

8.485

4

2.828

3.162

7.211

0

4.123

5

2

6

6.708

2

3.606

4.123

0

5.657

5

8

7.28

6.708

6.083

5

5.657

0

7

[10]

2

3.162

8.485

2

5

7

0

При формировании новой матрицы расстояний, выбираем наименьшее значение из значений объектов №1 и №10.

В результате имеем 6 кластера: S(1,10), S(2,7,9,5), S(3), S(4), S(6), S(8)
Из матрицы расстояний следует, что объекты 1,10 и 4 наиболее близки P1,10;4 = 2 и поэтому объединяются в один кластер.

№ п/п

[1,10]

2,7,9,5

3

[4]

6

8

[1,10]

0

3.162

8.485

2

5

7

2,7,9,5

3.162

0

5.099

3.162

2

6.708

3

8.485

5.099

0

7.211

3.606

6.083

[4]

2

3.162

7.211

0

4.123

5

6

5

2

3.606

4.123

0

5.657

8

7

6.708

6.083

5

5.657

0

При формировании новой матрицы расстояний, выбираем наименьшее значение из значений объектов №1,10 и №4.

В результате имеем 5 кластера: S(1,10,4), S(2,7,9,5), S(3), S(6), S(8)

Из матрицы расстояний следует, что объекты 2,7,9,5 и 6 наиболее близки P2,7,9,5;6 = 2 и поэтому объединяются в один кластер.

№ п/п

1,10,4

[2,7,9,5]

3

[6]

8

1,10,4

0

3.162

7.211

4.123

5

[2,7,9,5]

3.162

0

5.099

2

6.708

3

7.211

5.099

0

3.606

6.083

[6]

4.123

2

3.606

0

5.657

8

5

6.708

6.083

5.657

0

При формировании новой матрицы расстояний, выбираем наименьшее значение из значений объектов №2,7,9,5 и №6.

В результате имеем 4 кластера: S(1,10,4), S(2,7,9,5,6), S(3), S(8)

Из матрицы расстояний следует, что объекты 1,10,4 и 2,7,9,5,6 наиболее близки P1,10,4;2,7,9,5,6 = 3.16 и поэтому объединяются в один кластер.

№ п/п

[1,10,4]

[2,7,9,5,6]

3

8

[1,10,4]

0

3.162

7.211

5

[2,7,9,5,6]

3.162

0

3.606

5.657

3

7.211

3.606

0

6.083

8

5

5.657

6.083

0

При формировании новой матрицы расстояний, выбираем наименьшее значение из значений объектов №1,10,4 и №2,7,9,5,6.

В результате имеем 3 кластера: S(1,10,4,2,7,9,5,6), S(3), S(8)
Из матрицы расстояний следует, что объекты 1,10,4,2,7,9,5,6 и 3 наиболее близки P1,10,4,2,7,9,5,6;3 = 3.61 и поэтому объединяются в один кластер.

№ п/п



Учебный материал
© nashaucheba.ru
При копировании укажите ссылку.
обратиться к администрации