Анализ  таблиц  взаимной  сопряженности

Доказано - для экономистов работа с числами очень важный навык. Игоровой тренажер "Продолжи ряд" создан специально для работы с числами в уме. В начале обучения только 2 из 10 проходят тест без ошибок.

Пройти тест

Взаимосвязи между атрибутивными признаками анализируются на основании таблиц взаимной сопряженности (взаимозависимости). Как пример рассмотрим данные таблицы 10.1, в которой приведены результаты социологического опроса населения относительно намерений участвовать в торгах на рынке ценных бумаг. Тех, кто не боится рисковать, классифицировали как рискованных инвесторов, тех, кто не представляет риска без гарантий – осторожными, а кто риска избегает вообще – нерискованными.

Частоты комбинационного распределения респондентов по возрасту и склонностью к риску концентрируются вокруг диагонали от верхнего левого угла в нижний правый. Среди молодых большинство готово рисковать на рынке ценных бумаг, в средней возрастной группе готов рисковать один из пяти, а половина не представляет риска без гарантий, в третьей возрастной группе на одного осторожного приходится два нерискованных.

Таблица 10.1

Распределение респондентов по возрасту и склонностью к риску

 

 

 

Возраст,

х лет

Тип инвестора, у

Итого,

Рискованные

Осторожные

Нерискованные

16 – 30

24

12

4

40

31 – 50

20

50

30

100

51 и больше

6

18

36

60

Итого,

50

80

70

200

Характер распределения частот, концентрация их вдоль главной диагонали свидетельствуют о наличии стохастической связи между возрастом и склонностью к риску.

Оценка плотности стохастической связи основывается на отклонениях частот условного и безусловного распределений, то есть на отклонениях фактических частот  от теоретических , пропорциональных к итоговым:

                                                                      (10.1)

где        – итоговые частоты по признаку  х;

 – итоговые частоты по признаку  у;

 – объем совокупности

                                                         (10.2)

Если бы склонность к риску не зависела от возраста, то количество рискованных среди молодежи составляло бы:

,

осторожных во второй возрастной группе

,

нерискованных в третьей возрастной группе

Абсолютную величину отклонений фактических частот , от пропорциональных  характеризует квадратичная сопряженность  Пирсона:

                                             (10.3)

Если стохастическая связь отсутствует, то . Для того, чтобы сделать вывод о существенности связи, необходимо сравнить фактическое значение  с уровнем значимости для заданной доверительной вероятности  и числа степеней свободы , где  и  – соответственно количество групп по признакам  и .

Критические значения  для доверительной вероятности 95% и, соответственно, для уровня значимости 0,05 () приведены в таблице 10.2. В нашем примере для , критическое значение .

Таблица 10.2

Критические значения

 

1

2

3

4

5

6

7

8

9

10

11

12

3,84

5,99

7,81

9,49

11,07

12,59

14,07

15,51

16,92

18,31

19,68

21,03

Рассчитаем фактическое значение  по нашим данным.

Фактическое значение значительно превышает критическое и, следовательно, с вероятностью 0,95 существенность связи между возрастом и склонностью к риску доказана.

Относительной мерой тесноты  стохастической связи служит коэффициент взаимной сопряженности , который по содержанию идентичен коэффициенту корреляции. Если , то используют формулу Чупрова:

.                                                                        (10.4)

где        и  – соответственно количество групп по признакам  и .

Если , то предпочтение отдают коэффициенту сопряженности Крамера:

                                                                 (10.5)

где        – минимальное количество групп по признаку  или .

Так как при отсутствии связи между признаками , то в этом случае и . При функциональной взаимосвязи коэффициент взаимной сопряженности стремится к единице.

Поскольку в нашем примере , для оценки тесноты связи используем коэффициент взаимной сопряженности Чупрова.

Такое значение коэффициента взаимной сопряженности говорит о наличии умеренной связи между признаками.

Если оба взаимосвязанных признака альтернативные, то есть , то при отсутствии связи произведения диагональных частот одинаковые: . Именно на отклонениях произведений частот основываются характеристики связи:

,                                                                (10.6)

                                                              (10.7)

В статистической литературе коэффициент  для 4-х клеточной таблицы называется коэффициентом контингенции или ассоциации. Очевидно, что по содержанию он идентичен коэффициенту взаимной сопряженности, а с  связан функционально: .

С помощью коэффициента контингенции оценим тесноту связи между вредной привычкой курить и болезнями легких (табл. 10.3).

Таблица 10.3

Распределение пациентов клиники по результатам легочных проб

 

 

 

Наличие

привычки курить

Результаты легочных проб

Итого

Аномальные

Нормальные

Курит

20

5

25

Не курит

10

15

25

Итого

30

20

50

Воспользуемся формулой 10.7:

Значение  превышает критическое . Наличие связи между курением и заболеваниями легких доказана с вероятностью 0,95.

Для анализа таблиц такого типа используют также отношение перекрестных произведений – отношение шансов.

                                                                (10.7)

Отношение шансов характеризует меру относительного риска (выигрыша), связанного с фактором .

Рассчитаем отношение шансов для курящих и некурящих пациентов.

.

Таким образом, вероятность легочных заболеваний у тех, кто курит в 6 раз выше, в сравнении с теми, кто не курит.

Методы анализа таблиц взаимной сопряженности можно использовать и для количественных признаков. Любые технические препятствия отсутствуют. Однако следует помнить, что коэффициент сопряженности оценивает лишь согласованность фактического распределения с пропорциональным. Если переставить строки или столбцы значения коэффициента  не изменится. Меры плотности корреляционной связи – коэффициент детерминации  и корреляционное отношение оценивают не только согласованность частот, но и порядок, последовательность, в которой объединяются разные значения признаков. Следовательно, эти характеристики связи более мощные. А в целом выбор метода измерения связи и характеристик его тесноты должен основываться на теоретическом анализе сути явлений, характера взаимосвязей на основе имеющейся информации.