Нові методи статистичного аналізу складних систем_ Львів 2012
1. НОВІ МЕТОДИ СТАТИСТИЧНОГО
МОДЕЛЮВАННЯ ТА ЇХ
ЗАСТОСУВАННЯ В АНАЛІЗІ
СКЛАДНИХ СИСТЕМ
д.ф.-м.н., проф. Бахрушин В.Є.;
Дудко І.О.;
к.ф.-м.н., доц. Ігнахіна М.О.
Класичний приватний університет, Запоріжжя
Vladimir.Bakhrushin@gmail.com
2012
2. 1. ІДЕНТИФІКАЦІЯ МОДЕЛЕЙ СКЛАДНИХ
РОЗПОДІЛІВ
Завдання: визначити кількість компонент, їх тип та
параметри розподілу.
1. Попередній аналіз із застосуванням методів
кластерного аналізу й Р-Р діаграм статистичних
пакетів (SPSS, Statistica тощо).
2. Вибір найпростішої з прийнятних моделей як
початкового наближення.
3. Визначення параметрів моделі шляхом мінімізації
критерію Колмогорова – Смирнова або Крамера –
фон Мізеса.
3. 4. Перевірка адекватності отриманої моделі.
Для перевірки адекватності пропонується
використовувати як розрахункові значення
досліджуваних критеріїв, так і статистичні
властивості залишків цих моделей, зокрема
наявність їх автокореляції за критерієм Дарбіна –
Уотсона.
5. Якщо модель виявляється неадекватною,
ускладнення її шляхом зміни закону розподілу
компонент або їх кількості й повернення до п. 3.
4. Normal P-P Plot of VAR2010 Lognormal P-P Plot of VAR2010
1,0 1,0
Рейтинг
ARWU
0,8 0,8
Expected Cum Prob
Expected Cum Prob
0,6 0,6
0,4 0,4
0,2 0,2
0,0 0,0
0,0 0,2 0,4 0,6 0,8 1,0 0,0 0,2 0,4 0,6 0,8 1,0
Observed Cum Prob Observed Cum Prob
Weibull P-P Plot of VAR2010 Pareto P-P Plot of VAR2010
1,0 1,0
0,8 0,8
Expected Cum Prob
Expected Cum Prob
0,6 0,6
0,4 0,4
0,2 0,2
0,0 0,0
0,0 0,2 0,4 0,6 0,8 1,0 0,0 0,2 0,4 0,6 0,8 1,0
Observed Cum Prob Observed Cum Prob
5. Рейтинг ARWU
2,57
24,5
2,47
2 24,2
2010: F( x ) = 1 − ÷ F( x ) = 1 − ÷
009: x
x
2,68 2,63
2 24,0 24,2
F( x ) = 1 − ÷ 2007: F( x ) = 1 − ÷
008: x x
6. .
2012: F(R) = 0,73N ( 50,1;6,2 ) + 0,27N ( 79,3;12,5 )
2 F(R) = 0,51N ( 61,6;5,3 ) + 0, 49N ( 79,9;12,5 )
009:
Функції розподілу World University Ranking
9. Висновки за п. 1:
1. Поставлені цілі досягнуті, але потребує
статистичного обґрунтування вибір критеріїв
адекватності одержуваних моделей.
2. Для багатокомпонентних сумішей розподілів
процедура мінімізації стає нестійкою через
наявність декількох (багатьох) екстремумів
цільового функціонала та його яружність.
Бахрушин В.Е. Проблемы идентификации моделей распределения случайных величин с применением
современного программного обеспечения // Успехи современного естествознания. – 2011. – № 11.
– С. 50 – 54.
Бахрушин В.Є. Статистичний аналіз університетських рейтингів // Освіта і управління. – 2011. – № 1. –
С. 7 – 12.
Бахрушин В.Є., Ігнахіна М.О. Застосування емпіричних функцій розподілу в дослідженні соціально-
економічних систем // Складні системи і процеси. – 2012. – № 1. – С. 103 - 111
10. 2. НОВИЙ ПІДХІД ДО РОЗРАХУНКУ ВИБІРКОВОГО
КОЕФІЦІЄНТА ДЕТЕРМІНАЦІЇ
Завдання: підвищити стійкість оцінок коефіцієнта
детермінації, зробити можливим його розрахунок
для немонотонних та неоднозначних статистичних
зв’язків.
Для вирішення завдань пропонується:
1. Відмовитися від попереднього впорядкування
даних у випадках, коли очікувана модель зв'язку є
неоднозначною функцією.
2. Використовувати згладжування даних методом
ковзних середніх для оцінювання значень моделі
зв'язку.
11. КОЕФІЦІЄНТ ДЕТЕРМІНАЦІЇ
(універсальний показник зв'язку для кількісних
ознак)
2
sε 1 n
K d ( y; X ) = 1 − ( )
2
s2
y = ∑ yk − y
s2
y
n k =1
1 n
( )
2
1)
2
sε = ∑ y i − f ( Xi )
ˆ
- у цьому випадку ми повинні
n i =1
мати рівняння зв'язку в явному вигляді; зазвичай
таку форму використовують при перевірці
адекватності регресійних моделей.
ν
1 m 1 j
( )
2
sε = ∑ ∑ yij − y j*
2
2) m j=1 ν j i =1 - у цьому випадку ми маємо
здійснити попереднє групування даних за
змінною х.
12. 1 n
( )
2
s ε = ∑ yi − f ( Xi )
2 ˆ
n i =1
ν
1 m 1 j
( )
2
sε = ∑ ∑ yij − y j*
2
m j=1 ν j i =1
13. Нами запропоновано альтернативний підхід
до визначення коефіцієнта детермінації. Він
базується на застосуванні методу ковзних
середніх для оцінювання невідомих значень
функції зв'язку:
i+p
∑ yj
f ( Xi ) =
ˆ j=i− p
2p + 1
де
d = 2p + 1
– є довжиною інтервалу згладжування .
16. R2 = 0,02; Kd1 = 0,06 – 0,1; Kd2 = 0,06 – 0,1
Бахрушин В.Е. Методы оценивания характеристик нелинейных статистических связей // Системні
технології: Регіональний міжвузівський збірник наукових праць. Дніпропетровськ, 2011. - № 2(73). – С. 9
– 14.
17. 3. НОВИЙ ПІДХІД ДО АВТО- ТА КРОС-
КОРЕЛЯЦІЙНОГО АНАЛІЗУ ЧАСОВИХ РЯДІВ
Завдання: запропонувати методику авто- та крос-
кореляційного аналізу даних, яка б була
чутливою до нелінійних зв'язків.
Для вирішення завдань пропонується
використовувати як міру зв'язку вибірковий
коефіцієнт детермінації. Розроблено відповідне
програмне забезпечення.
Бахрушин В.Є., Павленко В.Є., Петрова С.В. Застосування показників нелінійної кореляції для
побудови й аналізу крос-кореляційних функцій // Складні системи і процеси. – 2009, № 2. – С. 78 –
85.
Бахрушин В.Е., Павленко В.Е., Петрова С.В. Применение выборочного коэффициента детерминации
для построения и анализа кросс-корреляционных функций // Фундаментальные физико-
математические проблемы и моделирование технико-технологических систем / Под ред. Ю.М.
Соломенцева, Б.Н. Четверушкина, А.В. Боголюбова и др. – М.: МГТУ "СТАНКИН", Янус-К, 2010. –
Вып. 13. – С. 4 – 12
24. Динаміка світових цін
на метали в 2002 –
2011 г.
Крос-кореляція у динаміці
цін на свинець та нікель
0,68
25. Висновки за п. 2, 3:
1. Запропонована методика дає змогу підвищити
стійкість оцінок КД, а також розраховувати його
для неоднозначних залежностей, але потребують
подальшого дослідження методики визначення
довірчих інтервалів для одержуваних значень
коефіцієнта детермінації та оцінювання рівня їх
значущості.
2. Для вирішення завдань авто- і крос-
кореляційного аналізу часових рядів традиційна
методика оцінювання КД є більш прийнятною,
оскільки модифікована методика призводить до
відсутності залежності КД від лагу (тобто зв’язок
або є, або його немає при будь-якому лазі).
26. 4. АНАЛІЗ НАЯВНОСТІ ДИФЕРЕНЦІАЛЬНИХ
ЗВ'ЯЗКІВ МІЖ ДАНИМИ
Завдання: запропонувати методику визначення
показника наявності диференціального зв'язку
між даними.
Для вирішення завдань пропонується
використовувати коефіцієнт парної кореляції
Пірсона між одним з досліджуваних рядів даних
та іншим рядом, що одержують чисельним
інтегруванням другого з досліджуваних рядів.
27. f1 ( x ) = kf 2 ( x ) + c
'
y1i = a1f 2 ( x i ) + b1
y11 = f 2 ( x1 ) ;
( ( ) ( ))(x
y1j = y1 j−1 + f1 x j−1 + f1 x j j )
− x j−1 / 2; j = 2,...,n,
R(y1 , f 2 )
28. f1 ( x ) = 2x + 5 + ε1 f 2 ( x ) = x + 5x − 2 + ε 2
2
32. Висновки за п. 4:
1. Запропонована методика дає змогу оцінювати
силу лінійного диференціального зв'язку, але
потребують подальшого дослідження методики
визначення довірчих інтервалів для одержуваних
значень показника зв'язку та оцінювання його
значущості.
Бахрушин В.Є. Критерій для перевірки гіпотези про наявність зв'язку типу f1 ( x ) = kf 2 ( x )
'
// Складні
системи і процеси. – 2010, № 1. – С. 3 – 5.
Бахрушин В.Е. Статистический анализ дифференциальных связей в колебательных системах //
Фундаментальные физико-математические проблемы и моделирование технико-технологических
систем: Ежегодный сборник научных трудов, вып. 14. Труды второй международной конференции
Моделирование нелинейных процессов и систем / Под ред. Л.А. Уваровой. – М.: Янус-К, 2011. – С.
57 – 62