К многомерным статистическим методам не относится. Многомерный статистический анализ. Оценивание линейной прогностической функции
Изложены основные понятия и методы статистического анализа многомерных результатов технических экспериментов . <...> Приведены теоретические сведения о свойствах многомерных гауссовских распределений . <...> Результатом эксперимента, рассматриваемого в пособии, является случайный вектор , распределенный по нормальному закону. <...> Многомерная нормальная плотность Часто результатом эксперимента является совокупность чисел, характеризующая некоторый исследуемый объект. <...> 4 f x Запись в виде ξ ~ (ND ,)μ имеет p-мерное нормальное распределение . означает, что вектор ξ , ξ) принимает различные значения, поэтому с полным основанием можно говорить о случайном векторе 12 компонент вектора ,ξ компонент,ξ т. е. EDE E ξ= E E ξ ξ = μ = ξ − μ ξ − μ ()() ξp где Е – знак математического ожидания. <...> Пусть η ров p pЧ шениями μ= ν +B ;. bD BD Bη ξ = ′ , (1.3) Матрица D из (1.2) – симметричная, положительно-определенная, поэтому справедливо ее представление D CC′=Λ где C – ортогональная матрица , составленная из собственных векторов матрицы ;D Λ – диагональная матрица с собственными числами λ>i 0 матрицы D по главной диагонали. <...> Совместная плотность его компонент,1,η=i ip, определенная по общим правилам (см. приложение), равна 5 (1.4) ; линейное преобразование ,η где B – квадратная матрица разме – случайный вектор, вариаций,. <...> Оценивание параметров нормального распределения Пусть 12 ξ , nξξ купности, т. е. статистической обработки является оценка вектора средних μ и i ND . <...> Основной задачей первичной μ=i n матрицы ковариаций . <...> A ln ∂ = (1.5) Учитывая правила дифференцирования функционалов по векторному или матричному аргументам (см. <...> Тогда σ = ξ −ξ ξ − ξ = ξ ξ −ξ ξ∑∑ ij nn ki i kj j kk Здесь kiξ – i-я компонента вектора среднего iμ i-й компоненты вектора . <...> Оценки максимального правдоподобия коэфij / ρ=σ σ σ имеют вид ij ,. ij ii jj ri j σ σσ ≠ ii jj Доказательство. <...> Оценивание зависимости между компонентами нормального вектора Подробный анализ связей <...>
МУ_к_выполнению_курсовой_работы_«Многомерный_статистический_анализ».pdf
УДК 519.2 ББК 22.172 К27 Рецензент В.Ю. Чуев Карташов Г.Д., Тимонин В.И., Будовская Л.М. К27 Многомерный статистический анализ: Методические указания к выполнению курсовой работы. – М.: Изд-во МГТУ им. Н.Э. Баумана, 2007. – 48 с.: ил. Изложены основные понятия и методы статистического анализа многомерных результатов технических экспериментов. Приведены теоретические сведения о свойствах многомерных гауссовских распределений. Для студентов старших курсов факультета фундаментальных наук. Ил. 2. Библиогр. 5 назв. УДК 519.2 ББК 22.172 © МГТУ им. Н.Э. Баумана, 2007
Стр.2
ОГЛАВЛЕНИЕ Введение....................................................................................................... 3 1. Многомерное нормальное распределение...................................... 4 2. Статистические выводы о векторе средних.................................... 17 3. Дискриминантный анализ................................................................. 23 4. Метод главных компонент............................................................... 27 5. Канонические корреляции................................................................ 30 6. Многомерный регрессионный анализ............................................. 35 7. Факторный анализ............................................................................. 40 Приложение.................................................................................................. 44 Список литературы...................................................................................... 46 47
Учебное пособие создано на основе опыта преподавания автором курсов многомерного статистического анализа и эконометрики. Содержит материалы по дискриминантному, факторному, регрессионному анализу, анализу соответствий и теории временных рядов. Изложены подходы к задачам многомерного шкалирования и некоторым другим задачам многомерной статистики.
Группировка и цензурирование.
Задача формирования групп выборочных данных таким образом, чтобы сгруппированные данные могли предоставить практически тот же объем информации для принятия решения, что и выборка до группировки, решается исследователем в первую очередь. Целями группировки, как правило, служат снижение объемов информации, упрощение вычислений и придание наглядности данным. Некоторые статистические критерии изначально ориентированы на работу со сгруппированной выборкой. В определенных аспектах задача группировки очень близка задаче классификации, о которой подробнее речь пойдет ниже. Одновременно с задачей группировки исследователь решает и задачу цензурирования выборки, т.е. исключения из нее резко выпадающих данных, как правило, являющихся следствием грубых ошибок наблюдений. Естественно, желательно обеспечить отсутствие таких ошибок еще в процессе самих наблюдений, по сделать это удается не всегда. Простейшие методы решения упомянутых двух задач рассмотрены в этой главе.
Оглавление
1 Предварительные сведения
1.1 Анализ и алгебра
1.2 Теория вероятностей
1.3 Математическая статистика
2 Многомерные распределения
2.1 Случайные векторы
2.2 Независимость
2.3 Числовые характеристики
2.4 Нормальное распределение в многомерном случае
2.5 Корреляционная теория
3 Группировка и цензурирование
3.1 Одномерная группировка
3.2 Одномерное цензурирование
3.3 Таблицы сопряженности
3.3.1 Гипотеза независимости
3.3.2 Гипотеза однородности
3.3.3 Поле корреляции
3.4 Многомерная группировка
3.5 Многомерное цензурирование
4 Нечисловые данные
4.1 Вводные замечания
4.2 Шкалы сравнений
4.3 Экспертные оценки
4.4 Группы экспертов
5 Доверительные множества
5.1 Доверительные интервалы
5.2 Доверительные множества
5.2.1 Многомерный параметр
5.2.2 Многомерная выборка
5.3 Толерантные множества
5.4 Малая выборка
6 Регрессионный анализ
6.1 Постановка задачи
6.2 Поиск ОМНК
6.3 Ограничения
6.4 Матрица плана
6.5 Статистический прогноз
7 Дисперсионный анализ
7.1 Вводные замечания
7.1.1 Нормальность
7.1.2 Однородность дисперсий
7.2 Один фактор
7.3 Два фактора
7.4 Общий случай
8 Снижение размерности
8.1 Зачем нужна классификация
8.2 Модель и примеры
8.2.1 Метод главных компонент
8.2.2 Экстремальная группировка признаков
8.2.3 Многомерное шкалирование
8.2.4 Отбор показателей для дискриминантного анализа
8.2.5 Отбор показателей в модели регрессии
9 Дискриминантный анализ
9.1 Применимость модели
9.2 Линейное прогностическое правило
9.3 Практические рекомендации
9.4 Один пример
9.5 Более двух классов
9.6 Проверка качества дискриминации
10 Эвристические методы
10.1 Экстремальная группировка
10.1.1 Критерий квадратов
10.1.2 Критерий модулей
10 2 Метод плеяд
11 Метод главных компонент
11 1 Постановка задачи
112 Вычисление главных компонент
11.3 Пример
114 Свойства главных компонент
11.4.1 Самовоспроизводимость
11.4.2 Геометрические свойства
12 Факторный анализ
12.1 Постановка задачи
12.1.1 Связь с главными компонентами
12.1.2 Однозначность решения
12.2 Математическая модель
12.2.1 Условия на Аt А
12.2.2 Условия на матрицу нагрузок. Центроидный метод
12.3 Латентные факторы
12.3.1 Метод Бартлетта
12.3.2 Метод Томсона
12.4 Пример
13 Оцифровка
13.1 Анализ соответствий
13.1.1 Расстояние хи-квадрат
13.1.2 Оцифровка для задач дискриминантного анализа
13.2 Более двух переменных
13.2.1 Использование бинарной матрицы данных в качестве матрицы соответствий
13.2.2 Максимальные корреляции
13.3 Размерность
13.4 Пример
13.5 Случай смешанных данных
14 Многомерное шкалирование
14.1 Вводные замечания
14.2 Модель Торгерсона
14.2.1 Стресс-критерий
14.3 Алгоритм Торгерсона
14.4 Индивидуальные различия
15 Временные ряды
15.1 Общие положения
15.2 Критерии случайности
15.2.1 Пики и ямы
15.2.2 Распределение длины фазы
15.2.3 Критерии, основанные на ранговой корреляции
15.2.4 Коррелограмма
15.3 Тренд и сезонность
15.3.1 Полиномиальные тренды
15.3.2 Выбор степени тренда
15.3.3 Сглаживание
15.3.4 Оценка сезонных колебаний
А Нормальное распределение
В Распределение X2
С Распределение Стьюдента
D Распределение Фишера.
Бесплатно скачать электронную книгу в удобном формате, смотреть и читать:
Скачать книгу Многомерный статистический анализ, Дронов С.В., 2003 - fileskachat.com, быстрое и бесплатное скачивание.
Скачать pdf
Ниже можно купить эту книгу по лучшей цене со скидкой с доставкой по всей России.
Встречаются такие ситуации, в которых случайная изменчивость была представлена одной-двумя случайными переменными, признаками.
Например, при исследовании статистической совокупности людей нас интересуют рост и вес. В этой ситуации, сколько бы людей в статистической совокупности ни было, мы всегда можем построить диаграмму рассеяния и увидеть всю картину в целом. Однако если признаков три, например, добавляется признак - возраст человека, тогда диаграмма рассеяния должна быть построена в трехмерном пространстве. Представить совокупность точек в трехмерном пространстве уже довольно затруднительно.
В реальности на практике каждое наблюдение представляется не одним-двумя-тремя числами, а некоторым заметным набором чисел, которые описывают десятки признаков. В этой ситуации для построения диаграммы рассеяния потребовалось бы рассматривать многомерные пространства.
Раздел статистики, посвященный исследованиям экспериментов с многомерными наблюдениями, называется многомерным статистическим анализом.
Измерение сразу нескольких признаков (свойств объекта) в одном эксперименте в общем более естественно, чем измерение какого-либо одного, двух. Поэтому потенциально многомерный статистический анализ имеет широкое поле для применения.
К многомерному статистическому анализу относят следующие разделы:
Факторный анализ;
Дискриминантный анализ;
Кластерный анализ;
Многомерное шкалирование;
Методы контроля качества.
Факторный анализ
При исследовании сложных объектов и систем (например, в психологии, биологии, социологии и т. д.) величины (факторы), определяющие свойства этих объектов, очень часто невозможно измерить непосредственно, а иногда неизвестно даже их число и содержательный смысл. Но для измерения могут быть доступны иные величины, так или иначе зависящие от интересующих факторов. При этом когда влияние неизвестного интересующего нас фактора проявляется в нескольких измеряемых признаках, эти признаки могут обнаруживать тесную связь между собой и общее число факторов может быть гораздо меньше, чем число измеряемых переменных.
Для обнаружения факторов, влияющих на измеряемые переменные, используются методы факторного анализа.
Примером применения факторного анализа может служить изучение свойств личности на основе психологических тестов. Свойства личности не поддаются прямому измерению, о них можно судить только по поведению человека или характеру ответов на те или иные вопросы. Для объяснения результатов опытов их подвергают факторному анализу, который и позволяет выявить те личностные свойства, которые оказывают влияние на поведение испытуемых индивидуумов.
В основе различных моделей факторного анализа лежит следующая гипотеза: наблюдаемые или измеряемые параметры являются лишь косвенными характеристиками изучаемого объекта или явления, в действительности существуют внутренние (скрытые, латентные, не наблюдаемые непосредственно) параметры и свойства, число которых мало и которые определяют значения наблюдаемых параметров. Эти внутренние параметры принято называть факторами.
Задачей факторного анализа является представление наблюдаемых параметров в виде линейных комбинаций факторов и, быть может, некоторых дополнительных, несущественных возмущений.
Первый этап факторного анализа, как правило, – это выбор новых признаков, которые являются линейными комбинациями прежних и «вбирают» в себя большую часть общей изменчивости наблюдаемых данных, а потому передают большую часть информации, заключенной в первоначальных наблюдениях. Обычно это осуществляется с помощью метода главных компонент, хотя иногда используют и другие приемы (метод максимального правдоподобия).
Метод главных компонент сводится к выбору новой ортогональной системы координат в пространстве наблюдений. В качестве первой главной компоненты избирают направление, вдоль которого массив наблюдений имеет наибольший разброс, выбор каждой последующей главной компоненты происходит так, чтобы разброс наблюдений был максимальным и чтобы эта главная компонента была ортогональна другим главным компонентам, выбранным ранее. Однако факторы, полученные методом главных компонент, обычно не поддаются достаточно наглядной интерпретации. Поэтому следующий шаг факторного анализа - преобразование, вращение факторов для облегчения интерпретации.
Дискриминантный анализ
Пусть имеется совокупность объектов, разбитая на несколько групп, и для каждого объекта можно определить, к какой группе он относится. Для каждого объекта имеются измерения нескольких количественных характеристик. Необходимо найти способ, как на основании этих характеристик можно узнать группу, к которой относится объект. Это позволит указывать группы, к которым относятся новые объекты той же совокупности. Для решения поставленной задачи применяются методы дискриминантного анализа.
Дискриминантный анализ - это раздел статистики, содержанием которого является разработка методов решения задач различения (дискриминации) объектов наблюдения по определенным признакам.
Рассмотрим некоторые примеры.
Дискриминантный анализ оказывается удобным при обработке результатов тестирования отдельных лиц, когда дело касается приема на ту или иную должность. В этом случае необходимо всех кандидатов разделить на две группы: «подходит» и «не подходит».
Использование дискриминантного анализа возможно банковской администрацией для оценки финансового состояния дел клиентов при выдаче им кредита. Банк по ряду признаков классифицирует их на надежных и ненадежных.
Дискриминантный анализ может быть привлечен в качестве метода разбиения совокупности предприятий на несколько однородных групп по значениям каких-либо показателей производственно-хозяйственной деятельности.
Методы дискриминантного анализа позволяют строить функции измеряемых характеристик, значения которых и объясняют разбиение объектов на группы. Желательно, чтобы этих функций (дискриминантных признаков) было немного. В этом случае результаты анализа легче содержательно толковать.
Благодаря своей простоте особую роль играет линейный дискриминантный анализ, в котором классифицирующие признаки выбираются как линейные функции от первичных признаков.
Кластерный анализ
Методы кластерного анализа позволяют разбить изучаемую совокупность объектов на группы «схожих» объектов, называемых кластерами.
Слово кластер английского происхождения - cluster переводится как кисть, пучок, группа, рой, скопление.
Кластерный анализ решает следующие задачи:
Проводит классификацию объектов с учетом всех тех признаков, которые характеризуют объект. Сама возможность классификации продвигает нас к более углубленному пониманию рассматриваемой совокупности и объектов, входящих в нее;
Ставит задачу проверки наличия априорно заданной структуры или классификации в имеющейся совокупности. Такая проверка дает возможность воспользоваться стандартной гипотетико-дедуктивной схемой научных исследований.
Большинство методов кластеризации (иерархической группы) являются агломеративными (объединительными) - они начинают с создания элементарных кластеров, каждый из которых состоит ровно из одного исходного наблюдения (одной точки), а на каждом последующем шаге происходит объединение двух наиболее близких кластеров в один.
Момент остановки этого процесса может задаваться исследователем (например, указанием требуемого числа кластеров или максимального расстояния, при котором достигнуто объединение).
Графическое изображение процесса объединения кластеров может быть получено с помощью дендрограммы - дерева объединения кластеров.
Рассмотрим следующий пример. Проведем классификацию пяти предприятий, каждое из которых характеризуется тремя переменными:
х 1 – среднегодовая стоимость основных производственных фондов, млрд руб.;
х 2 – материальные затраты на 1 руб. произведенной продукции, коп.;
х 3 – объем произведенной продукции, млрд руб.
выборочной табл. сопряженности макс, правдоподобных оценок:
G 2 = -2 ^ п щ Щт т ■ п ш)
имеет асимптотическое χ 2 -распределение. На этом основана стат. проверка гипотезы о взаимосвязях.
Опыт обработки данных с помощью А.л. показал его эффективность как способа целенаправленного анализа многомерной табл. сопряженности, содержащей (в случае содержательно разумного выбора переменных) огромный, по сравнению с двухмерными табл., объем интересующей социолога информации. Метод позволяет сжато описать эту табл. (в виде гипотезы о связях) и в то же время детально проанализировать конкр. взаимосвязь. Ал. обычно применяется многоэтапно, в форме диалога социолог-ЭВМ. Т.о., А.л. обладает значительной гибкостью, представляет возможность формулировать разнообразного вида предположения о взаимосвязях, включать опыт социолога в процедуру формального анализа данных.
Лит.: Аптоп Г. Анализ табл. сопряженности. М., 1982; Типология и классификация в социол. иссл-ях. М., 1982; Bishop Y.M.M. et ai. Discrete Multivariate Analysis. N.Y., 1975; Agresti A. An Introduction to Categorical Data Analysis. N.Y., 1966.
А.А. Мирзоев
АНАЛИЗ МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ - разд. статистики математической, посвященный матем. методам, направленным на выявление характера и структуры взаимосвязей между компонентами исследуемого признака многомерного и предназначенным для получения науч. и практических выводов. Исходным массивом многомерных данных для проведения А.м.с. обычно служат рез-ты измерения компонент многомерного признака для каждого из объектов исследуемой совокупности, т.е. последовательность многомерных наблюдений (см. Наблюдение в статистике). Многомерный признак чаще всего интерпретируется как многомерная вели-
чина случайная, а последовательность многомерных наблюдений - как выборка из генеральной совокупности. В этом случае выбор метода обработки исходных стат. данных производится на основе тех или иных допущений относительно природы закона распределения изучаемого многомерного признака (см. Распределение вероятностей).
1. А.м.с. многомерных распределений и их осн. характеристик охватывает ситуации, когда обрабатываемые наблюдения имеют вероятностную природу, т.е. интерпретируются как выборка из соотв. генеральной совокупности. К осн. задачам этого подраздела относятся; оценивание статистическое исследуемых многомерных распределений и их осн. параметров; иссл-е свойств используемых стат. оценок; иссл-е распределений вероятностей для ряда статистик, с помощью к-рых строятся стат. критерии проверки разл. гипотез о вероятностной природе анализируемых многомерных данных (см. Проверка статистических гипотез).
2. А.м.с. характера и структуры взаимосвязей компонент исследуемого многомерного признака объединяет понятия и рез-ты, присущие таким методам и моделям, как анализ регрессионный, анализ дисперсионный, анализ ковариационный, анализ факторный, анализ латентно-структурный, анализ логяшейный, поиск взаимодействий. Методы, принадлежащие к этой гр., включают как алгоритмы, осн. на предположении о вероятностной природе данных, так и методы, не укладывающиеся в рамки к.-л. вероятностной модели (последние чаще относят к методам анализа данных).
3. А.м.с. геометрической структуры исследуемой совокупности многомерных наблюдений объединяет понятия и рез-ты, свойственные таким моделям и методам, как анализ дискриминантиый, анализ кластерный (см. Методы классификации, Шкала). Узловым для этих моделей явл. понятие расстояния либо меры близости между анализируемыми элементами как точками нек-рого про-
АНАЛИЗ ПРИЧИННЫЙ
странства. При этом анализироваться могут как объекты (как точки, задаваемые в признаковом пространстве), так и признаки (как точки, задаваемые в «объектном» пространстве).
Прикладное значение А.м.с. состоит в осн. в обслуживании след. трех проблем: стат. иссл-я зависимостей между рассматриваемыми показателями; классификации элементов (объектов) или признаков; снижения размерности рассматриваемого признакового пространства и отбора наиб, информативных признаков.
Лит.: Стат. методы анализа социол. информации. М., 1979; Типология и классификация в социол. иссл-ях. М., 1982; Интерпретация и анализ данных в социол, иссл-ях. М., 1987; Айвазян С.А., Мхи-тарян В. С. Прикладная статистика и основы эконометрики: Учеб. М., 1998; Сош-никова Л.А. и др. Многомерный стат. анализ в экономике. М., 1999; Дубров А.М., Мхитарян В. С, Трошин Л.И. Многомерные стат. методы для экономистов и менеджеров. М., 2000; Ростовцев B.C., Ковалева Т.Д. Анализ социол. данных с применением стат. пакета SPSS. Новосибирск, 2001; Тюрин Ю.Н., Макаров А. А. Анализ данных на компьютере. Ы., 2003; Крыш-тановский А. О. Анализ социол. данных с помощью пакета SPSS. Μ., 2006.
ЮН. Толстова
АНАЛИЗ ПРИЧИННЫЙ - методы моделирования причинных отношений между признаками с помощью систем стат. уравнений, чаще всего регрессионных (см. Анализ регрессионный). Существуют и др. названия этой довольно обширной и постоянно изменяющейся области методов: путевой анализ, как впервые назвал его основоположник С. Райт; методы структурных эконометрических уравнений, как принято в эконометрике, и др. Осн. понятиями А.п. явл.: путевая (структурная, причинная) диаграмма, причинный (путевой) коэффициент, прямые, косвенные и мнимые компоненты связи между признаками. Используемое в А.п. понятие «причинное отношение* не затрагивает сложных фи-
лос. проблем, связанных с понятием «причинность». Причинный коэффициент опред. вполне операционально. Ма-тем. аппарат дает возможность проверки наличия прямых и косвенных причинных связей между признаками, а также выявления тех компонент корреляционных коэффициентов (см. Корреляция), к-рые связаны с прямыми, косвенными и мнимыми связями.
Путевая диаграмма отражает графически гипотетически предполагаемые причинные, направленные связи между признаками. Система признаков с однонаправленными связями называется рекурсивной. Нерекурсивные причинные системы учитывают также и обратные связи, напр., два признака системы могут быть одновременно и причиной, и следствием по отношению друг к другу. Все признаки делятся на признаки-следствия (зависимые, эндогенные) и признаки-причины (независимые, экзогенные). Однако в системе уравнений эндогенные признаки одного из уравнений могут быть экзогенными признаками др. уравнений. В случае четырех признаков рекурсивная диаграмма всех возможных связей между признаками имеет вид:
х 2 | |||||
/ | N | ||||
*1 | К | ||||
г | |||||
к | S |
Построение диаграммы связей явл. необходимой предпосылкой матем. формулирования системы стат. уравнений, отражающей влияния, представленные на диаграмме. Осн. принципы построения системы регрессионных уравнений проиллюстрируем на примере тех же четырех признаков. Идя по ходу стрелок, начиная с Хи находим первый эндоген-
АНАЛИЗ ПРИЧИННЫЙ
ный признак и отмечаем те признаки, к-рые на него влияют как прямо (непосредственно), так и косвенно (опосредованно) и через др. признаки. Первое стандартизированное регрессионное уравнение соответствует первому эндогенному признаку Xj и выражает зависимость Χι от тех признаков, к-рые на него влияют, т.е. от Χγ. Т.о., первое уравнение имеет вид: Χι = bi\X\.
Затем выявляем второй эндогенный признак, к-рый имеет направленные на него связи. Это признак Aj, ему соответствуют экзогенные переменные Х\ и Χι, поэтому второе регрессионное уравнение в стандартизированном виде формулируется так: Aj = ЬцХ\ + ЬпХг и т.д. С учетом ошибок измерения U система стандартизованных регрессионных моделей для нашей конкретной причинной диаграммы имеет вид: Х\ = Ui, А? =
- Ь->\Х\ + Ui, Хт, = 631ΑΊ + byiXi + Uy, Χα -
- baXi + binXi + Й43А3 + Щ. Чтобы оценить коэффициенты b, s , необходимо ее решить. Решение существует при условии, что данные удовлетворяют нек-рым естеств. стат. требованиям. Ь$ называются причинными коэффициентами и часто обозначаются как Ру. Т.о., Р# показывает ту долю изменения вариации эндогенного признака;, к-рая происходит при изменении экзогенного признака j на единицу стандартного отклонения этого признака при условии, что влияние остальных признаков уравнения исключается (см. Анализ регрессионный). Иначе говоря, Р,у есть прямой эффект признака j на признак г. Косвенный эффект признака j на;) вычисляется на основе учета всех путей влияния j на i за исключением прямого.
На диаграмме прямое влияние первого признака на четвертый схематически представление прямой стрелой, непосредственно идущей от Χι к Xt, символически изображаемое как 1->4; оно равно коэффициенту причинного влияния Р, Х 2 , ..., Х Р. Строго регрессионную зависимость можно определить след. образом.
Пусть У, Х\, Хг,
..., Х р -
случайные
величины с заданным совместным рас
пределением вероятностей.
Если для каж
дого набора значений Χ λ =х\, Х 2
= хг,
...,
Х р = х р
определено условное матем. ожи
дание Υ(χ\, Х2,
..., Хр) - E(Y/(X]
= xj,
Χι
= Х2, ..., Х р = Хр)),
то функция Υ(Χ],
Х2,
..., Хр)
называется регрессией величи
ны У по величинам Х\, Хг,
..., Х р,
а ее
график - линией регрессии У по Х\, Хг,
..., Х р,
или уравнением регрессии. Зави
симость У от ΛΊ, Хг
....... Х р
проявляется в
изменении средних значений Упри из
менении Х\, Хг
........ Хр.
Хотя при каждом
фиксированном наборе значений X] - xj, Хг = хг, » , Хр ~ Хр величина Τ остается случайной величиной с опред. рассеянием. Для выяснения вопр., насколько точно регрессия оценивает изменение У при изменении ΑΊ, Хг, ..., Х р, используется средняя величина дисперсии У при разных наборах значений Х\, Хг, ..., Хр (фактически речь идет о мере рассеяния зависимой переменной вокруг линии регрессии).
На практике линия регрессии чаще всего ищется в виде линейной функции У = Ьй + biXi + ЬгХг + - + ЬрХр (линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью метода наименьших квадратов, когда минимизируется сумма квадратов отклонений реально наблюдаемых У от их оценок У (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость): w
У (У -У) => min (Ν - объем выборки), ы
Этот подход основан на том известном факте, что фигурирующая в приведенном выражении сумма принимает ми-ним. значение именно для того случая, когда У= Υ(χ\, хг, --, х Р). Применение
Пример
Имеются данные о выпуске продукции группой предприятий по месяцам (млн. руб.):
Для выявления общей тенденции роста выпуска продукции произведем укрупнение интервалов. Для этой цели исходные (месячные) данные о выработке продукции объединяем в квартальные и получаем показатели выпуска продукции группой предприятий по кварталам:
В результате укрупнения интервалов общая тенденция роста выпуска продукции данной группой предприятий выступает отчетливо:
64,5 < 76,9 < 78,8 < 85,9.
Выявление общей тенденции ряда динамики можно произвести также путем сглаживания ряда динамики с помощью метода скользящей средней . Сущность этого приема состоит в том, что по исходным уровням ряда (эмпирическим данным) определяют расчетные (теоретические) уровни. При этом посредством осреднения эмпирических данных индивидуальные колебания погашаются, и общая тенденция развития явления выражается в виде некоторой плавной линии (теоретические уровни).
Основное условие применения этого метода состоит в вычислении звеньев подвижной (скользящей) средней из такого числа уровней ряда, которое соответствует длительности наблюдаемых в ряду динамики циклов.
Недостатком способа сглаживания рядов динамики является то, что полученные средние не дают теоретических закономерностей (моделей) рядов, в основе которых лежала бы математически выраженная закономерность и это позволяло бы не только выполнить анализ, но и прогнозировать динамику ряда на будущее.
Значительно более совершенным приемом изучения общей тенденции в рядах динамики является аналитическое выравнивание . При изучении общей тенденции методом аналитического выравнивания исходят из того, что изменения уровней ряда динамики могут быть с той или иной степенью точности приближения выражены усреднённо с помощью определенных математических функций. Путем теоретического анализа выявляется характер развития явления, и на этой основе выбирается то или иное математическое выражение типа изменения явления: по прямой, по параболе второго порядка, показательной (логарифмической) кривой и т.п.
Очевидно, что уровни временных рядов формируются под совокупным влиянием множества длительно и кратковременно действующих факторов, в т.ч. различного рода случайностей. Изменение условий развития явления приводит к более или менее интенсивной смене самих факторов, к изменению силы и результативности их воздействия и, в конечном счете, к вариации уровня изучаемого явления во времени.
Многомерный статистический анализ - раздел статистики математической, посвященный математическим методам, направленным на выявление характера и структуры взаимосвязей между компонентами исследуемого многомерного признака и предназначенным для получения научных и практических выводов. Исходным массивом многомерных данных для проведения такого анализа обычно служат результаты измерения компонент многомерного признака для каждого из объектов исследуемой совокупности, т.е. последовательность многомерных наблюдений. Многомерный признак чаще всего интерпретируется как многомерная величина случайная, а последовательность многомерных наблюдений - как выборка из генеральной совокупности. В этом случае выбор метода обработки исходных статистических данных производится на основе тех или иных допущений относительно природы закона распределения изучаемого многомерного признака.
1. Анализ многомерных распределений и их основных характеристик
охватывает ситуации, когда обрабатываемые наблюдения имеют вероятностную природу, т.е. интерпретируются как выборка из соответствующей генеральной совокупности. К основным задачам этого подраздела относятся: оценивание статистическое исследуемых многомерных распределений и их основных параметров; исследование свойств используемых статистических оценок; исследование распределений вероятностей для ряда статистик, с помощью которых строятся статистические критерии проверки различных гипотез о вероятностной природе анализируемых многомерных данных.
2. Анализ характера и структуры взаимосвязей компонент исследуемого многомерного признака
объединяет понятия и результаты, присущие таким методам и моделям, как анализ регрессионный, анализ дисперсионный, анализ ковариационнй, анализ факторный, анализ латентно-структурный, анализ логлинейный, поиск взаимодействий
. Методы, принадлежащие к этой группе, включают как алгоритмы, основанные на предположении о вероятностной природе данных, так и методы, не укладывающиеся в рамки какой-либо вероятностной модели (последние чаще относят к методам анализа данных).
3. Анализ геометрической структуры исследуемой совокупности многомерных наблюдений объединяет понятия и результаты, свойственные таким моделям и методам, как анализ дискриминантный, анализ кластерный, шкалирование многомерное. Узловым для этих моделей является понятие расстояния, либо меры близости между анализируемыми элементами как точками некоторого пространства. При этом анализироваться могут как объекты (как точки, задаваемые в признаковом пространстве), так и признаки (как точки, задаваемые в объектном пространстве).
Прикладное значение многомерного статистического анализа состоит в основном в обслуживании следующих трех проблем:
Проблемы статистического исследования зависимостей между рассматриваемыми показателями;
Проблемы классификации элементов (объектов или признаков);
Проблемы снижения размерности рассматриваемого признакового пространства и отбора наиболее информативных признаков.