Наташ, расскажите, а?
Ликбез по ранговым корреляциям
Сообщений 1 страница 30 из 35
Поделиться22007-04-26 13:44:08
Все расскажу и объясню в ближайшее время. Не столько про ранговые, вообще - про непараметрические. Про случаи, когда с точки зрения математики мы не имеем право использовать линейные коэффициенты.
Поделиться32007-04-27 12:45:07
Для начала определимся с терминологией. Существуют параметрические и непараметрические корреляции. Расчет линейной корреляции Пирсона проводится с использованием средних значений и дисперсий, то есть параметров (оттуда и название параметрическая). Нормальность распределения или хотя бы близость распределения к нормальному, необходима для корректного проведения корреляционного анализа с использованием параметрических методов.
Кроме того, отмечу, что для корректного проведения статистического анализа с применением тех или иных методов, временные ряды должны быть стационарными, то есть иметь постоянные по времени среднее, дисперсию и автокорреляции. Если кто-то расскажет отдельно про стационарность временных рядов, особенно в контексте наших геофизических задач, буду благодарна. Я сама с этим почти не разбиралась, а вопросы такие – мы же часто сталкиваемся с сезонными, суточными и прочими трендами. От этих трендов по идее надо отстраиваться при анализе?
Теперь перейду к непараметрическим методам корреляционного анализа (расчет ранговых коэффициентов корреляции). Нам часто встречаются величины, о распределении которых мы не знаем или знаем, что распределение отлично от нормального.
Вот некоторые цитаты из книг по статистическому анализу:
«Существует ряд ситуаций, когда вычисление коэффициентов ранговой корреляции целесообразно. Так, при существенном отклонении распределения одного из них (или обоих) от нормального распределения определение уровня значимости выборочного коэффициента корреляции r становится некорректным, в то время как ранговые коэффициенты ρ и τ не сопряжены с такими ограничениями при определении уровня значимости».
«Другая ситуация такого рода возникает, когда связь двух количественных признаков имеет нелинейный (но монотонный) характер»
Справедливости ради замечу, что большинство наших любимых индексов гелиогеофизической активности (AE, R, Dst, etc.) имеют распределение, близкое к экспоненциальному (степенному). Распределение интенсивности потоков частиц тоже сильно отличается от нормального, например, наличием длинных «хвостов» и т.д.
(Вообще говоря, я делаю простительную ошибку, называя сейчас нормальным распределение Пуассона, так как в наших величинах мы всегда ограничены с обеих сторон и т.д.)
Итак, для проведения корректного анализа нам необходимо либо приблизить распределение наших величин к нормальному, либо использовать непараметрические методы. В первом случае иногда достаточно прологарифмировать значения величины (само собой только в случае степенного закона распределения). Во втором случае мы можем позволить себе неосведомленность о видах распределения исследуемых переменных, и, что более важно, не предполагать изначально, что зависимость между ними носит линейных характер.
Это все была присказка, а в сказке чуть позже я расскажу, как считаются эти ранговые коэффициенты, приведу примеры с картинками и выложу свои матлабовские коды для расчета коэф-та корреляции Спирмена.
Поделиться42007-04-27 12:58:25
Заинтриговали. То, что надо сначала приводить распределение к почти нормальному, а зависимоть к почти линейной, понятно. А вот продолжение совсем интересно.
Что до суточных и прочих вариаций, то общий ответ - да, конечно. А конкретный зависит от вклада тех или иных величин. В частности, в задаче ULF - Je (поток электронов) вклаж 27-дневнгой и суточной вариаций просто подавляющий и отстраиваться от них надо обязательно.
Поделиться52007-04-27 13:07:38
Еще хотелось бы внести такое замечание к теме статистического анализа (любого). Коллеги, я надеюсь, вы никогда не забываете оценивать уровень статистической значимости найденных корреляций? А то мне часто приходится читать статьи не только по нашей тематике, например, недавно читала труд, посвященный исследованию влияния потребления каких-то биологически активных добавок на здоровье населения, и в процессе натыкалась на такие значения коэффициентов корреляции, что челюсть моя больно стукала мои колени.
Кстати, есть отличная статья, где демонстрируется, к чему приводит неправильное использование тех или иных методов статанализа в применении к задачам геофизики (попробую найти её в электронном виде).
Поделиться62007-04-27 13:10:21
Надя, ну а как можно привести зависимость между случайными величинами к линейной? Например наши любимые потоки электронов и цикл солнечной активности. Там есть какая-то зависимость от фазы цикла, но между самими переменными зависимость нелинейна.
Поделиться72007-04-27 13:17:55
Наташ, а какая разница, случайные или нет. Разве не бывает случайных величин, связанных (статистически, ясное дело) линейной зависимостю и разве нельзя почти любую монотонную зависимость и многие немонотонные свести к линейной?
Поделиться82007-04-27 13:19:27
Терминология у меня хромает, конечно. Я говорю «зависимость», но на самом деле ясно, что имеется ввиду корреляционная зависимость, которая указывает на связь изменений двух признаков, что, строго говоря, не всегда соответствует суровой физической действительности. Просто поправлюсь, что статистические методы не выявляют этой причинности, а лишь указывают на наличие какого-то соответствия. Величины, конечно же, могут и не находиться во взаимной зависимости друг от друга, а зависеть от какого-либо еще воздействия, не включенного в область рассмотрения.
В литературе, как правильно, употребляется понятие «корреляционная связь».
Поделиться92007-04-27 13:33:11
Надя, я наверное не очень поняла Вас по поводу приведения зависимости к линейной. Вот, например, с ростом числа солнечных пятен R частота случаев увеличения потоков электронов уменьшается, когда число пятен среднее, сильно возрастает количество событий по электронным всплескам, когда же R низкие – интенсивность потоков опять же падает. Получается какая-то горбатая зависимость. А зачем приводить её к линейной?
Поделиться102007-04-27 13:37:00
Чтобы потом воспользоваться обычной линейной регрессией. Одногорбую легко описать квадратичной, ну а потом и к линейной привести. Это я к тому, что почти нет случаев, когда нельзя сделать просто и бесхитростно, но это не значит, что их нет совсем и что новые методы не могут быть эффективнее. Поэтому жду продолжения.
Поделиться112007-04-27 14:13:19
Да, я продолжу рассказывать вечером или ночью. Может и сама, наконец, пойму изложу алгоритм ранжирования и построю графики, иллюстрирующие различия между линейной и ранговой. Кстати, если есть конкретные пожелания для каких параметров строить кросскорреляционные функции (может кому-то под конкретную задачу надо), давайте сделаем чтоб добро зря не пропадало.
По поводу моделей, таких как линейная регрессия и нелинейная и тому подобное. У меня есть книга - очень редкая и очень полезная:
Название: Идентификация систем. Теория для пользователя
Автор: Льюнг Л.
В электронном виде она весит 6 Мегов, формат файла DjVu. Обращайтесь. Я скачала её из сети, но там уже не работает ссылка. Насколько мне известно, книга настолько редкая, что даже в библиотеке мехмата она в одном экземпляре и только в читальном зале
Поделиться122007-04-28 09:49:53
Наташа, а ты, если не трудно, пропечатай на форуме оглавление этой книжки.
Поделиться132007-04-28 10:22:20
Оля, вот по этой ссылке можно посмотреть оглавление: http://lib.mexmat.ru/books/18055
Поделиться142007-04-28 10:30:27
Да, вот еще есть труд про анализ неравномерных временных рядов, который, возможно пригодится всем участникам, и пока он еще в открытом доступе:
Поделиться152007-04-28 21:06:05
Да, эту книжку я тоже скачала. Интересная.
Поделиться162007-04-29 09:46:25
Итак, обещанная ранговая корреляция. Я буду рассказывать, черпая определения и формулы из тех или иных источников без ссылки на них (потому как везде примерно одно и тоже). В общем, как говорится, если крадешь у одного - это плагиат, если у многих - это исследование
Я кратко описала выше случаи, в которых стоит использовать непараметрические методы для оценки степени связи признаков. Обычно используются коэффициенты ранговой корреляции Спирмена и Кендалла.
Метод ранговой корреляции Спирмена позволяет определить силу и направление корреляционной связи между двумя признаками или двумя иерархиями признаков.
Для подсчета ранговой корреляции необходимо располагать двумя рядами значений, которые могут быть проранжированы. Такими рядами могут быть:
а) Два признака, измеренные в одной и той же группе переменных.
ну например, интенсивность потоков одних и тех же частиц в разные фазы активности солнца
а) две индивидуальные иерархии признаков, выявленные у двух испытуемых по одному и тому же набору признаков.
Например, величина потока отказов на спутниках , находящихся в двух разных областях магнитосферы в течение одной магнитной бури.
в) Две групповые иерархии признаков.
тут наши самые распространенные задачи – поиски соответствия между теми или иными геофизическими факторами - индексами, потоками и тд.
г) Индивидуальная и групповая иерархии признаков
своих геофизических примеров придумать не могу (может кто-то придумает?) , так что пример из первоисточника:
например, сопоставление индивидуальной иерархии жизненных ценностей сотрудника усредненному мнению группы на этот же счет;
сопоставление последовательности товаров, которые приобрели бы (в среднем) жители города А и города Б при условии получения премии, на которую заранее не рассчитывали.
Что такое ранжирование (на всякий случай):
Ряд объектов, упорядоченных в соответствии со степенью проявления некоторого свойства, называют ранжированным; каждому числу такого ряда присваивается ранг. Будем обозначать ранги порядковыми числительными 1, 2, ..., n, где n-количество объектов. Таким образом, если какой-либо объект после ранжирования занимает третье место в ряду, ему присваивается ранг 3.
Ох уж эти математики, чем столько слов писать, я бы сказала - ребят, по возрастанию упорядочиваем и присваиваем номера порядковые )
У метода ранговой корреляции есть ограничения некоторые. О них я расскажу позже, в самом конце, потому как, исследуя эту тему, я поняла, что нам эти ограничения не грозят, потому что мы обычно исследуем огромные выборки с вещественными числами.
Далее начну описывать алгоритм (а то пост длинный получается).
Поделиться172007-04-29 10:02:51
Алгоритм для расчета ранговой корреляции:
Составляем такую таблицу (массив):
1.Наименование признака (номера)
2.Ранги переменной А (по порядку)
3.Ранги переменной В (по порядку)
4.Разница между значениями двух предыдущих столбцов №2 и №3
5.Квадрат значений предыдущего столбца №4
Итак, сам алгоритм (все-таки ссылку на источник я потом найду, а то как-то неудобно):
1) Выбрать переменные. (это для особо одаренных пункт!!!)
2) Проранжировать значения переменной А, начисляя ранг 1 наименьшему значению, в соответствии с правилами ранжирования. Занести ранги во второй столбец таблицы по порядку номеров признаков. (в первом к тому моменту уже находятся номера исследуемых признаков)
3) Проранжировать значения переменной В и занести в третий столбец таблицы по порядку номеров.
4) Подсчитать разности d между рангами А и В по каждой строке таблицы и результаты занести в четвертый столбец таблицы.
5) Возвести каждую разность из столбца 4 в квадрат, и результаты занести в столбец №5.
6) Подсчитать сумму квадратов из столбца №5.
7) При наличии одинаковых рангов, рассчитать поправки:
Тa =Sum(a^3 – a)/12 и Тb =Sum(b^3 – b)/12
Где a и b - объем каждой группы рангов в соответствующем ранговом ряду А и В.
(Коллеги, этот пункт я вам от всего сердца желаю пропустить. На наших огромных рядах смешно учитывать одинаковые ранги, да их и не бывает почти, если только мы не индекс Кр с ним же самим коррелируем. Ну или давайте обсудим, может кто думает иначе, да и потом задачки разные бывают)
8) Рассчитать коэффициент ранговой корреляции Спирмена rs при отсутствии одинаковых рангов – по формуле а; при наличии – по формуле б:
Формула а:
rs = 1 – 6 Sum (d^2) / N(N2 – 1)
Формула б:
rs = 1 – 6 (Sum(d^2)+ Тa + Тb / N(N2 – 1)
Где:
Sum(d^2) – квадратов разностей между рангами;
Тa и Тb – поправки на одинаковые ранги;
N – количество признаков, участвовавших в ранжировании.
9)Определить по специальной таблице критические значения rs для данного N. Если rs превышает критическое значение или, по крайней мере, равен ему, - корреляция достоверно отличается от нуля.
Что касается специальной таблицы. Учебники есть разные. Но опять же, при наших выборках, если получаем на N=1000 коэф-т 0.4, то он хоть и маленький, но уж точно говорит о достоверности. Это у социологов и ботаников могут быть проблемы с длинной выборки...
Поделиться182007-04-29 10:11:13
вот формула в привычном виде:
Поделиться192007-04-29 10:14:22
ну если всем понятно, то надо переходить к примеру, точнее к демонстрации различия результатов, полученных с помощью вычисления линейных коэффициентов и ранговых. Чуть позже я построю кросс-корреляционные функции для каких-нибудь наших параметров, которые распределены не по нормальному закону. Еще раз - если есть пожелания (посмотреть что-то из базы данных ОМНИ или потоки частиц) - высказывайте.
Поделиться202007-04-29 10:20:44
Пока все понятно.
Поделиться212007-04-30 01:34:15
А мне, пожалуй, что нет. Или, более резко, мне кажется, что переход от точной количественной оценки к достаточно произвольной процедуле ранжирования оправдан только в очень редких случаях.
И сразу вопросы
1) То, что ранговая и обычная линейная корреляция будут отличаться, понятно. Но откуда следует мысль о преимуществах ранговой? И каков ее физический смысл?
2) Почему в случае отличного от нормального распределения нельзя пользоваться обычным коэффициентом корреляции, если зависимость между переменными линейна? Да, распределение содержит высшие моменты, а не только первые два. Но это не значит, что двухмоментные функции перестают в этом случае быть содержательными.
И последнее, мне кажется, что нефизические примеры в книжке неслучайны. Я бы все же другие источники посоветовала - "Статистическую радиофизику" Рытова и "Статистическую гидромеханику" (авторов чуть позже допишу, сейчас вылетело из головы)
Поделиться222007-04-30 14:39:33
Не в преимуществах дело. Проблема возникает всегда, например, в статьях или докладах, где особо осведомленные критики придираются к линейным коэффициентам ввиду неправомерности использования их при распределениях, которые отличаются от нормальных. А про физический смысл ранговой еще стоит подумать,да. И отличие коэффициентов ранговых от линейных, как правило, очень незначительное, я приведу примеры на конкретных графиках чуть позже, до четверга я работаю на чужом компьютере и не имею под рукой необходимых данных.
Поделиться232007-04-30 14:47:20
Так по сути для рангов считается обычная корреляция. И вопрос просто переносится на нормальность рангового распределения. Мне кажется, что это уход от вопроса, а не ответ. Ранги, судя даже по примерам, нужны, когда нет численного представления и оно таким вот незамысловатым путем создается, А, когда оно уже есть, кажется, что это потеря информации и привнесение произвола. Про нелинейные связи и ненормальные распределения надо еще посмотреть, но ясно, что там другая должна быть методика, четко формализованная и на нормальной (не в том смысле ) математической основе.
Поделиться242007-04-30 14:51:47
Надь, ведь Наташа не пишет о преимуществах. Только о процедуре. Не буду говорить про нормальность, которая требуется для параметрических методов, - про это ты прочитаешь в любом учебнике. Скажу только что для нас непарметрические методы, в частности ранговая корреляция, могут быть полезны когда, распределение физической величины содержат малое количество очень больших или очень маленьких по сравнению со всей совокупность значений. Например (цифры с потолка), 90% Dst < 100 нТ, но есть в распределении пять значений по 600 нТ. При простой корреляции все сведется к корреляции между этими большими Dst. А если перейти к ранговой корреляции, и присвоить значениям 600 нТ просто следующий за наибольшим в распределении без 600 нТ, ранг, то можно коррелировать с учетом всех имеющихся в распределении значений.
Поделиться252007-04-30 14:57:07
Оль, так я и говорю произвол. Это если с потолка присваивать. А если построить распределение, а потом свести его к нормальному математически, то есть работать не с самим Dst, а , скажем, с логарифмом, то будет все то же самое, только без произвола и опять же неизвестного распределения для этих самых рангов. В общем, пока меня не убедили.
Поделиться262007-04-30 15:30:34
Надь, ведь если работать с логарифмом ничего не измениться. Все Dst < 100 попадут в один интервал, а > 600 в другой. И будет у тебя корреляция по двум точка. И при этом коэффиципент корреляции будет высоким и значимым, а коэффиципент детерминации высоким и незначимым.
Пошлю тебе на этот счет картинку из моей дисс. презентации. Сюда у меня не присоединяется.
А что лучше работать с распределениями – я не спорю. Когда мне понадобилось, я не стала морочится с корреляцией, а перешла к сравнению распределений. И всем советую. При таком способе, действительно, ничего не откидывается, и все значения входят со свойственными им весами. Только для этого надо для себя понять, что такое событие. Составить базу данных свойственным событиям параметров, ну, и т.д. (ты, читала, не буду себя рекламировать)
Поделиться272007-04-30 15:36:10
Ой, картинка вклеилась, но без текста. Посмотри e-mail.
Поделиться282007-05-03 13:32:10
Оль, а картинка как раз при логарифмировании растянется и станет вполне равномерной. Вообще этот бесхитростный прием мне кажется все же более последовательным, чем ранжирование на основе "нравится-не нравится" :/ .
Даже не поленилась книжку перечитать и нигде ничего не нашла про невозможность использования обычной корреляции для ненормальных распределений. Единственное, что для нормальных есть взаминооднозначная связь между нулевой корреляцией и независимостью, а для других нет и нормальные полностью описываются первыми двумя моментами. Но это, вроде, очевидно. Но обратное утверждение (за которым мы обычно и оходимся), что высокая корреляция позволяет предполагать, что связь никак с нормальностью не связано. А без дополнительных исследований для исключения случайного совпедения, выяснения механизмов и т.д. все равно не обойтись.
Видимо, надо будет еще завести темку про спектры для полноты картины.
Кстати, прием, который неплохо работает для оценки уровня паразитных корреляций (разные квазициклические процессы с близкими периодами и т.п.) - это расчет корреляций на больших временах сдвига (например год при периоде исследуемых возмущений не больше часа). Строго это означает, что процесс неэргодичный, но если уровень этой корреляции на бесконечности стабилен для разных тестовых интервалов, то превышение над этим уровнем можно рассматривать как указание на существование физической связи.
Поделиться292007-05-03 22:20:42
ну а я, кстати, и говорила в самом начале, что вариант - прологарифмировать сначала величину. Ну а если распределение не степенное, например? Потому что для индексов наших как раз самое первое, что приходит в голову - логарифмировать, а не возиться с непараметрическими корреляциями.
Поделиться302007-05-04 11:16:33
Ой, только догадалась нажать на 2 страницу. Все на первую глядела.
Не знаю, может при малых объемах распределений так хорошо удается применить логарифмирование. А при таких, когда в одном-трех первых интервалах число событий до 4000, а в последнем 20, то при разбиении на интервалы, которое делается по Стерджессу , интервалы получаются маленькими и в середине появляются интервалы без данных. И, естественно, коэффициент детерминации получается незначимый. Я в таких случаях просто откидывала крайние значения. А ранговая корреляция могла бы продлить линию регрессии.