Как посчитать достоверность различий

Содержание

Оценка часто необходима при сравнительном анализе полярных групп. Эти группы можно выделить, учитывая различную выраженность определенного целевого признака (характеристики) изучаемого явления. Обычно анализ начинают с подсчета первичных статистик выделенных групп, затем оценивают достоверность отличий.

Очень часто количественный анализ одним сравнением не ограничивается, появляется необходимость провести дополнительные сопоставления и выявить новые свидетельства. Выбор новых критериев наугад — дело неблагодарное. Лучше для этого использовать результаты корреляционного анализа.

Например, если вы исследуете личностную обусловленность желания принимать участие в экологическом движении, то признаком, по которому могут быть выделены полярные группы, могут выступить субъективные оценки испытуемых, экспертные оценки, некоторые поведенческие индикаторы, представленные в числовой форме. Если показатели интеллектуального развития имеют небольшую величину коэффициента корреляции (<0.35) с числовыми показателями названного желания, то выделение полярных групп по интеллектуальным параметрам вряд ли будет удачным. Скорее всего, значимых отличий между этими группами в выраженности желания участвовать в экологическом движении мы не обнаружим и не получим новых данных для выяснения закономерностей его личностного обусловливания.

Одной из наиболее часто встречающихся задач при обработке данных является оценка достоверности отличий между двумя, или более, рядами значений. В математической статистике существует ряд способов для этого. Для использования большинства мощных критериев требуются дополнительные вычисления, обычно весьма развернутые.

Компьютерный вариант обработки данных стал в настоящее время наиболее распространенным. Во многих прикладных статистических программах есть процедуры оценки различий между параметрами одной выборки или разных выборок. При полностью компьютеризованной обработке материала нетрудно в нужный момент использовать соответствующую процедуру и оценить интересующие различия. Однако большинство психологов не имеют свободного и неограниченного доступа к работе с компьютером — либо недостаточен парк ЭВМ, либо психолог как пользователь ЭВМ не подготовлен и может проводить обработку только с помощью квалифицированного персонала. И в том, и в другом случае типичный сеанс работы с компьютером заканчивается тем, что психолог получает принтерные распечатки, содержащие подсчитанные первичные статистики, результаты корреляционного анализа, иногда и факторного (компонентного).

Основной анализ осуществляется позже, не в диалоге с ЭВМ. Исходя из этих рассуждений, будем считать, что перед психологом часто встает задача оценки достоверности различий с использованием ранее вычисленных статистик. При сравнении средних значений признака говорят о достоверности (недостоверности) отличий средних арифметических, а при сравнении изменчивости показателей — о достоверности (недостоверности) отклонений сигм (дисперсии) и коэффициентов вариации.

Достоверность различий средних арифметических можно оценить по достаточно эффективному параметрическому критерию Стьюдента. Он вычисляется по формуле

где M1 и M2 — значения сравниваемых средних арифметических, m1 и m2 — соответствующие величины статистических ошибок средних арифметических. Знак вычисленной разности средних арифметических можно не учитывать, поскольку имеет значение только абсолютная величина критерия t.

Решение о достоверности различий принимается в том случае, если вычисленная величина t превышает табличное значение для данного числа степеней свободы. В тексте публикации или научного отчета указывают наиболее высокий уровень значимости из трех: 0.05, 0.01, 0.001. Если превышены 0.05 и 0.01, то пишут (обычно в скобках) Р=0.01 или p

Пример. M1 =113.3, m1 =2.4, n =13; M2 =103.3, m2 =2.6, n =16.

для d=13+16-2=27 вычисленная величина превышает табличную для вероятности Р=0.01. Вычисленное значение 2.83 больше табличного 2.77 для уровня значимости Р=0.01. Следовательно, различия между средними достоверны на уровне 0.01.

Приведенная формула проста. Используя ее, можно с помощью бытового калькулятора с памятью вычислить t критерий без промежуточных записей.

Следует помнить, что при любом численном значении критерия достоверности различия между средними этот показатель оценивает не степень выявленного различия (она оценивается по самой разности между средними), а лишь статистическую достоверность его, т.е. право распространять полученный на основе сопоставления выборок вывод о наличии разницы на все явление (весь процесс) в целом. Низкий вычисленный критерий различия не может служить доказательством отсутствия различия между двумя признаками (явлениями), ибо его значимость (степень вероятности) зависит не только от величины средних, но и от численности сравниваемых выборок. Он говорит не об отсутствии различия, а о том, что при данной величине выборок оно статистически недостоверно: слишком велик шанс, что разница при данных условиях определения случайна, слишком мала вероятность ее достоверности.

Степень, т.е. величину выявленного различия, желательно оценивать, опираясь на содержательные критерии. Вместе с тем, для психологического исследования весьма характерно наличие множества показателей, которые, по существу, являются условными баллами, и валидность оценивания с помощью них следует доказывать особо. Чтобы избежать большей произвольности, в таких случаях также приходится опираться на статистические параметры.

Пожалуй, наиболее распространено для этого использование сигмы. Разницу между двумя средними арифметическими в одну сигму и более можно считать достаточно выраженной. Если сигма подсчитана для ряда значений более 35, то достаточно выраженным можно считать различие 0.5 сигмы. Однако для ответственных выводов о том, насколько велика разница между значениями, лучше использовать строгие критерии.

Нормирование данных

Проиллюстрируем значение использования норм на примере широко известной методики К.Томаса. Напомним, что в ней вывод о доминирующей стратегии поведения в конфликтной ситуации делается с опорой на числовые данные. А именно, после подсчета суммарных баллов по каждой шкале, нужно выявить шкалу имеющую наибольший балл.

Соответствующая шкале стратегия интерпретируется как доминирующая в конфликтной ситуации. Подсчитанные статистики показывают, что средние величины шкальных оценок по абсолютной величине различны. Они варьируют у мужчин от 5,25 балла до 7,25 балла и у женщин от 3,71 до 7,65 баллов (см. табл. 11).

Табл. 11. Первичные статистики шкальных оценок методики Томаса

Пол	Мужчины (n=56)	Женщины (n=71)
Стратегия	Средн	-95%	+95%	Сигма	Средн	-95%	+95%	Сигма
Напористость	5,25	4,45	6,05	2,99	3,71	3,04	4,37	2,83
Сотрудничество	6,29	5,64	6,93	2,41	6,24	5,74	6,74	2,11
Компромисс	5,32	4,71	5,93	2,27	5,62	5,10	6,14	2,19
Избегание	7,25	6,71	7,79	2,02	7,65	7,18	8,11	1,96
Уступчивость	5,82	5,19	6,46	2,37	6,70	6,20	7,20	2,11

Средн. — средние величины;

-950% и +95.0% — доверительные интервалы средних величин;

Выделены наибольшие средние величины.

Таким образом, если не учитывать нормативные данные, полученные на российской выборке (или проверенные на российской выборке), то в интерпретации результатов можно придти к неверным выводам. В самом деле, мужчинам и женщинам свойственно предпочтение стратегии избегания.

В руководстве к методике не говорится о том, что доминирование одной из пяти стратегий является транскультуральной характеристикой личности. По контексту можно понять, что автор исходит из предположения о равной вероятности предпочтения каждой из пяти стратегий.

Поскольку между шкальными показателями существуют статистически значимые корреляционные связи, вряд ли можно говорить о равной вероятности следования каждой из пяти стратегий. В такой ситуации, когда отсутствуют нормативные данные и сведения о характере распределения величин, надежнее опираться на подсчитанные для своей выборки статистики.

В частности — для оценки выраженности доминирования одной из стратегий использовать сигму и доверительные интервалы. Добавим, что нормы целесообразно рассчитать отдельно для мужчин и женщин. По представленным данным видно, что в двух шкалах из пяти показатели значимо различаются у разных полов. При сравнении групп или подгрупп, эта половая специфичность может оказаться переменной, влияние которой нельзя не учитывать.

Вычислять нормы целесообразно и в других случаях. Полученные при сборе данных начальные (первичные) оценки выполнения экспериментальных заданий далеко не всегда удобно использовать в дальнейшей работе. Их тем или иным способом преобразуют. Наиболее частыми преобразованиями являютсяцентрирование и нормированиесреднеквадратическими отклонениями.

Под центрированием понимается линейная трансформация величин признака, при которой средняя величина распределения определенного признака становится равной нулю. Направление шкалы и ее единицы остаются при этом неизменными.

Суть нормирования состоит в переходе к другому масштабу — стандартизированным единицам измерения. При стандартизировании результатов тестовых испытаний нормирование чаще всего осуществляется с помощью среднеквадратических отклонений. Стандартизирование производится при нормальном распределении тестовых оценок или близком к нему по виду.

В психологии существует целый ряд шкал, основанных на нормальном распределении и имеющих разные значения М и . Например, в шкале отклонений интеллекта IQ: М=100,  =15; в шкале Векслера М=10, = 3. Распределения различных измеренных в эксперименте признаков имеют разные величины М и  . Переводя полученные первичные оценки разных признаков к распределению с одними и теми же М и , мы получаем больше возможностей для оценки и сопоставления их варьирования. Сделать это нам позволяет использование нормированного отклонения. Нормированное отклонение показывает, на сколько сигм отклоняется та или иная варианта от среднего уровня варьирующего признака (средней арифметической), и выражается формулой:

где V — значение признака (в начальных баллах).

С помощью нормированного отклонения можно оценить любое полученное значение по отношению к группе в целом, взвесить его отклонение и одновременно освободиться от именованных величин. Для того чтобы избавиться от отрицательных чисел к полученной величине t можно прибавить какую-либо константу. Удобно, если все числа, с которыми вы оперируете имеют одинаковое количество знаков.

С учетом этих соображений весьма удобна шкала Т-оценок. Для этой шкалы принято нормальное распределение, имеющее М=0,  =10. Для пересчета берется константа равная 50. Формула преобразования начальных баллов в Т-оценки следующая:

Смысл процедуры нормирования рассмотрим на примере. Предположим, нас интересуют некоторые связи коммуникативной умелости продавцов с особенностями расположения магазина в крупном городе.

Чтобы составить некоторую интегральную оценку коммуникативной умелости конкретного продавца, мы можем через наблюдение получить по каждому испытуемому ряд параметров, характеризующих его общение с покупателем. Например, мы можем измерить среднюю длительность контакта глазами, среднее количество улыбок в фиксированный интервал времени, количество грубых, неприветливых обращений и т.д. Можно охарактеризовать преимущества и недостатки расположения магазина в городе (насколько «бойкое место» и т.п.). Для этого можно подсчитать количество маршрутов городского транспорта, имеющих остановки в непосредственной близости от магазина, оценить его удаленность от станций метро, учесть число расположенных поблизости магазинов другого профиля и т.д.

Для того чтобы вывести некоторый обобщенный коммуникативный показатель невозможно складывать число улыбок с длительностью контакта глазами и вычитать из этой суммы количество выражений, свидетельствующих о низкой речевой культуре. Бессмысленно складывать число автобусных маршрутов с числом соседних магазинов и вычитать из суммы величину расстояния до ближайшего метро. Лучше собрать необходимый массив количественных данных, проводя исследование в ряде магазинов, подсчитать первичные статистики для всех этих показателей, а затем, после преобразования начальных данных, получить Т-баллы по каждому показателю.

При нормировании из каждого полученного при сборе данных значения в начальных единицах вычитают среднюю арифметическую, а разность делят на сигму. Полученную величину умножают на 10, затем прибавляют к 50 или вычитают из 50. Выбором последнего арифметического действия (сложение или вычитание) мы можем задать направление вклада, который делает этот параметр в высчитываемую интегральную оценку, т.е. можем задавать направленность преобразования, учитывая специфику данного параметра. Если конкретное значение в начальных единицах превышает среднюю арифметическую, мы можем нормированное отклонение (разность, деленную на сигму) приплюсовать к 50. Это будет соответствовать большей выраженности оцениваемого психического качества у данного испытуемого, чем в среднем по нашей выборке.

Например, большее у конкретного продавца количество улыбок на одну сигму (чем в среднем) количественно теперь будет выражено: 60 Т-баллами. Количественную оценку признаков высокой речевой культуры в нормированных отклонениях следует прибавлять к 50 Т-баллам, а низкой речевой культуры — вычитать из 50 Т-баллов. Если, например, количественная оценка некоторого признака отрицательной направленности (в начальных баллах), превышает среднюю величину на полсигмы, то в Т-баллах она будет равна 45. После такого рода преобразований, подсчитывая интегральный показатель коммуникативной умелости для конкретного испытуемого, мы можем прибавлять одни Т-баллы к другим.

Форму стандартизирования данных целесообразно выбирать с учетом размаха полученных начальных оценок и числа градаций. Если в начальных баллах число градаций 7-15, то могут оказаться вполне подходящими стенайны[2]. Если же число градаций достигает 30 и более при небольшой скошенности распределения (асимметрии), то переводя эти показатели в стенайны мы будем огрублять баллы, т.е. терять некоторую долю точности произведенного измерения. Если есть основания считать, что ваши измерения достаточно эффективны (например, есть данные о хорошей ретестовой надежности, обнаружены высокие корреляции полученных в измерениях показателей с ясными и надежными внешними критериями валидизации и т.д.), то оправданным будет использование стандартизированых единиц имеющее такое же или даже несколько большее число градаций.

Корреляционный анализ

Источник: stydopedia.ru

Что такое статистичекая значимость в A/B тестах и в чем ее ценность | Урок 3

Занырнем глубже в механику классического A/B тестирования, познакомимся с понятием “статистическая значимость” и разберемся, что может угрожать достоверности результатов ваших тестов.

8.5K открытий

Автор английской версии: Идан Михаэли, директор по Data Science в Hippo Insurance

Вы читаете перевод бесплатного курса по A/B тестированию от компании Dynamic Yield. Над переводом работали Оля Жолудова и Ринат Шайхутдинов. При поддержке koptelnya.ru.

Коптельня — команда по быстрой разработке веб-приложений и сайтов.

(Если вы здесь впервые, то лучше начните сначала)

A/B тестирование — это одна из самых популярных техник оптимизации веб-страниц. Техника позволяет маркетологам, владельцам сайтов принимать более взвешенные и обоснованные решения относительно целесообразности внедрения их творческих идей. Другими словами, когда кто-то предлагает что-то на сайте поменять, мы можем оценить эти изменения не интуитивно и не с высоты чьего-то опыта, а объективно, отталкиваясь от конкретных целей: как ближних (например, CTR кнопки), так и долгосрочных (например, конверсия в покупатели). В то же время, тесты страхуют нас от серьезных ошибок, которые могут подорвать вовлеченность.

Давайте же занырнем глубже в механику классического A/B тестирования, познакомимся с понятием статистическая значимость (statistical significance) и разберемся, что может угрожать достоверности результатов ваших тестов. В конце статьи я приведу пару альтернатив классическому A/B тестированию от Dynamic Yield.

На первый взгляд, процедура тестирования предельно проста. Во-первых, мы создаем вариацию некой оригинальной веб-страницы (базы). Далее, мы случайным образом делим трафик между двумя версиями страницы (распределение посетителей проходит случайно, согласно некой вероятности). Наконец, мы собираем данные, как отработала каждая версия страницы (метрики).

После этого мы анализируем данные, выбираем версию с наилучшими результатами и отключаем ту, что отработала хуже. Вроде бы все очевидно и просто? Нет.

Важно помнить, что когда мы выбираем одну из версий, то фактически масштабируем показатели, полученные в результате тестирования, на всю аудиторию потенциальных пользователей, а это — серьезный прыжок веры. Поэтому тестирование должно быть достоверным; иначе есть риск принять неверное решение, которое в долгосрочной перспективе негативно скажется на показателях сайта. Процесс достижения нужной достоверности мы называем тестированием гипотезы (hypothesis testing), а саму искомую достоверность — статистической значимостью (statistical significance).

Тестирование гипотезы начинается с того, что мы формулируем нулевую гипотезу (Null hypothesis) — некое утверждение, которое закрепляет статус кво, например “оригинальная страница (база) дает тот же CTR, что и вариация с новым дизайном”. Далее мы смотрим, можно ли отклонить это утверждение как крайне маловероятное.

Как мы это делаем?

Во-первых, нужно понять, где нас подстерегают ошибки. Вариантов тут два: во-первых, мы можем ошибочно опровергнуть нулевую гипотезу. Мельком взглянув на данные, мы можем прийти к выводу, что разница в показателях двух страниц имеется.

Ошибки первого рода. На деле же, этой разницы может не быть, а различия в результатах, на которые мы опираемся — это воля случая. Такой тип ошибок называется ошибки первого рода (type I error) или ложноположительные результаты (false positive).

Ошибки второго рода. Второй тип ошибок наблюдается, когда мы не наблюдаем значительной разницы между вариациями страницы, в то время как разница на самом деле есть, а ее отсутствие в тестировании — это случайность. Такие ошибки называют ошибками второго рода (type II error) или ложноотрицательными результатами (false negative).

Как избежать ошибок первого и второго рода?

Краткий ответ такой: устанавливайте правильный размер выборки. Чтобы определить нужный размер выборки, необходимо задать несколько параметров для нашего теста. Чтобы избежать ложноположительных результатов, нужно установить уровень достоверности (confidence level) или, другими словами, статистическую значимость. Это должно быть небольшое положительное число.

Как правило, уровень значимости принимают равным 0,05: это означает, что на действующей модели лишь в 5% случаев есть вероятность выявить ложную разницу между двумя вариациями (то есть пятипроцентная вероятность ошибки). Про эту общепринятую константу обычно говорят “достоверность более 95%”.

Большинство специалистов по проведению тестирований (как и большинство инструментов, доступных на сегодняшний день) довольствуются этим первым параметром. Но, если мы хотим также застраховаться от ложноотрицательных результатов (false negative), нужно определить еще два параметра.

Первый — это минимальная разница в результатах, которую мы хотим отслеживать (при условии, что разница была выявлена). Второй — это вероятность выявить эту разницу (при условии, что она существует).
Второй параметр называют статистической мощностью (statistical power) и часто по умолчанию принимают его за 80%. Далее нужный размер выборки рассчитывается на основании этих трёх значений (можно воспользоваться онлайн-калькулятором).

Хотя этот процесс может показаться достаточно сложным, а рассчитанный таким образом размер выборки часто кажется слишком большим, стандартный подход к тестированию диктует именно такую процедуру — иначе о достоверности говорить не приходится. Горькая правда в том, что даже при условии чёткого следования вышеописанному алгоритму, вы всё равно можете получить некорректные результаты. Давайте разберемся почему.

Я провел все вычисления; теперь можно полностью доверять результатам?

Хотя метод проверки гипотез выглядит многообещающе, на практике он совершенно не застрахован от ошибок, потому что при тестировании мы опираемся на определенные скрытые предположения, которые часто не имеют места в реальных жизненных сценариях.

Первое предположение обычно не вызывает сомнений: мы предполагаем, что “образцы” нашей выборки — то есть посетители сайта, которым мы показываем вариации страницы — никак не связаны друг с другом, и их поступки не созависимы. Обычно это предположение достоверно, если конечно мы не показываем наши вариации одному и тому же посетителю по несколько раз, считая каждый раз как отдельный показ.

Второе предположение состоит в том, что элементы каждой выборки распределены одинаково (identically distributed). Проще говоря, это означает, что вероятность конверсии равна для всех посетителей. Конечно, это не так. Вероятность конверсии зависит от времени, местоположения, предпочтений посетителя, источников трафика и многих других факторов.

К примеру, если во время проведения эксперимента, на сайте крутится какая-то рекламная кампания, мы можем наблюдать прилив трафика с Facebook. Это может привести к резким изменениям в CTR (click-through rates) — ведь люди, привлеченные рекламой, отличаются от ваших обычных посетителей. Такие колебания влияют не только на A/B тесты, но и на более продвинутые техники оптимизации, которые мы применяем в Dynamic Yield.

Третье предположение заключается в том, что измеряемые нами показатели (например, CTR или конверсия) имеют нормальное распределение. Возможно для вас это звучит как абстрактный математический термин, но правда в том, что все “магические” формулы расчета уровня достоверности основаны на этом предположении, которое, кстати, очень шаткое и соблюдается далеко не всегда. В целом можно выделить такую зависимость: чем больше размер выборки и чем больше мы наблюдаем конверсий, тем сильнее соблюдается это предположение — согласно центральной предельной теореме.

Окей, понятно, что математика не застрахована от ошибок, но на какие подводные камни стоит обратить внимание?

Таких подводных камней два.

Во-первых, платформы для проведения A/B тестов часто предлагают наблюдать за результатами тестирования в реальном времени. С одной стороны, это дает чувство контроля над ситуацией и позволяет специалисту следить за прозрачностью тестирования.

Однако, наблюдая за показателями “в прямом эфире”, мы рискуем приступить к активным действиям раньше времени, отталкиваясь от сырых данных. Кто-то останавливает тестирование, получив первые результаты — даже если нужный размер выборки еще не достигнут, кто-то тормозит, как только достигнута статистическая значимость; оба сценария — прямой путь к ошибкам. Это вызывает статистическую погрешность (statistical bias) в сторону выявления разницы, которой на самом деле нет; более того, эту погрешность мы не можем заранее рассчитать и скорректировать (например, установив более высокий уровень значимости). Больше на тему: Как не надо анализировать A/B тесты. Проблема подглядывания →

Второй подводный камень — это завышенные ожидания от вариации-победителя после проведения тестирования. В результате проявления статистического эффекта известного как регрессия к среднему (regression toward the mean), долговременные результаты вариации-победителя могут быть не такими высокими, как в процессе тестирования. Проще говоря, есть вероятность, что вариация-победитель на самом деле была не объективно лучшей, а просто более “везучей”. Это везение со временем заканчивается и сглаживается, в результате чего возникает ощущение, что результаты падают.

Есть ли альтернативы A/B тестированию?

Конечно. Есть множество разных кейсов оптимизации страниц, и A/B тестирование подходит лишь в ряде случаев. Допустим, мы хотим провести тест на странице, которая давно работает и по показателям которой у нас уже собрана определенная история. Изменение, которое мы хотим внести, будет внедрено на страницу надолго и для всей совокупности посетителей сайта.

Конечно, в этом случае нужно глубоко и точно измерить все результаты и принять обоснованное решение относительно данного изменения. Однако, на практике часто встречаются другие кейсы.

К примеру, нам нужно узнать, какой из трёх заголовков статей сработает лучше. При этом сайт, на котором будет размещена статья, относительно новый, а сама статья будет висеть на главной странице лишь несколько часов. Это означает, что нам нужно быстро выявить самый эффективный заголовок и применить это знание в рамках нескольких часов. В этом нам поможет метод “многорукого бандита”.

Если кратко, многорукий бандит постоянно делит трафик между вариациями в зависимости от результатов и уровня достоверности, зафиксированных на каждом этапе пути. При таком подходе мы немного теряем в плане уверенности, что вариация-побелитель действительно лучшая вариация, но получаем более быструю конвергенцию. Это первый уровень оптимизации, который мы предлагаем в Dynamic Yield.

Более глубокий уровень оптимизации делает ставку на полную персонализацию. Это можно делать вручную или автоматически. Суть в том, что мы показываем определенным пользователям определенные вариации. Рассмотрим пример персонализации вручную. Допустим мы хотим на День Королевы показывать всем посетителям из Нидерландов оранжевый фон страницы.

Очень часто такие ручные изменения приносят свои результаты. Минус в том, что они плохо масштабируются. Допустим, у нас на сайте действует рекламная акция для посетителей с Facebook. Что делать, если с Facebook приходит голландец? По мере появления новых групп посетителей, количество вариаций будет расти, а правила оптимизации — усложняться.

Кроме того, здесь в игру вступает метод научного тыка — вроде бы эксперименты должны принести какие-то результаты, но никто не знает какие.

Поэтому в подобных случаях может лучше сработать подход автоматической персонализации. Допустим, у нас кулинарный сайт, на котором есть секция с рекомендованными рецептами. С помощью механизма персонализации мы можем настроить сайт так, чтобы рекомендовать каждому посетителю персональный рецепт, на основании истории его взаимодействия со страницами, разделами и тегами на сайте.

Заключение

A/B тесты — эффективный инструмент, но если проводить их неправильно, можно прийти к ложным выводам. Достижение нужного уровня статистической значимости — это обязательное условие для получения надежных результатов тестирования. Чтобы этого добиться, нужно правильно установить ряд параметров, а также определить необходимый размер выборки и придерживаться его в процессе тестирования.

Классическая ошибка, которая ведет к потере достоверности — это сбор результатов до момента достижения нужного размера выборки. Если вас интересуют быстрые способ оптимизации, присмотритесь к методам из второй части статьи: многорукий бандит и персонализация на базе машинного обучения.

Чтобы определить, насколько значимы результаты вашего теста, воспользуйтесь нашим бесплатным калькулятором байесовского A/B тестирования.

Источник: vc.ru

Как посчитать достоверность различий

B2B2C MARKET
» Разное по теме
» Как рассчитать достоверность различий Июль 30, 2023 0

Как рассчитать достоверность различий

Определение достоверности различий является важным этапом во многих областях исследований и анализа. При сравнении массивов данных, изучении влияния методов лечения или оценке эффективности различных моделей понимание достоверности наблюдаемых различий необходимо для получения точных и значимых выводов.

Под достоверностью различий понимается степень, в которой наблюдаемые различия между группами или переменными можно считать статистически значимыми и не обусловленными случайностью. Другими словами, она помогает оценить, могут ли наблюдаемые различия быть значимыми на практике или это просто результат случайной вариации данных.

Расчет достоверности различий предполагает определение вероятности того, что наблюдаемое различие обусловлено случайностью, путем проведения статистических тестов, таких как t-тесты и дисперсионный анализ (ANOVA). Результаты этих тестов обычно выражаются в виде p-значения, которое указывает на вероятность наблюдаемого различия при отсутствии истинного различия в популяции.

Интерпретация достоверности различий требует тщательного рассмотрения порогового значения p-value и контекста исследовательского вопроса. Обычно используется пороговое значение p-value, равное 0,05, что соответствует 5%-ной вероятности того, что наблюдаемое различие получено только случайно; если p-value ниже этого порога, то оно обычно считается статистически значимым, а наблюдаемое различие — достоверным. Однако если p-значение превышает пороговое значение, это говорит о том, что наблюдаемое различие может быть случайным и для определения его достоверности необходимо провести дополнительные исследования.

Важность измерения надежности

При принятии решений на основе данных важно иметь точную и надежную информацию. Измерение надежности позволяет убедиться в том, что данные надежны и могут быть использованы с уверенностью. Будь то научные исследования, анализ рынка или контроль качества, надежность является важным фактором для получения достоверных результатов.

Надежность измеряет последовательность и стабильность данных с течением времени или из разных источников. Она позволяет исследователям и аналитикам оценить, насколько надежны и свободны от случайных ошибок данные. Без надежных данных сделанные выводы и принятые решения могут быть ошибочными или вводящими в заблуждение.

В зависимости от характера и назначения данных для расчета надежности используются различные методы и статистические приемы. Например, в экспериментальных исследованиях надежность может быть оценена путем проведения таких тестов надежности, как тест-ретест и надежность «разделенной половины». Эти тесты измеряют согласованность результатов, полученных при повторении одного и того же эксперимента или при разделении теста на две половины.

Измерения надежности важны не только в научных исследованиях, но и в повседневных практических приложениях, таких как разработка продукции и контроль качества. Обеспечивая надежность измерений, компании могут выявлять и устранять несоответствия и расхождения, повышать точность и надежность своей продукции.

В заключение следует отметить, что надежность измерений необходима для получения точных и надежных данных. Исследователи, аналитики и компании могут принимать обоснованные решения, проводить достоверные исследования и выпускать надежные продукты. Понимание и оценка надежности данных помогает избежать ошибок и гарантировать, что выводы и действия основаны на прочном фундаменте.

Факторы, влияющие на достоверность различий

На достоверность различий при анализе данных влияет несколько факторов. Понимание этих факторов необходимо для обеспечения точности и достоверности результатов.

Методы сбора данных: методы, используемые для сбора данных, могут оказывать существенное влияние на достоверность различий. Если процесс сбора данных не стандартизирован или не согласован, он может внести вариабельность и повлиять на надежность результатов. Важно свести к минимуму ошибки при сборе данных, используя надежные и проверенные методы измерения.

Размер выборки: размер выборки, используемой в исследовании, также может влиять на надежность различий. Более крупные выборки, как правило, дают более надежные результаты, поскольку снижают влияние случайной вариации. Меньшие выборки могут приводить к ошибкам и снижать надежность результатов исследования.

Ошибка измерения: под ошибкой измерения понимаются неточности или вариации в процессе измерения. Ошибки измерения могут снизить надежность наблюдаемых различий. Важно минимизировать ошибки измерения путем использования стандартизированных и валидированных измерительных инструментов.

Характеристики испытуемых: характеристики исследуемых субъектов также могут влиять на надежность различий. Межсубъектная вариабельность и индивидуальные различия могут вносить дополнительные ошибки и снижать надежность полученных результатов. Контроль характеристик испытуемых или использование методов рандомизации могут уменьшить влияние этих факторов на надежность.

Методы анализа данных: методы, используемые для анализа данных, также могут влиять на достоверность различий. Использование соответствующих статистических методов и контроль за сбивающими переменными могут помочь обеспечить достоверность результатов. Важно придерживаться передовой практики анализа данных, чтобы минимизировать влияние ошибок анализа на надежность результатов.

Таким образом, на надежность различий в анализе данных могут влиять такие факторы, как методы сбора данных, размер выборки, ошибки измерения, характеристики испытуемых и методы анализа данных. Понимая и устраняя эти факторы, исследователи могут повысить надежность и валидность своих выводов.

Методы расчета надежности

Для определения надежности различий можно использовать несколько методов. Одним из часто используемых методов является метод тестовой и ретестовой надежности. В этом методе один и тот же тест проводится для одной и той же группы людей в двух разных случаях. Затем баллы, полученные от двух администраторов, сравниваются для определения согласованности результатов. Высокий уровень согласованности говорит о том, что наблюдаемые различия достоверны.

Другим способом расчета надежности является метод «разделенной половины». В этом случае тест делится на две половины и сравниваются оценки, полученные в каждой половине; корреляция между оценками, полученными в двух половинах, дает оценку надежности. Этот метод особенно полезен, когда тест состоит из нескольких пунктов или заданий.

Альфа Кронбаха — еще один метод, широко используемый для расчета надежности. Этот метод особенно полезен, когда тест состоит из нескольких пунктов или заданий, направленных на измерение одной и той же структуры. Альфа Кронбаха рассчитывает среднюю корреляцию между всеми парами пунктов и дает оценку внутренней согласованности.

Наконец, расчеты надежности важны и в области финансов. Рассчитывая надежность финансовых моделей и прогнозов, экономисты и аналитики могут оценить риски и неопределенности, связанные с различными инвестиционными стратегиями и решениями. Это поможет им принимать более обоснованные и надежные финансовые решения и снижать возможные потери.

Источник: b2b2c.market

Что такое статистичекая значимость в A/B тестах и в чем ее ценность | Урок 3

Как посчитать достоверность различий

Важность измерения надежности

Факторы, влияющие на достоверность различий

Методы расчета надежности

Как убедить начальника повысить зарплату психология

ОСАГО что дает при аварии

Сколько платят детские до 18 лет

Как исчисляется транспортный налог для физических лиц

Кто делает ремонт в арендуемом помещении

Почему не закрывают больничный лист после карантина

Как встать на ипотеку

Группа лср генеральный директор