statistics info

Інтервальне оцінювання

Більшість досліджень вибирають лише частину генеральної сукупності, тож результати не представляють всю генеральну сукупність вповні. Будь-які оцінки, отримані з такої вибірки, лише наближують значення генеральної сукупності. Довірчі інтервали (англ. confidence intervals) дозволяють статистикам виражати те, наскільки близько вибіркова оцінка відповідає істинному значенню для всієї генеральної сукупності. Часто їх виражають як 95-відсоткові довірчі інтервали. Формально, 95 %-вий довірчий інтервал для значення є діапазоном, який, якщо вибирання та аналіз повторювати за таких же умов (отримуючи відмінний набір даних), включатиме істинне значення (генеральної сукупності) в 95 % всіх можливих випадків. Це не означає, що ймовірність перебування істинного значення в цьому довірчому інтервалі становить 95 %. З частотницької точки зору таке твердження не має сенсу, оскільки істинне значення не є випадковою змінною. Істинне значення або перебуває в даному інтервалі, або ні. Проте, істинним є те, що до того, як буде вибрано якісь дані, і за заданого плану побудови довірчого інтервалу, ймовірність того, що інтервал, який ще належить обчислити, покриватиме істинне значення, становить 95 %: в цей момент межі інтервалу є випадковими змінними, які ще належить проспостерігати. Одним із підходів, що видає інтервал, який можливо інтерпретувати як такий, що має задану ймовірність вміщування істинного значення, є застосування ймовірних інтервалів (англ. credible intervals) з баєсової статистики: цей підхід залежить від відмінного способу інтерпретування того, що мається на увазі під «імовірністю», а саме, баєсової ймовірності.

Довірчі інтервали, в принципі, можуть бути симетричними та асиметричними. Інтервал може бути асиметричним, бо він працює як нижня та верхня межі для параметру (лівобічний та правобічний інтервали), але він також може бути асиметричним, оскільки цей двобічний інтервал будують із порушенням симетрії навколо оцінки. Іноді межі асимптотичного інтервалу досягають асимптотично, й використовують їх для наближення істинних меж.

Значущість

Статистика рідко дає на аналізоване питання просту відповідь на кшталт Так/Ні. Інтерпретація часто зводиться до рівня статистичної значущості (англ. statistical significance), застосовуваного до чисел, і часто посилається на ймовірність значення, що точно відкидає нульову гіпотезу (яку іноді називають p-значенням).

В цьому графіку чорна лінія є розподілом ймовірності для статистики критерію, критична область є множиною значень праворуч від спостережуваної точки даних (спостережуваного значення статистичного критерію), а p-значення представлено зеленою площею.

Стандартним підходом є перевіряти нульову гіпотезу відносно альтернативної гіпотези. Критична область є множиною значень оцінювача, які ведуть до спростування нульової гіпотези. Ймовірність помилки I роду є відтак ймовірністю того, що оцінювач лежить у критичній області за умови, що нульова гіпотеза є істинною (статистична значущість), а ймовірність помилки II роду є ймовірністю того, що оцінювач не належить до критичної області за умови, що істинною є альтернативна гіпотеза. Статистична потужність (англ. statistical power) критерію є ймовірністю того, що він належним чином відхиляє нульову гіпотезу, коли ця нульова гіпотеза є хибною.

Посилання на статистичну значущість не обов'язково означає, що загальний результат є значущим в термінах реального світу. Наприклад, у великому дослідженні лікарського засобу може бути показано, що цей медикамент має статистично значущий, але дуже маленький сприятливий ефект, такий, що він навряд чи може помітно допомагати пацієнтові. І хоча в принципі прийнятний рівень статистичної значущості може бути предметом обговорення, p-значення є найменшим рівнем значущості, який дозволяє критерію відхиляти нульову гіпотезу. Цей критерій є логічно рівнозначним твердженню, що p-значення є ймовірністю спостерігання результату, щонайменше настільки ж екстремального, як і статистика критерію, за умови, що нульова гіпотеза є істинною. Таким чином, що меншим є p-значення, то нижчою є ймовірність трапляння помилки I роду.