statistics info

Нульова гіпотеза та альтернативна гіпотеза

Інтерпретування статистичної інформації часто може включати розробку нульової гіпотези (англ. null hypothesis), яка зазвичай (але не обов'язково) полягає у відсутності взаємозв'язку серед змінних, або що зміни з часом не відбуваються.

Найкращою ілюстрацією для новачка є утруднення, з яким зіткнувся кримінальний процес в суді присяжних. Нульова гіпотеза, H0, стверджує, що відповідач є невинним, тоді як альтернативна гіпотеза, H1, стверджує, що відповідач є винним. Висувається звинувачення через підозру в винності. H0 (статус кво) протистоїть H1, й підтримується, поки H1 не стане підтримано доказами «поза розумним сумнівом». Проте «нездатність відхилити H0» в цьому випадку означає не невинність, а лише те, що докази були недостатніми для засудження. Тож присяжні не обов'язково приймають H0, їм не вдається відхилити H0. І хоч «довести» нульову гіпотезу неможливо, її можливо перевірити на те, наскільки вона є близькою до істини, через статистичну потужність, яка робить перевірку на помилки другого роду. Те, що статистики називають альтернативною гіпотезою, — це просто гіпотеза, що суперечить нульовій гіпотезі

Похибка

Стандартне відхилення (англ. standard deviation) вказує на те, наскільки окремі спостереження в вибірці відрізняються від центрального значення, такого як середнє за вибіркою або середнє за генеральною сукупністю, тоді як стандартна похибка (англ. standard error) вказує на оцінку різниці між середніми за вибіркою та середнім за генеральною сукупністю.

Статистична похибка (англ. statistical error) — це величина, на яку спостереження відрізняються від їхнього математичного сподівання, залишок (англ. residual) — це величина, на яку спостереження відрізняються від значення, якого набуває статистична оцінка очікуваного значення на заданому зразкові (яку також називають передбаченням). Середньоквадратичну похибку (англ. mean squared error) використовують для отримування ефективних оцінок, широко вживаного класу статистичних оцінок. Коренева середньоквадратична похибка (англ. root mean square error) є просто квадратним коренем середньоквадратичної похибки.

Допасування найменшими квадратами: червоним — точки для допасовування, синім — допасована лінія. Багато статистичних методів прагнуть мінімізувати залишкову суму квадратів (англ. residual sum of squares), і їх називають методами найменших квадратів (англ. methods of least squares), на противагу до методів найменших модулів[en] (англ. least absolute deviations). Останні надають однакової ваги як маленьким, так і великим похибкам, тоді як перші надають великим похибкам більшої ваги. Також, залишкова сума квадратів є диференційовною, що забезпечує зручну властивість для виконання регресії. Найменші квадрати в застосуванні до лінійної регресії називають звичайним методом найменших квадратів (англ. ordinary least squares method), а найменші квадрати в застосуванні до нелінійної регресії називають нелінійним методом найменших квадратів[en] (англ. non-linear least squares). Також, в лінійній регресійній моделі недетерміновану частину моделі називають членом похибки (англ. error term), збуренням (англ. disturbance), або просто шумом (англ. noise). Як лінійну, так і нелінійну регресію розглядають у поліноміальнім методі найменших квадратів (англ. polynomial least squares), що також описує дисперсію в передбаченні залежної змінної (вісь y) як функцію від незалежної змінної (вісь x) та відхилень (похибок, шуму, збурення) відносно оцінюваної (допасовуваної) кривої.