Статистика и котики

22
18
20
22
24
26
28
30

Это происходит, поскольку одни отклонения являются положительными (когда Барсик больше среднего), а другие — отрицательными (когда Барсик меньше среднего). Поэтому необходимо избавиться от знака. Сделать это можно двумя способами: либо взять модуль от отклонений, либо возвести их в квадрат, который, как мы помним, всегда положителен. Последнее применяется чаще.

И, если мы найдем среднее от квадратов отклонений, мы получим то, что называется дисперсией. Однако, к большому сожалению, квадрат в этой формуле делает дисперсию очень неудобной для оценки разнообразия котиков: если мы измеряли размер в сантиметрах, то дисперсия имеет размерность в квадратных сантиметрах. Поэтому для удобства использования дисперсию берут под корень, получая по итогу показатель, называемый среднеквадратическим отклонением.

К несчастью, дисперсия и среднеквадратическое отклонение так же неустойчивы к выбросам, как и среднее арифметическое.

Среднее значение и среднеквадратическое отклонение очень часто совместно используются для описания той или иной группы котиков. Дело в том, что, как правило, большинство (а именно около 68%) котиков находится в пределе одного среднеквадратического отклонения от среднего. Эти котики обладают так называемым нормальным размером. Оставшиеся 32% либо очень большие, либо очень маленькие. В целом же для большинства котиковых признаков картина выглядит вот так.

Такой график называется нормальным распределением признака.

Таким образом, зная всего два показателя, вы можете с достаточной долей уверенности сказать, как выглядит типичный котик, насколько разнообразными являются котики в целом и в каком диапазоне лежит норма по тому или иному признаку.

НЕМАЛОВАЖНО ЗНАТЬ!

Выборка, генеральная совокупность и два вида дисперсии

Чаще всего нас, как исследователей, интересуют все котики без исключения. Статистики называют этих котиков генеральной совокупностью. Однако на практике мы не можем замерить всю генеральную совокупность — как правило, мы работаем только с небольшим количеством котиков, называемым выборкой.

Очень важно, чтобы выборка была максимально похожа на генеральную совокупность. Степень такой похожести называется репрезентативностью.

Необходимо запомнить, что существует две формулы дисперсии: одна для генеральной совокупности, другая — для выборки. В знаменателе первой всегда стоит точное количество котиков, а у второй — ровно на одного котика меньше.

Корень из дисперсии генеральной совокупности, как уже было сказано, называется среднеквадратическим отклонением. А вот корень из дисперсии по выборке называется стандартным отклонением.

Однако не будет большой ошибкой, если вы будете пользоваться терминами стандартное отклонение генеральной совокупности и стандартное отклонение выборки. Чаще всего именно последнее и рассчитывается для реальных исследований.

Глава 2.

Картинки с котиками

или средства визуализации данных

В предыдущей главе мы говорили про показатели, которые помогают определить, какой размер является для котиков типичным и насколько он бывает разнообразным. Но когда нам требуется получить более полные и зрительно осязаемые представления о котиках, мы можем прибегнуть к так называемым средствам визуализации данных.

Первая группа средств показывает, сколько котиков обладает тем или иным размером. Для их использования необходимо предварительно построить так называемые таблицы частот. В этих таблицах есть два столбика: в первом указывается размер (или любое другое котиковое свойство), а во втором — количество котиков при данном размере.

Это количество, кстати, и называется частотой. Эти частоты бывают абсолютными (в котиках) и относительными (в процентах).

С таблицами частот можно делать много интересных вещей. Например, построить столбиковую диаграмму. Для этого мы откладываем две перпендикулярных линии: горизонтальная будет обозначать размер, а вертикальная — частоту. А затем — рисуем столбики, высота которых будет соответствовать количеству котиков того или иного размера.