Основные статистические характеристики данных. Основы научных исследований в агрономии. IV. Актуализация опорных знаний учащихся

К основным статистическим характеристикам ряда измерений (вариацион­ного ряда) относятся характеристики положения (средние характе­ристики, или центральная тенденция выборки ); характеристики рассеяния (ва­риации, или колеблемости ) и характеристики формы распределения.

К характеристикам положения относятся среднее арифметическое значе­ние (среднее значение ), мода и медиана.

К характеристикам рассеяния (вариации, или колеблемости ) относятся: размах вариации , дисперсия , среднее квадратическое (стандартное ) отклонение , ошибка средней арифметической (ошибка средней ), коэффициент вариации и др.

К характеристикам формы относятся коэффициент асимметрии, мера ско­шенности и эксцесс.

Характеристики положения

Среднее арифметическое значение – одна из основных характеристик вы­борки.

Она, как и другие числовые характеристики выборки, может вычисляться как по необработанным первичным данным, так и по результатам группировки этих данных.

Точность вычисления по необработанным данным выше, но процесс вычисления оказывается трудоёмким при большом объёме выборки.

Для несгруппированных данных среднее арифметическое определяется по формуле:

где n - объем выборки, х 1 , х 2 , ... х n - результаты измерений.

Для сгруппированных данных:

где n - объем выборки, k – число интервалов группировки, n i – частоты интервалов, x i – срединные значения интервалов.

Мода

Определение 1. Мода - наиболее часто встречающаяся величина в данных вы­борки. Обозначается Мо и определяетсяпо формуле:

где - нижняя граница модального интервала, - ширина интервала группи­ровки, - частота модального интервала, - частота интервала, предшествую­щего модальному, - частота интервала, последующего за модаль­ным.

Определение 2. Модой Мо дискретной случайной величины называется наиболее вероятное её значение.

Геометрически моду можно интерпретировать как абсциссу точки максимума кривой распределения. Бывают двухмодальные и многомодальные распределения. Встречаются распределения, которые имеют минимум, но не имеют максимума. Такие распределения называются антимодальными .

Определение. Модальным интервалом называется интервал группировки с наибольшей частотой.

Медиана

Определение . Медиана - результат измерения, который находится в сере­дине ранжированного ряда, иначе говоря, медианой называется значение признака Х , когда одна половина значений экспериментальных данных меньше её, а вторая половина – больше, обозначается Ме .

Когда объем выборки n - четное число, т. е. результатов измерений четное количество, то для определения медианы рассчитывается среднее значение двух показателей выборки, находящихся в середине ранжированного ряда.

Для данных, сгруппированных в интервалы, медиану определяют по фор­муле:

,

где - нижняя граница медианного интервала; ширина интервала группи­ровки, 0,5n – половина объёма выборки, - частота медианного интервала, - накопленная частота интервала, предшествующего медианному.

Определение. Медианным интервалом называется тот интервал, в котором накопленная частота впервые окажется больше половины объёма выборки (n/ 2) или накопленная частость окажется больше 0,5.

Численные значения среднего, моды и медианы отличаются, когда имеет место несимметричная форма эмпирического распределения.

Характеристики рассеяния результатов измерений

Для математико-статистического анализа результатов выборки знать только характеристики положения недостаточно. Одна и та же величина среднего значе­ния может характеризовать совершенно различные выборки.

Поэтому кроме них в статистике рассматривают также характеристики рассеяния (вариации, или колеблемости ) результатов .

Размах вариации

Определение. Размахом вариации называется разница между наибольшим и наименьшим результатами выборки, обозначается R и определяется

R =X max - X min .

Информативность этого показателя невелика, хотя при малых объёмах вы­борки по размаху легко оценить разницу между лучшим и худшим результатами спортсменов.

Дисперсия

Определение. Дисперсией называется средний квадрат отклонения значений признака от среднего арифметического.

Для несгруппированных данных дисперсия определяется по формуле

s 2 = , (1)

где Х i – значение признака, - среднее арифметическое.

Для данных, сгруппированных в интервалы, дисперсия определяется по формуле

,

где х i – среднее значение i интервала группировки, n i – частоты интервалов.

Для упрощения расчётов и во избежание погрешностей вычисления при округ­лении результатов (особенно при увеличении объёма выборки) используются также другие формулы для определения дисперсии. Если среднее арифметическое уже вычислено, то для несгруппированных данных используется следующая фор­мула:

для сгруппированных данных:

.

Эти формулы получаются из предыдущих раскрытием квадрата разности под знаком суммы.

ЛЕКЦИЯ 2

Базовые понятия математической статистики. Выборочный метод. Числовые характеристики статистических рядов Точечные статистические оценки и требования к ним. Метод доверительных интервалов. Проверка статистических гипотез.

Глава 3.
БАЗОВЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

Выборочный метод

В этой главе приводится краткий обзор основных понятий и результатов математической статистики, которые используются в курсе эконометрики.

Одной из центральных задач математической статистики является выявление закономерностей в статистических данных, на базе которых можно строить соответствующие модели и принимать обдуманные решения. Первая задача математической статистики заключается в разработке методов сбора и группировки статистических сведений, полученных в результате наблюдений или в результате специально поставленных опытов. Вторая задача математической статистики заключается в разработке методов обработки и анализа статистических данных в зависимости от целей исследования. Элементами такого анализа, в частности, являются: оценка параметров известной функции распределения, проверка статистических гипотез о виде распределения и т.д.

Между математической статистикой и теорией вероятностей имеется тесная взаимосвязь. Теория вероятностей широко применяется при статистическом изучении массовых явлений, которые могут и не относится к категории случайных. Это осуществляется через теорию выборочного метода. Здесь вероятностных закономерностям подчиняются не сами изучаемые явления, а методы их исследования. Кроме того, теория вероятностей играет важную роль при статистическом исследовании вероятностных явлений. В этих случаях сами изучаемые явления подчиняются вполне определенным вероятностным закономерностям.

Основной задачей математической статистики является разработка методов получения научно обоснованных выводов о массовых явлениях и процессах из данных наблюдений или экспериментов. Например, нужно провести контроль качества изготовленной партии деталей или исследовать качество технологического процесса. Можно, конечно, провести сплошное обследование, т.е. обследовать каждую деталь партии. Однако если деталей слишком много, то провести сплошное обследование физически невозможно, а если обследование объекта связано с его уничтожением или требует больших затрат, то проводить сплошное обследование не имеет смысла. Поэтому приходится из всей совокупности объектов для обследования отбирать только часть, т.е. проводить выборочное обследование. Таким образом, на практике часто приходится давать оценку параметров большой совокупности по небольшому числу выбранных случайным образом элементов.



Вся подлежащая изучению совокупность объектов называется генеральной совокупностью . Та часть объектов, которая была отобрана из генеральной совокупности, называется выборочной совокупностью или более кратко – выборкой . Договоримся, обозначать объем выборки буквой n , а объем генеральной совокупности буквой N .

Выборка, в общем случае, образуется для оценки каких-либо характеристик генеральной совокупности. Однако не всякая выборка может давать реальное представление о генеральной совокупности. Например, детали, как правило изготовляются рабочими разной квалификации. Если на контроль попадут только детали, изготовленные рабочими более низкой квалификации, то представление о качестве всей продукции будет «заниженным», если только детали, изготовленные рабочими более высокой квалификации, то это представление будет завышенным.

Для того чтобы по данным выборки можно было уверенно судить об интересующем нас признаке генеральной совокупности необходимо, чтобы объекты выборки правильно ее представляли. Другими словами, выборка должна правильно представлять пропорции генеральной совокупности . Это требование коротко формулируют так: выборка должна быть репрезентативной (или представительной ) .

Репрезентативность выборки обеспечивается случайностью отбора . При случайном отборе все объекты генеральной совокупности имеют одинаковую возможность попасть в выборку . В этом случае, в силу закона больших чисел , можно утверждать, что выборка будет репрезентативной. Например, о качестве зерна судят по небольшой ее пробе. Хотя число наудачу отобранных зерен мало по сравнению со всей массой зерна, но само по себе оно достаточно велико. Следовательно, характеристики выборочной совокупности будут по вероятности мало чем отличаться от характеристик генеральной совокупности.

Различают повторные и бесповторные выборки . В первом случае отобранный объект перед отбором следующего возвращается в генеральную совокупность. Во втором – отобранный в выборку объект не возвращается в генеральную совокупность. Если объем выборки значительно меньше объема генеральной совокупности, то обе выборки будут практически эквивалентны.

Во многих случаях для анализа тех или иных экономических процессов важен порядок получения статистических данных. Но при рассмотрении так называемых пространственных данных порядок их получения не играет существенной роли. Кроме того, результаты выборочных значений x 1 , x 2 , …, x n количественного признака X генеральной совокупности, записанные в порядке их регистрации, обычно труднообозримы и неудобны для дальнейшего анализа. Задачей описания статистических данных является получение такого их представления, которое позволит наглядно выявить вероятностные характеристики. Для этого применяются различные формы упорядочения и группировки данных.

Статистический материал, получающийся в результате наблюдений (измерений) можно записать в виде таблицы, состоящей из двух строк. В первой строке отмечается номер измерения, во втором – полученной значение. Такая таблица называется простым статистическим рядом :

i n
x 1 x 2 x i x n

Однако при большом числе измерений статистический ряд трудно анализировать. Поэтому результаты наблюдений необходимо каким-либо образом упорядочить . Для этого наблюдаемые значения располагают в порядке их возрастания:

где . Такой статистический ряд называется ранжированным .

Поскольку некоторые значения статистического ряда могут иметь одинаковые значения, то их можно объединить. Тогда каждому значению x i будет поставлено в соответствие число n i , равное частоте появлений данного значения:

x 1 x 2 x k
n 1 n 2 n k

Такой ряд называется сгруппированным .

Ранжированный и сгруппированный ряд называется вариационным . Наблюдаемые значения x i называются вариантами , а число всех наблюдений варианты n i частотой . Число всех наблюдений n называется объемом вариационного ряда. Отношение частоты n i к объему ряда n называется относительной частотой :

Кроме дискретных вариационных рядов, применяются и интервальные вариационные ряды. Для построения такого ряда необходимо определить величину интервалов и в соответствии сними группировать результаты наблюдений:

[x 1 , x 2 ] (x 2 , x 3 ] (x 3 , x 4 ] (x k-1 , x k ]
n 1 n 2 n 3 n k

Интервальный вариационный ряд строят обычно в тех случаях, когда число наблюдавшихся вариантов очень велико. Обычно такая ситуация возникает при наблюдении за непрерывной величиной (например, измерение какой-либо физической величины). Между интервальными и дискретными вариационными рядами существует определенная взаимосвязь: любой дискретный ряд можно записать в виде интервального и наоборот.

Для графического описания дискретного вариационного ряда использую полигон . Для построения полигона в прямоугольной системе координат наносят точки с координатами (x i ,n i ) или (x i ,w i ). Затем эти точки соединяют отрезками. Полученная ломаная линия называется полигоном (см., например, рис. 3.1а).

Для графического описания интервального вариационного ряда используют гистограмму . Для ее построения по оси абсцисс откладывают отрезки, изображающие интервалы варьирования, и на этих отрезках, как на основании, строят прямоугольники с высотами, равными частотам или относительным частотам соответствующего интервала. В результате получается фигура, состоящая из прямоугольников, которая и называется гистограммой (см., например, рис. 3.1б).

а б
Рис. 3.1

Числовые характеристики статистического ряда

Построение вариационного ряда – лишь первый шаг к осмыслению ряда наблюдений. Этого недостаточно для полного исследования распределения изучаемого явления. Наиболее удобным и полным методом является аналитической способ исследования ряда, состоящий в вычислении числовых характеристик. Числовые характеристики, применяемые для исследования вариационных рядов, аналогичны тем, которые применяются в теории вероятностей.

Наиболее естественной характеристикой вариационного ряда является понятие средней величины . В статистике используют несколько видов средних величин: среднее арифметическое, среднее геометрическое, среднее гармоническое и др. Наиболее распространенным является понятие средней арифметической величины :

Если по данным наблюдений построен вариационный ряд, то используется понятие средней взвешенной арифметической величины :

. (3.3)

Средняя арифметическая величина обладает теми же самыми свойствами, что и математическое ожидание.

В качестве меры рассеяния значений наблюдаемой величины вокруг своего среднего значения принимают величину

, (3.4)

которая, как и в теории вероятностей, называется дисперсией . Величина

называется средним квадратичным отклонением (или стандартным отклонением ). Статистическая дисперсия обладает теми же самыми свойствами, что и вероятностная дисперсия, и для ее вычисления можно использовать альтернативную формулу

. (3.6)

Пример 3.1. По территориям региона приводятся данные за 199X г. (таб. 3.1).

Таблица 3.1

Найти среднее арифметическое и стандартное отклонение. Постройте гистограмму частот.

Решение. Для расчета средней арифметической и дисперсии строим расчетную таблицу (табл. 3.4):

Таблица 3.4

x i n i n i x i n i x i 2
Сумма

Здесь вместо x i взяты середины соответствующих интервалов. По данным таблицы находим:

, ,

Построим гистограмму частот по исходным данным (рис. 3.3). â

К характеристикам вариации , или колеблемости , результатов измерений относят размах, дисперсию, среднее квадратическое отклонение, коэффициент вариации и др.

Все средние характеристики дают общую характеристику ряда результатов измерений. На практике нас часто интересует, как сильно каждый результат отклоняется от среднего значения. Однако, легко можно представить, что две группы результатов измерений имеют одинаковые средние, но различные значения измерений. Например, для ряда 3, 6, 3¾ среднее значение = 4; для ряда 5, 2, 5¾также среднее значение = 4, несмотря на существенное различие этих рядов.

Поэтому средние характеристики всегда необходимо дополнять показателями вариации, или колеблемости. Самой простой характеристикой вариации является размах варьирования . Его определяют как разность между наибольшим и наименьшим результатами измерений. Однако он улавливает только крайние отклонения, но не отражает отклонений всех результатов.

Чтобы дать обобщающую характеристику, можно вычислить отклонения от среднего результата. Например, для ряда 3, 6, 3 значения (x i - ) будут следующими: 3 - 4 = -1; 6 - 4 = 2; 3 - 4 = -1. Сумма этих отклонений (-1) + 2 + (-1) всегда равна 0. Чтобы избежать этого, значения каждого отклонения возводят в квадрат:

(-1) 2 + 2 2 + (-1) 2 = 6.

Значение (x i - ) 2 делает отклонения от средней более явственными: малые отклонения становятся еще меньше (0,5 2 =0,25), а большие¾еще больше

(5 2 = 25). Получившуюся сумму S (x i - ) 2 называют суммой квадратов

отклонений . Разделив эту сумму на число измерений, получают средний квадрат отклонений, или дисперсию . Она обозначается s 2 и вычисляется по формуле:

S (x i - ) 2

s 2 = ¾¾¾¾¾ .

Если число измерений не более 30, т.е. n < 30, используется формула:

S (x i - ) 2

s 2 = ¾¾¾¾¾¾¾ .

Эти формулы применяются, когда результаты представлены неупорядоченной (обычной) выборкой.

Из характеристик колеблемости наиболее часто используется среднее квадратическое отклонение , которое определяется как положительное значение корня квадратного из значения дисперсии, т.е.:

Среднее квадратическое отклонение (оно называется также стандартным отклонением) имеет те же единицы измерения, что и результаты измерения, т.е. характеризует степень отклонения результатов от среднего значения в абсолютных единицах. Однако для сравнения колеблемости двух и более совокупностей, имеющих различные единицы измерения, эта характеристика не пригодна.



Коэффициент вариации определяется как отношение среднего квадратического отклонения к среднему арифметическому, выраженное в процентах. Вычисляется он по формуле:

В спортивной практике колеблемость результатов измерений в зависимости от величины коэффициента вариации считают небольшой (0¾10%), средней (11¾20%) и большой (V>20%).

Коэффициент вариации имеет важное значение в спортивной метрологии, т. к., будучи величиной относительной (измеряется в процентах), позволяет сравнивать между собой колеблемость результатов измерений, имеющих различные единицы измерения. Коэффициент вариации можно использовать лишь в том случае, если измерения выполнены в шкале отношений.

Упомянем еще об одном показателе рассеивания¾стандартной (средней квадратической) ошибке среднего арифметического. Этот показатель (обычно он обозначается символами m или S) характеризует колеблемость средней. Поясним примером. Предположим, что нас интересуют результаты в беге на 100 м учеников 10-ых классов Минска. Мы проводим с этой целью выборочное обследование, и на выборке объемом 100 юношей находим, что в среднем 10-классники показывают результат 13,7 ± 0,4 с.

Предположим, что мы проведем такие обследования много раз на разных выборках. Как будет варьировать в них средняя арифметическая? Ясно, что чем больше объем выборки, тем меньше будет вариация средних величин. Если, например, мы возьмем в одном случае две выборки по 10 человек, а во втором¾ по 10 000 человек, средние результаты во втором случае, вероятнее всего, будут ближе друг к другу (и одновременно ближе к средней генеральной совокупности¾среднему результату в беге всех 10-классников Минска).

Стандартная ошибка средней арифметической вычисляется по формуле:

S x = ¾¾ ,

где s¾стандартное отклонение результатов измерений, n¾объем выборки. В приведенном выше примере стандартная ошибка средней арифметической равна S x = 0,4/= 0,04 с, т.е. она в десять раз меньше, чем среднее квадратическое отклонение результатов измерений.

1.5. Нормальный закон распределения непрерывных случайных величин

Рассматривая основные статистические характеристики ряда, оценивают центральную тенденцию выборки и колеблемость, или вариацию. Центральную тенденцию выборки позво­ляют оценить такие статистические характеристики, как среднее арифметическое значение, мода, медиана. Средняя величина характеризует групповые свойства, является центром распределения, занимает центральное положение в общей массе варьирующих значений признака.

Среднее арифметическое значение для неупорядоченного ряда измерений вычисляют путем суммирования всех измерений и деления суммы на число измерений по формуле: = ,

где – сумма всех значений x i , n – общее число измерений.

Модой (Мо) называют результат выборки или совокупности, наиболее часто встречающейся в этой выборке. Для интервального вариационного ряда модальный интервал выбирается по наибольшей частоте. Например, в ряду из цифр: 2, 3, 4, 4, 4, 5, 6, 6, 7 модой является 4, потому что встречается чаще других чисел.

В случае, когда все значения в группе встречаются одинаково часто, принято считать, что группа не имеет моды. Когда два соседних значения имеют одинаковую частоту и они больше частоты любого другого значения, мода есть среднее этих двух значений. Например, в ряду из цифр: 2, 3, 4, 4, 5, 5, 6, 7 модой является 4,5. Если два несмежных значения в группе имеют равные часто­ты и они больше частот любого значения, то существуют две моды. Например, в ряду из цифр: 2, 3, 3, 4, 5, 5, 6, 7 модами являются 3 и 5.

Медиана (Ме) – результат измерения, который находится в середине ранжированного ряда. Медиана делит упорядо­ченное множество пополам так, что одна половина значений ока­зывается больше медианы, а другая – меньше. Если ряд чисел содержит нечетное количество значений, то медианой является среднее значение. Например, в ряду чисел: 6, 9, 11 , 19, 31 медиана число 11.

Если данные содержат четное количество измерений, то медианой является число, составляющее среднее между двумя центральными значениями. Например, в ряду чисел: 6, 9, 11, 19, 31, 48 медиана равна (11+19): 2 = 15.

Моду и медиану используют для оценки среднего при измерении в шкалах порядка (а моду также и в номинальных шкалах).

К характеристикам вариации, или колеблемости, результатов измерений относят размах, среднее квадратическое отклонение, коэффициент вариации и др.

Все средние характеристики дают общую характеристику ряда результатов измерений. На практике нас часто интересует, как сильно каждый результат отклоняется от среднего значения. Однако легко можно представить, что две группы результатов измерений имеют одинаковые средние, но различные значения измерений. Например, для ряда 3, 6, 3 – среднее значение = 4, для ряда 5, 2, 5 также среднее зна­чение = 4, несмотря на существенное различие этих рядов.



Поэтому средние характеристики всегда необходимо дополнять показателями вариации, или колеблемости. Самой простой характеристикой вариации является размах варьирования, определяемый как разность между наибольшим и наименьшим результа­тами измерений. Однако он улавливает только крайние отклонения, но не отражает отклонений всех результатов.

Чтобы дать обобщающую характеристику, можно вычислить отклонения от среднего результата. Среднее квадратическое отклонение вычисляется по формуле:

где Х – наибольший показатель; X – наименьший показатель; К – табличный коэффициент (приложение 4).

Среднее квадратическое отклонение (оно называется также стандартным отклонением) имеет те же единицы измерения, что и результаты измерения. Однако для сравнения колеблемости двух и более совокупностей, имеющих различные единицы измерения, эта характеристика не пригодна. Для этого используется коэффициент вариации.

Коэффициент вариации определяется как отношение среднего квадратического отклонения к среднему арифметическому, выраженное в процентах. Вычисляется он по формуле: V = . 100%

Колеблемость результатов измерений в зависимости от величины коэффициента вариации считают небольшой (0–10%), средней (11–20%) и большой (>20%).

Коэффициент вариации имеет важное значение, так как, будучи величиной относительной (измеряется в процентах), позволяет сравнивать между собой колеблемость результа­тов измерений, имеющих различные единицы измерения. Коэффициент вариации можно использовать лишь в том случае, если измерения выполнены в шкале отношений.



Еще один показатель рассеивания – стандартная (средняя квадратическая) ошибка средней арифметической . Этот показатель (обычно он обозначается символами m или S) характеризует колеблемость средней.

Стандартная ошибка средней арифметической вычисляется по формуле:

где σ – стандартное отклонение результатов измерения, n – объем выборки.

К основным статистическим характеристикам ряда измерений (вариацион­ного ряда) относятся характеристики положения (средние характе­ристики, или центральная тенденция выборки ); характеристики рассеяния (ва­риации, или колеблемости ) и х арактеристики формы распределения.

К характеристикам положения относятся среднее арифметическое значе­ние (среднее значение ), мода и медиана.

К характеристикам рассеяния (вариации, или колеблемости ) относятся: размах вариации , дисперсия , среднее квадратическое (стандартное ) отклонение , ошибка средней арифметической (ошибка средней ), коэффициент вариации и др.

К характеристикам формы относятся коэффициент асимметрии, мера ско­шенности и эксцесс.

Характеристики положения

1. Среднее арифметическое значение

Среднее арифметическое значение – одна из основных характеристик вы­борки.

Она, как и другие числовые характеристики выборки, может вычисляться как по необработанным первичным данным, так и по результатам группировки этих данных.

Точность вычисления по необработанным данным выше, но процесс вычисления оказывается трудоёмким при большом объёме выборки.

Для несгруппированных данных среднее арифметическое определяется по формуле:

где n - объем выборки, х 1 , х 2 , ... х n - результаты измерений.

Для сгруппированных данных:

,

где n - объем выборки, k – число интервалов группировки, n i – частоты интервалов, x i – срединные значения интервалов.

2. Мода

Определение 1. Мода - наиболее часто встречающаяся величина в данных вы­борки. Обозначается Мо и определяется по формуле:

где
- нижняя граница модального интервала,- ширина интервала группи­ровки,
- частота модального интервала,
- частота интервала, предшествую­щего модальному,
- частота интервала, последующего за модаль­ным.

Определение 2. Модой Мо дискретной случайной величины называется наиболее вероятное её значение.

Геометрически моду можно интерпретировать как абсциссу точки максимума кривой распределения. Бываютдвухмодальные и многомодальные распределения. Встречаются распределения, которые имеют минимум, но не имеют максимума. Такие распределения называютсяантимодальными .

Определение. Модальным интервалом называется интервал группировки с наибольшей частотой.

3. Медиана

Определение . Медиана - результат измерения, который находится в сере­дине ранжированного ряда, иначе говоря, медианой называется значение признака Х , когда одна половина значений экспериментальных данных меньше её, а вторая половина – больше, обозначается Ме .

Когда объем выборки n - четное число, т. е. результатов измерений четное количество, то для определения медианы рассчитывается среднее значение двух показателей выборки, находящихся в середине ранжированного ряда.

Для данных, сгруппированных в интервалы, медиану определяют по фор­муле:

,

где
- нижняя граница медианного интервала;ширина интервала группи­ровки, 0,5n – половина объёма выборки,
- частота медианного интервала,
- накопленная частота интервала, предшествующего медианному.

Определение. Медианным интервалом называется тот интервал, в котором накопленная частота впервые окажется больше половины объёма выборки (n / 2) или накопленная частость окажется больше 0,5.

Численные значения среднего, моды и медианы отличаются, когда имеет место несимметричная форма эмпирического распределения.