Дискретные признаки для построения вариационных рядов распределения. Статистические ряды распределения

Высшего профессионального образования

«РОССИЙСКАЯ АКАДЕМИЯ НАРОДНОГО ХОЗЯЙСТВА И

ГОСУДАРСТВЕННОЙ СЛУЖБЫ ПРИ ПРЕЗИДЕНТЕ

РОССИЙСКОЙ ФЕДЕРАЦИИ»

(Калужский филиал)

Кафедра естественнонаучных и математических дисциплин

КОНТРОЛЬНАЯ РАБОТА

По дисциплине «Статистика»

Студент___Майборода Галина Юрьевна______

Заочного отделения факультет Государственное и муниципальное управление группа Г-12-В

Преподаватель ____________________ Хамер Г.В.

К.п.н., доцент

Калуга-2013 г.

Задача 1.

Задача 1.1. 4

Задача 1.2. 16

Задача 1.3. 24

Задача 1.4. 33

Задача 2.

Задача 2.1. 43

Задача 2.2. 48

Задача 2.3. 53

Задача 2.4. 58

Задача 3.

Задача 3.1. 63

Задача 3.2. 68

Задача 3.3. 73

Задача 3.4. 79

Задача 4.

Задача 4.1. 85

Задача 4.2. 88

Задача 4.3. 90

Задача 4.4. 93

Список использованных источников. 96

Задача 1.

Задача 1.1.

Имеются следующие данные о выпуске продукции и сумме прибыли предприятиями области (таблица 1).

Таблица 1

Данные о выпуске продукции и сумме прибыли предприятиями

№ предприятия Выпуск продукции, млн. руб. Прибыль, млн. руб. № предприятия Выпуск продукции, млн. руб. Прибыль, млн. руб.
63,0 6,7 56,0 7,2
48,0 6,2 81,0 9,6
39,0 6,5 55,0 6,3
28,0 3,0 76,0 9,1
72,0 8,2 54,0 6,0
61,0 7,6 53,0 6,4
47,0 5,9 68,0 8,5
37,0 4,2 52,0 6,5
25,0 2,8 44,0 5,0
60,0 7,9 51,0 6,4
46,0 5,5 50,0 5,8
34,0 3,8 65,0 6,7
21,0 2,1 49,0 6,1
58,0 8,0 42,0 4,8
45,0 5,7 32,0 4,6

По исходным данным:

1. Постройте статистический ряд распределения предприятий по выпуску продукции, образовав пять групп с равными интервалами.

Постройте графики ряда распределения: полигон, гистограмму, кумуляту. Графически определите значение моды и медианы.

2. Рассчитайте характеристики ряда распределения предприятий по выпуску продукции: среднюю арифметическую, дисперсию, среднее квадратическое отклонение, коэффициент вариации.

Сделайте вывод.

3. Методом аналитической группировки установите наличие и характер корреляционной связи между стоимостью произведенной продукции и суммой прибыли на одно предприятие.

4. Измерьте тесноту корреляционной связи между стоимостью произведенной продукции и суммой прибыли эмпирическим корреляционным отношением.

Сделайте общие выводы.

Решение:

Построим статистический ряд распределения

Для построения интервального вариационного ряда, характеризующего распределение предприятий по объему выпуска продукции, необходимо вычислить величину и границы интервалов ряда.

При построении ряда с равными интервалами величина интервала h определяется по формуле:

х max и х min – наибольшее и наименьшее значения признака в исследуемой совокупности предприятий;

k - число групп интервального ряда.

Число групп k задано в условии задания. k = 5.

х max = 81 млн. руб., х min = 21 млн. руб.

Расчет величины интервала:

млн. руб.

Путем последовательного прибавления величины интервала h = 12 млн. руб. к нижней границе интервала, получаем следующие группы:

1 группа: 21 – 33 млн. руб.

2 группа: 33 – 45 млн. руб.;

3 группа: 45 – 57 млн. руб.

4 группа: 57 – 69 млн. руб.

5 группа: 69 – 81 млн. руб.

Для построения интервального ряда необходимо подсчитать количество предприятий, входящих в каждую группу (частоты групп ).

Процесс группировки предприятий по объему выпуска продукции представлен во вспомогательной таблице 2. Графа 4 этой таблицы необходима для построения аналитической группировки (пункт 3 задания).

Таблица 2

Таблица для построения интервального ряда распределения и

аналитической группировки

Группы предприятий по объему выпуска продукции, млн. руб. № предприятия Выпуск продукции, млн. руб. Прибыль, млн. руб.
21-33 21,0 2,1
25,0 2,8
28,0 3,0
32,0 4,6
Всего 106,0 12,5
33-45 34,0 3,8
37,0 4,2
39,0 6,5
42,0 4,8
44,0 5,0
Всего 196,0 24,3
45-57 45,0 5,7
46,0 5,5
47,0 5,9
48,0 6,2
49,0 6,1
50,0 5,8
51,0 6,4
52,0 6,5
53,0 6,4
54,0 6,0
55,0 6,3
56,0 7,2
Всего 606,0 74,0
57-69 58,0 8,0
60,0 7,9
61,0 7,6
63,0 6,7
65,0 6,7
68,0 8,5
Всего 375,0 45,4
69-81 72,0 8,2
76,0 9,1
81,0 9,6
Всего 229,0 26,9
Итого 183,1

На основе групповых итоговых строк «Всего» таблицы 3 формируется итоговая таблица 3, представляющая интервальный ряд распределения предприятий по объему выпуска продукции.

Таблица 3

Ряд распределения предприятий по объему выпуска продукции

Вывод. Построенная группировка показывает, что распределение предприятий по объему выпуска продукции не является равномерным. Наиболее часто встречаются предприятии с объемом выпуска продукции от 45 до 57 млн. руб. (12 предприятий). Наименее часто встречаются предприятий с объемом выпуска продукции от 69 до 81 млн. руб. (3 предприятия).

Построим графики ряда распределения.

Полигон чаще используют для изображения дискретных рядов. Для построения полигона в прямоугольной системе координат на оси абсцисс откладывают значения аргумента, т. е. варианты (для интервальных вариационных рядов в качестве аргумента принимают середину интервала) а на оси ординат - значения частот . Далее в этой системе координат строят точки, координатами которых являются пары соответствующих чисел из вариационного ряда. Полученные точки последовательно соединяют отрезками прямой. Полигон представлен на рисунке 1.

Гистограмма – столбиковая диаграмма. Она позволяет оценить симметричность распределения. Гистограмма представлена на рисунке 2.

Рисунок 1 – Полигон распределения предприятий по объему

выпуска продукции

Мода

Рисунок 2 – Гистограмма распределения предприятий по объему

выпуска продукции

Мода – значение признака, которое встречается наиболее часто в исследуемой совокупности.

Для интервального ряда графически моду можно определить по гистограмме (рисунок 2). Для этого выбирается самый высокий прямоугольник, который в данном случае является модальным (45 – 57 млн. руб.). Затем правую вершину модального прямоугольника соединяют с правым верхним углом предыдущего прямоугольника. А левую вершину модального прямоугольника – с левым верхним углом последующего прямоугольника. Далее из точки их пересечения опускают перпендикуляр на ось абсцисс. Абсцисса точки пересечения этих прямых и будет модой распределения.

Млн. руб.

Вывод. В рассматриваемой совокупности предприятий наиболее часто встречаются предприятия с выпуском продукции в 52 млн. руб.

Кумулята – ломаная кривая. Она строится по накопленным частотам (рассчитаны в таблице 4). Кумулята начинается с нижней границы первого интервала (21 млн. руб.), накопленная частота откладывается в верхней границе интервала. Кумулята представлена на рисунке 3.

Медиана

Рисунок 3 - Кумулята распределения предприятий по объему

выпуска продукции

Медиана Ме – это значение признака, приходящееся на середину ранжированного ряда. По обе стороны от медианы находится одинаковое количество единиц совокупности.

В интервальном ряду медиану можно определить графическим методом по кумулятивной кривой. Для определения медианы из точки на шкале накопленных частот, соответствующей 50% (30:2 = 15), проводится прямая, параллельная оси абсцисс, до пересечения с кумулятой. Затем из точки пересечения указанной прямой с кумулятой опускается перпендикуляр на ось абсцисс. Абсцисса точки пересечения является медианой.

Млн. руб.

Вывод. В рассматриваемой совокупности предприятий половина предприятий имеют объем выпуска продукции не более 52 млн. руб., а другая половина – не менее 52 млн. руб.


Похожая информация.


Группировка – это разбиение совокупности на группы, однородные по какому-либо признаку.

Назначение сервиса . С помощью онлайн-калькулятора Вы сможете:

  • построить вариационный ряд , построить гистограмму и полигон;
  • найти показатели вариации (среднюю, моду (в т.ч. и графическим способом), медиану, размах вариации, квартили, децили, квартильный коэффициент дифференциации, коэффициент вариации и другие показатели);

Инструкция . Для группировки ряда необходимо выбрать вид получаемого вариационного ряда (дискретный или интервальный) и указать количество данных (количество строк). Полученное решение сохраняется в файле Word (см. пример группировки статистических данных).

Количество исходных данных
",0);">

Если группировка уже осуществлена и заданы дискретный вариационный ряд или интервальный ряд , то необходимо воспользоваться онлайн-калькулятором Показатели вариации . Проверка гипотезы о виде распределения производится с помощью сервиса Изучение формы распределения .

Виды статистических группировок

Вариационный ряд . В случае наблюдений дискретной случайной величины одно и то же значение можно встретить несколько раз. Такие значения x i случайной величины записывают с указанием n i числа раз его появления в n наблюдениях, это и есть частота данного значения.
В случае непрерывной случайной величины на практике применяют группировку.
  1. Типологическая группировка – это разделение исследуемой качественно разнородной совокупности на классы, социально–экономические типы, однородные группы единиц. Для построения данной группировки используйте параметр Дискретный вариационный ряд.
  2. Структурной называется группировка , в которой происходит разделение однородной совокупности на группы, характеризующие ее структуру по какому–либо варьирующему признаку. Для построения данной группировки используйте параметр Интервальный ряд.
  3. Группировка, выявляющая взаимосвязи между изучаемыми явлениями и их признаками, называется аналитической группировкой (см. аналитическая группировка ряда).

Принципы построения статистических группировок

Ряд наблюдений, упорядоченных по возрастанию, называется вариационным рядом . Группировочным признаком называется признак, по которому производится разбивка совокупности на отдельные группы. Его называют основанием группировки. В основание группировки могут быть положены как количественные, так и качественные признаки.
После определения основания группировки следует решить вопрос о количестве групп, на которые надо разбить исследуемую совокупность.

При использовании персональных компьютеров для обработки статистических данных группировка единиц объекта производится с помощью стандартных процедур.
Одна из таких процедур основана на использовании формулы Стерджесса для определения оптимального числа групп:

k = 1+3,322*lg(N)

Где k – число групп, N – число единиц совокупности.

Длину частичных интервалов вычисляют как h=(x max -x min)/k

Затем подсчитывают числа попаданий наблюдений в эти интервалы, которые принимают за частоты n i . Малочисленные частоты, значения которых меньше 5 (n i < 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
В качестве новых значений вариант берут середины интервалов x i =(c i-1 +c i)/2.

Условие:

Имеются данные о возрастном составе рабочих (лет): 18, 38, 28, 29, 26, 38, 34, 22, 28, 30, 22, 23, 35, 33, 27, 24, 30, 32, 28, 25, 29, 26, 31, 24, 29, 27, 32, 25, 29, 29.

    1. Построить интервальный ряд распределения.
    2. Построить графическое изображение ряда.
    3. Графически определить моду и медиану.

Решение:

1) По формуле Стерджесса совокупность надо разделить на 1 + 3,322 lg 30 = 6 групп.

Максимальный возраст - 38, минимальный - 18.

Ширина интервала Так как концы интервалов должны быть целыми числами, разделим совокупность на 5 групп. Ширина интервала - 4.

Для облегчения подсчетов расположим данные в порядке возрастания: 18, 22, 22, 23, 24, 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 29, 29, 30, 30, 31, 32, 32, 33, 34, 35, 38, 38.

Распределение возрастного состава рабочих

Графически ряд можно изобразить в виде гистограммы или полигона. Гистограмма - столбиковая диаграмма. Основание столбика - ширина интервала. Высота столбика равна частоте.

Полигон (или многоугольник распределения) - график частот. Чтобы его построить по гистограмме, соединяем середины верхних сторон прямоугольников. Многоугольник замыкаем на оси Ох на расстояниях, равных половине интервала от крайних значений х.

Мода (Мо) - это величина изучаемого признака, которая в данной совокупности встречается наиболее часто.

Чтобы определить моду по гистограмме, надо выбрать самый высокий прямоугольник, провести линию от правой вершины этого прямоугольника к правому верхнему углу предыдущего прямоугольника, и от левой вершины модального прямоугольника провести линию к левой вершине последующего прямоугольника. От точки пересечения этих линий провести перпендикуляр к оси х. Абсцисса и будет модой. Мо ≈ 27,5. Значит, наиболее часто встречаемый возраст в данной совокупности 27-28 лет.

Медиана (Mе) - это величина изучаемого признака, которая находится в середине упорядоченного вариационного ряда.

Медиану находим по кумуляте. Кумулята - график накопленных частот. Абсциссы - варианты ряда. Ординаты - накопленные частоты.

Для определения медианы по кумуляте находим по оси ординат точку, соответствующую 50% накопленных частот (в нашем случае 15), проводим через неё прямую, параллельно оси Ох, и от точки её пересечения с кумулятой проводим перпендикуляр к оси х. Абсцисса является медианой. Ме ≈ 25,9. Это означает, что половина рабочих в данной совокупности имеет возраст менее 26 лет.

Дискретный вариационный ряд строится для дискретный признаков.

Для того, чтобы построить дискретный вариационный ряд нужно выполнить следующие действия: 1) упорядочить единицы наблюдения по возрастанию изучаемого значения признака,

2) определить все возможные значения признака x i , упорядочить их по возрастанию,

значением признака, i .

частота значения признака и обозначают f i . Сумма всех частот ряда равна количеству элементов в изучаемой совокупности.

Пример 1 .

Список оценок полученных студентами на экзаменах: 3; 4; 3; 5; 4; 2; 2; 4; 4; 3; 5; 2; 4; 5; 4; 3; 4; 3; 3; 4; 4; 2; 2; 5; 5; 4; 5; 2; 3; 4; 4; 3; 4; 5; 2; 5; 5; 4; 3; 3; 4; 2; 4; 4; 5; 4; 3; 5; 3; 5; 4; 4; 5; 4; 4; 5; 4; 5; 5; 5.

Здесь число Х – оценка является дискретной случайной величиной, а полученный список оценок - статистические (наблюдаемые) данные .

    упорядочить единицы наблюдения по возрастанию изучаемого значения признака:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) определить все возможные значения признака x i , упорядочить их по возрастанию:

В данном примере все оценки можно разделить на четыре группы со следующими значениями: 2; 3; 4; 5.

Значение случайной величины, соответствующее отдельной группе наблюдаемых данных, называют значением признака, вариантом (вариантой) и обознпчают x i .

Число, которое показывает, сколько раз встречается соответствующее значение признака в ряде наблюдений называют частота значения признака и обозначают f i .

Для нашего примера

оценка 2 встречается - 8 раз,

оценка 3 встречается - 12 раз,

оценка 4 встречается - 23 раза,

оценка 5 встречается - 17 раз.

Всего 60 оценок.

4) записать полученные данные в таблицу из двух строк (столбцов) - x i и f i .

На основании этих данных можно построить дискретный вариационный ряд

Дискретный вариационный ряд – это таблица, в которой указаны встречающиеся значения изучаемого признака как отдельные значения по возрастанию и их частоты

  1. Построение интервального вариационного ряда

Кроме дискретного вариационного ряда часто встречается такой способ группировки данных, как интервальный вариационный ряд.

Интервальный ряд строится если:

    признак имеет непрерывный характер изменения;

    дискретных значений получилось очень много (больше 10)

    частоты дискретных значений очень малы (не превышают 1-3 при относительно большем количестве единиц наблюдения);

    много дискретных значений признака с одинаковыми частотами.

Интервальный вариационный ряд – это способ группировки данных в виде таблицы, которая имеет две графы (значения признака в виде интервала значений и частота каждого интервала).

В отличие от дискретного ряда значения признака интервального ряда представлены не отдельными значениями, а интервалом значений («от - до»).

Число, которое показывает, сколько единиц наблюдения попало в каждый выделенный интервал, называется частота значения признака и обозначают f i . Сумма всех частот ряда равна количеству элементов (единиц наблюдения) в изучаемой совокупности.

Если единица обладает значением признака, равным величине верхней границы интервала, то ее следует относить к следующему интервалу.

Например, ребёнок с ростом 100 см попадёт во 2-ой интервал, а не в первый; а ребёнок с ростом 130 см попадёт в последний интервал, а не в третий.

На основании этих данных можно построить интервальный вариационный ряд.

У каждого интервала есть нижняя граница (х н), верхняя граница (х в) и ширина интервала (i ).

Граница интервала – это значение признака, которое лежит на границе двух интервалов.

рост детей (см)

рост детей (см)

количество детей

больше 130

Если у интервала есть верхняя и нижняя граница, то он называется закрытый интервал . Если у интервала есть только нижняя или только верхняя граница, то это – открытый интервал. Открытым может быть только самый первый или самый последний интервал. В приведённом примере последний интервал – открытый.

Ширина интервала (i ) – разница между верхней и нижней границей.

i = х н - х в

Ширина открытого интервала принимается такой же, как ширина соседнего закрытого интервала.

рост детей (см)

количество детей

Ширина интервала (i)

для расчётов 130+20=150

20 (потому что ширина соседнего закрытого интервала – 20)

Все интервальные ряды делятся на интервальные ряды с равными интервалами и интервальные ряды с неравными интервалами. В интервальных рядах с равными интервалами ширина всех интервалов одинаковая. В интервальных рядах с неравными интервалами ширина интервалов разная.

В рассматриваемом примере - интервальный ряд с неравными интервалами.

Лабораторная работа №1

По математической статистике

Тема: Первичная обработка экспериментальных данных

3. Оценка в баллах. 1

5. Контрольные вопросы.. 2

6. Методика выполнения лабораторной работы.. 3

Цель работы

Приобретение навыков первичной обработки эмпирических данных методами математической статистики.

На основе совокупности опытных данных выполнить следующие задания:

Задание 1. Построить интервальный вариационный ряд распределения.

Задание 2. Построить гистограмму частот интервального вариационного ряда.

Задание 3. Составить эмпирическую функцию распределения и построить график.

а) моду и медиану;

б) условные начальные моменты;

в) выборочную среднюю;

г) выборочную дисперсию, исправленную дисперсию генеральной совокупности, исправленное среднее квадратичное отклонение;

д) коэффициент вариации;

е) асимметрию;

ж) эксцесс;

Задание 5. Определить границы истинных значений числовых характеристик, изучаемой случайной величины с заданной надёжностью.

Задание 6. Содержательная интерпретация результатов первичной обработки по условию задачи.

Оценка в баллах

Задания 1-5 6 баллов

Задание 6 2 балла

Защита лабораторной работы (устное собеседование по контрольным вопросам и лабораторной работе) - 2 балла

Работа сдается в письменной форме на листах формата А4 и включает:

1) Титульный лист (Приложение 1)

2) Исходные данные.

3) Представление работы по указанному образцу.

4) Результаты расчетов (выполненные вручную и/или с помощью MS Excel) в указанном порядке.

5) Выводы - содержательная интерпретация результатов первичной обработки по условию задачи.

6) Устное собеседование по работе и контрольным вопросам.



5. Контрольные вопросы


Методика выполнения лабораторной работы

Задание 1. Построить интервальный вариационный ряд распределения

Для того, чтобы статистические данные представить в виде вариационного ряда с равноотстоящими вариантами необходимо:

1.В исходной таблице данных найти наименьшее и наибольшее значения.

2.Определить размах варьирования :

3. Определить длину интервала h, если в выборке до 1000 данных, используют формулу: , где n – объем выборки – количество данных в выборке; для вычислений берут lgn).

Вычисленное отношение округляют до удобногоцелого значения .

4. Определить начало первого интервала для четного числа интервалов рекомендуют брать величину ; а для нечетного числа интервалов .

5. Записать интервалы группировок и расположить их в порядке возрастания границ

, ,………., ,

где - нижняя граница первого интервала. За берется удобное число не большее , верхняя граница последнего интервала должна быть не меньше . Рекомендуется, чтобы интервалы содержали в себе исходные значения случайной величины и выделять от 5 до 20 интервалов.

6. Записать исходные данные по интервалам группировок, т.е. подсчитать по исходной таблице число значений случайной величины, попадающих в указанные интервалы. Если некоторые значения совпадают с границами интервалов, то их относят либо только к предыдущему, либо только к последующему интервалу.

Замечание 1. Интервалы необязательно брать равными по длине. На участках, где значения располагаются гуще, удобнее брать более мелкие короткие интервалы, а там где реже - более крупные.

Замечание 2 .Если для некоторых значений получены “нулевые”, либо малые значения частот , то необходимо перегруппировать данные, укрупняя интервалы (увеличивая шаг ).