Слово «статистика» имеет латинское происхождение (от status – состояние). В средние века оно означало политическое состояние государства. В науку этот термин введен в XVIII в. немецким ученым Готфридом Ахенвалем.
В настоящее время термин «статистика» употребляется в трех значениях
:
1) под статистикой понимают отрасль практической деятельности, которая имеет своей целью сбор, обработку, анализ и публикацию массовых данных о самых различных явлениях общественной жизни (в этом смысле «статистика» выступает как синоним словосочетания «статистический учет»);
2) статистикой называют цифровой материал, служащий для характеристики какой-либо области общественных явлений или территориального распределения какого-то показателя;
3) статистикой называется отрасль знания, особая научная дисциплина и соответственно учебный предмет в высших и средних специальных учебных заведениях.
Как и всякая наука, статистика имеет свой предмет изучения
. Статистика изучает количественную и качественную сторону массовых общественных явлений, исследует количественное выражение закономерностей общественного развития в конкретных условиях места и времени.
Свой предмет статистика изучает при помощи: определенных категорий
(т.е. понятий, которые отражают наиболее общие и существенные свойства, признаки, связи и отношения предметов и явлений объективного мира, к ним относятся: статистическая совокупность, единица совокупности, признак единицы, статистический показатель и их система) и специфического метода
. Метод статистики – это целая совокупность приемов, пользуясь которыми статистика исследует свой предмет. Она включает в себя три группы собственно методов (этапов любого статистического исследования):
1) метод массовых наблюдений
(сбор первичного статистического материала, научно организованная регистрация всех существенных фактов, относящихся к рассматриваемому объекту);
2) метод группировок (
дает возможность все собранные в результате массового статистического наблюдения факты подвергать систематизации и классификации);
3) метод обобщающих показателей
(позволяет характеризовать изучаемые явления и процессы при помощи статистических величин – абсолютных, относительных и средних, выявляются взаимосвязи и масштабы явлений, определяются закономерности их развития, даются прогнозные оценки).
Основными задачами
статистики являются:
1) сбор, обработка, анализ и хранение информации;
2) доведение обработанной информации до органов управления всех уровней;
3) ознакомление широкой общественности и населения с динамикой и дислокацией социально-экономических явлений в стране путем издания статистических сборников, справочников, обзоров, публикаций в печатных и электронных СМИ (например, сайт www.gks.ru);
4) международное сопоставление уровня социально-экономического развития разных стран.
1. Абсолютные и относительные статистические величины
1.1 Понятие абсолютных величин
Результаты статистических наблюдений регистрируются сначала в виде абсолютных величин, отражающих уровень развития явления или процесса. В статистике в отличие от математики все абсолютные величины именованные, обладают конкретной размерностью, а также могут быть положительными и отрицательными.
Единицы измерения абсолютных величин отражают технические или потребительские свойства и являются простыми
, отражая одно свойство (например, масса груза в т.), а также сложными
, отражая несколько свойств в их взаимосвязи (например, тонно-километр или киловатт-час).
Единицы измерения могут быть натуральными, условно-натуральными и стоимостными
. Первые применяются для исчисления величин с однородными свойствами (например, штуки, тонны, погонные метры, квадратные метры и т.д.). Недостаток в том, что они не позволяют суммировать разнородные величины.
Условно-натуральные единицы измерения применяются к абсолютным величинам с однородными свойствами, но проявляющим их по-разному. Например, общая масса энергоносителей (дрова, торф, каменный уголь, нефтепродукты, природный газ) измеряется в т.у.т.
— тонны условного топлива, поскольку каждый его вид имеет разную теплотворную способность, а за стандарт принято 29,3 МДж/кГ. Аналогично общее количество школьных тетрадей измеряется в у.ш.т.
— условные школьные тетради размером 12 листов. Аналогично продукция консервного производства измеряется в у.к.б.
— условные консервные банки емкостью 1/3 литра. Аналогично продукция моющих средств приводится к условной жирности 40%.
Стоимостные единицы измерения выражаются в рублях или в иной валюте, представляя собой меру стоимости каждой абсолютной величины. Они позволяют суммировать даже разнородные величины, но недостаток в том, что при этом часто не учитывается негативное изменение экономических условий в виде инфляции. Поэтому статистика стоимостные величины всегда пересчитывает в сопоставимых ценах.
Смысловой набор абсолютных величин называется статистической совокупностью
, в которой их можно группировать по характерным признакам: количественным и словесным
.
Количественные признаки выражаются числами и могут быть дискретными и интервальными.
Так, возраст человека по паспорту — признак дискретный, а возраст группы людей (от и до) — признак интервальный.
Словесные признаки выражаются словами и, если слов только два, признак называется альтернативным.
Например, пол человека: мужской или женский. Если выражающих слов больше двух, то признак называется атрибутивным.
Например, национальность, профессия и т.п.
Следует различать моментные и периодные
абсолютные величины. Первые показывают фактическое наличие или количественный уровень явления на определенный момент времени или дату (например, наличие оборотных средств, количество денег в кармане и т.п.). Вторые - это итоговый накопленный результат за определенный период времени (например, выпуск продукции за месяц, квартал, год или заработная плата за месяц, квартал, год и т.д.). В отличие от моментных, периодные абсолютные величины допускают последующее суммирование.
Абсолютная статистическая величина обозначается X
,
а их общее количество в совокупности обозначается N
.
Количество величин с одинаковым значением признака обозначается f
и называется повторяемость, встречаемость, частота.
Естественно, Σ
f
= N
.
Отношение f
/ N =
f
/ Σ
f
=
d
называется доля, удельный вес, частость.
Естественно, Σ
d
= 1
. В статистике, в отличие от математики, пределы суммирования не ставятся, а подразумеваются, т.к. абсолютные величины здесь не абстрактные, а смысловые.
Однако сами по себе абсолютные статистические величины не дают полного представления об изучаемом явлении, т.к. не показывают его структуру, соотношение между частями, взаимосвязь с другими абсолютными величинами, развитие во времени. Для этих целей служат относительные статистические величины.
1.2 Понятие относительных величин
Относительная статистическая величина представляет собой соотношение двух абсолютных величин и, если последние однородны, имея одинаковую размерность, то относительная величина получается безразмерной, принимая статус коэффициента.
Например, фондоотдача (оборачиваемость) как отношение стоимости выпущенной продукции к стоимости основных фондов является коэффициентом.
Часто применяется искусственная размерность коэффициентов путем их умножения или на 100
(получают проценты),
или на 1000
(получают промилле),
или на 10000
(получают деципромилле).
Две последние размерности используются в статистике населения, где коэффициенты и проценты выражаются очень малыми величинами. Наиболее употребимы проценты.
Однако искусственная размерность коэффициентов удобна лишь в разговорной речи и в отчетах, а в расчетах она только мешает, т.к. сотни и тысячи «путаются под пером» и в конце концов сокращаются. Поэтому существует «золотое» правило финансистов: «Говорим и учитываем процентом
— считаем коэффициентом».
Если относительная статистическая величина - результат соотношения двух абсолютных величин с разной размерностью, то она приобретает дробную размерность, принимая статус показателя.
Например, это всем известные: себестоимость продукции в руб./ед., ее цена в руб./ед,, производительность рабочей силы в руб./чел., энергоотдача производства в руб./кВт ч и другие показатели.
Относительные величины применяются для качественного статистического анализа динамики, структуры, координации, сравнения и интенсивности изучаемых явлений. При этом безразмерные относительные величины наряду с именованием коэффициентами часто именуются индексами.
1.3 Виды относительных величин
Наиболее распространенной является относительная величина, коэффициент или индекс динамики,
который характеризует изменение какого-либо явления во времени, представляя собой отношение значений одной и той же абсолютной величины в разные периоды времени. То есть
. (1.1)
Здесь и далее подиндексы означают: 1 — отчетный или анализируемый период, 0 — прошлый или базисный период.
Критериальным значением индекса динамики служит единица. Если он больше ее, имеет место рост явления; равен единице — стабильность; если меньше единицы, наблюдается спад явления.
Еще одно название индекса динамики — индекс изменения
, вычитая из которого единицу получают темп изменения
с критериальным значением нуль. Если он больше нуля, имеет место рост явления; равен нулю — стабильность; если меньше нуля, наблюдается спад явления.
. (1.2)
В некоторых учебниках по Статистике индекс изменения назван темпом роста, а темп изменения — темпом прироста, независимо от получаемого результата, который может показать стабильность или спад.
Если анализируемый и базисный периоды не являются соседними во временном ряду (например, год, предшествующий пятилетке и ее последний год), то найденный по формуле (1.1) индекс динамики или изменения будет общим, поэтому дополнительно определяется средний индекс по формуле
, (1.3)
где t — количество периодов во временном ряду (например, в пятилетке t = 5).
Как и у общего, у среднего индекса критериальным значением служит единица с теми же выводами о характере изменения. Вычитанием из среднего индекса единицы получают средний темп изменения с критериальным значением нуль и аналогичными выводами о характере изменения явления.
На производстве применяются относительные величины, коэффициенты или индексы планового задания и выполнения плана.
Первый определяется как отношение значений одной и той же абсолютной величины по плану анализируемого периода и по факту базисного. То есть
, (1.4)
где X
’1
— план анализируемого периода; X
0
— факт базисного периода.
Индекс выполнения плана представляет собой отношение значений одной и той же абсолютной величины по факту и по плану анализируемого периода, определяясь по формуле
(1.5)
Перемножая индексы планового задания и выполнения плана, получаем индекс динамики. То есть
(1.6)
Широко применяется также относительная величина, коэффициент или индекс структуры
в виде отношения какой-либо части абсолютной величины ко всему ее значению. По существу это упоминавшаяся выше доля, удельный вес, частость, определяемая по формуле
. (1.7)
Например, если количество лиц женского пола (лжп)
в группе студентов поделить на численность всей группы, то получится индекс структуры лжп.
Похожей является относительная величина, коэффициент или индекс координации
как отношение какой-либо части абсолютной величины к другой ее части, принятой за основу. Определяется по формуле
. (1.8)
Например, если за основу принять количество лжп
в группе студентов и на это число поделить количество лиц мужского пола (лмп)
в ней, то получится индекс координации лмп
относительно лжп.
Следующей является относительная величина, коэффициент или индекс сравнения
в виде отношения значений одной и той же абсолютной величины в одном периоде или моменте времени, но для разных объектов или территорий. Определяется по формуле
, (1.9)
где А, Б — признаки сравниваемых объектов или территорий.
Еще один вид относительных величин сравнения получают путем сопоставления индексов динамики разных явлений. В результате образуются индексы опережения
или отставания
в развитии одного явления по сравнению с другим. Так, если на предприятии производительность труда увеличилась на 12 %, а средняя зарплата только на 7,5 %, то рост производительности труда опережает рост зарплаты по индексу изменения на 112/107,5=1,042 или на 4,2 %, а по темпу изменения на 12/7,5=1,6 или на 60 %. Это и есть соответствующие индексы опережения. Индекс отставания роста зарплаты от роста производительности труда будет обратной величиной.
Перечисленные индексы являются безразмерными относительными величинами, а показателем, имеющим размерность, служит относительная величина интенсивности
в виде отношения значений двух разнородных абсолютных величин для одного периода времени и одной территории или объекта. Для ее определения используется формула
. (1.10)
К показателям интенсивности
относятся упомянутые выше себе стоимость, цена, энергоемкость продукции и другие относительные величины с дробной размерностью.
2. Средние величины и показатели вариации
2.1 Понятие и общие принципы применения средних величин
Статистическая совокупность содержит некоторое количество статистических величин, имеющих, как правило, разные значения и признаки, что делает невозможным сравнение нескольких совокупностей в целом. Для этой цели применяется средняя величина, как обобщающий показатель совокупности,
характеризующий уровень изучаемого явления или процесса.
Средняя величина всегда обобщает количественное выражение признака и погашает индивидуальные различия статистических величин совокупности, вызванные случайными обстоятельствами. Но по значению средней величины нельзя делать принципиальные выводы.
Так, если один ученик имеет тетрадь в 48 листов, а другой - ни одной, то в среднем получается по 2 у.ш.т. на ученика. Но из этого нельзя заключать, что все ученики школьными тетрадями обеспечены.
В статистике соблюдаются следующие принципы применения средних величин
.
1. Необходим обоснованный выбор статистической совокупности, для которой определяется средняя величина.
2. При определении средней величины исходят из качественного содержания статистических величин, учитывая возможную взаимосвязь изучаемых признаков.
3. Средняя величина должна рассчитываться по однородной совокупности, которая позволяет применять метод группировки, предполагающий расчет системы обобщающих показателей.
4. Общая средняя величина должна подкрепляться и поясняться групповыми средними величинами.
2.2 Виды степенных средних величин
Средние величины делятся на два больших класса: степенные и структурные. К последним относятся мода и медиана,
но наиболее часто применяются степенные различных видов.
Степенные средние, в зависимости от представления отдельных величин, могут быть простыми и взвешенными.
Простая средняя рассчитывается при наличии двух и более статистических величин, расположенных в произвольном
порядке. Общая формула простой средней величины имеет вид
=
.
(1.11)
Взвешенная средняя величина рассчитывается по сгруппированным
статистическим величинам с использованием следующей общей формулы
=
(1.12)
При этом обозначено:
Xi
– значения отдельных статистических величин или середин группировочных интервалов;
m - показатель степени, от значения которого зависят следующие виды степенных средних величин:
при m = -1 средняя гармоническая;
при m = 0 средняя геометрическая;
при m = 1 средняя арифметическая;
при m = 2 средняя квадратическая;
при m = 3 средняя кубическая и так далее.
Используя общие формулы простой и взвешенной средних при разных показателях степени m, получаем частные формулы каждого вида. Так, приняв m = 1, находим, что простая средняя арифметическая величина определяется по формуле
=.
(1.13)
Аналогично для взвешенной средней арифметической величины получаем формулу через частоты или через доли (так как )
=.
(1.14)
Не представляет трудностей и вывод формул для простых и взвешенных средних квадратических и кубических величин. Несколько сложнее вывод средней гармонической при m = –1. Так, используя формулу (1.11), имеем вначале
гм
= = ,
а окончательно получим, что простая средняя гармоническая величина определяется по формуле
ГМ
= ,
(1.15)
Аналогично выводится формула взвешенной средней гармонической величины, которая имеет следующий окончательный вид через частоты или через доли
ГМ
= ,
(1.16)
Наиболее часто употребляются формулы средних арифметических и гармонических величин.
2.3 Правила применения средней арифметической и гармонической взвешенных
Они часто применяются для осреднения относительных величин интенсивности, т.е. показателей, имеющих дробную размерность. При этом соблюдаются следующие правила.
1. Если имеются дополнительные данные по числителю дробной размерности, то применяется средняя гармоническая.
2. Если имеются дополнительные данные по знаменателю дробной размерности, то применяется средняя арифметическая.
3. Если неясно, к числителю или знаменателю относятся дополнительные данные, то поочередно применяются средняя гармоническая и арифметическая, а затем определяется средняя между ними величина.
Для иллюстрации правил решим задачу: 4 фирмы выпускают одинаковую продукцию при себестоимостях в руб/ед.: Si = 5, 3, 4, 6, а доли фирм равны соответственно di = 0,3; 0,2; 0,4; 0,1. Определить среднюю себестоимость продукции.
Для решения примера используем вышеизложенные правила.
1. Если доли фирм относятся к текущим затратам (числитель показателя себестоимости), то ее среднее значение определяем по формуле (1.16) как среднюю гармоническую величину
= 1/ (0,3/5 + 0,2/3 + 0,4/4 + 0,1/6) = 4,1 (руб./ед.)
2. Если доли фирм относятся к количеству выпущенной продукции (знаменатель показателя себестоимости), то ее среднее значение находим по формуле (1.14) как среднюю арифметическую величину
= 5*0,3 + 3*0,2 + 4*0,4 + 6*0,1 = 4,3 (руб./ед.)
3. Если не сказано, к чему относятся доли фирм, то в дополнение к выполненным расчетам определяем среднюю себестоимость как простую среднюю величину из полученных результатов. То есть = (Sгм + Sар)/2 = 4,2 (руб./ед.)
Таким путем рассчитываются средние значения и других показателей с дробной размерностью.
2.4 Особые виды степенных средних величин
Разновидностью простой средней арифметической служит средняя хронологическая величина, когда имеются моментные статистические величины на определенную одинаковую дату, например, на 1-е число каждого месяца в году. Формула средней хронологической теоретическому выводу не поддается и записывается приближенно в виде
. (1.17)
где Х1
и Xn
— первое и последнее значения статистической величины; Xi — промежуточные значения; n — общее число значений.
По такой формуле бухгалтерия определяет среднегодовую стоимость основных фондов, учитывая ее значения на 1-е число каждого месяца. При этом n = 13, т. к. 1-е января фиксируется дважды: у отчетного и следующего за отчетным года. Аналогично коммерческие банки определяют среднегодовую сумму вкладов и выданных кредитов. Если учет квартальный, то n = 5.
Средняя геометрическая
величина получается при подстановке в формулу (1.11) m=0:
==
Для раскрытия неопределенностей этого вида прологарифмируем обе части формулы (1.11):
.
Подставляя в правую часть равенства m
=0, получаем неопределенность вида . Используя правило Лопиталя и дифференцируя отдельно числитель и знаменатель по переменной m
, получаем
.
Следовательно, при m=0
.
Потенцируя, находим
. (1.18)
Формула (1.18) является формулой средней геометрической простой
, а если использовать частоты f
, получим формулу средней геометрической взвешенной
:
= –
взвешенная,
(1.19)
где П—символ произведения.
Средняя геометрическая величина применяется, если задана последовательность индексов динамики, указывающих, например, на изменение уровня производства каждого последующего года по сравнению с предыдущим.
Рассчитанные для одних и тех же данных различные средние величины оказываются неодинаковыми. Здесь действует правило мажорантности средних величин
(впервые сформулировал профессор А. Я. Боярский), согласно которому с ростом показателя степени m
в общих формулах увеличивается и средняя величина. То есть
< < < <
Это правило частично подтвердилось расчетом средней себестоимости продукции, где средняя гармоническая получилась равной 4,1 руб./ед., а средняя арифметическая 4,3 руб./ед. Если рассчитать еще и среднюю геометрическую взвешенную, то она будет равной 4,2 руб./ед.
2.5 Структурные средние
Особый вид средних величин – структурные средние – применяется для изучения внутреннего строения рядов распределения значений признака, а также для оценки средней величины (степенного типа), если по имеющимся статистическим данным ее расчет не может быть выполнен.
В качестве структурных средних чаще всего используют показатели моды
– наиболее часто повторяющегося значения признака – и медианы
– величины признака, которая делит упорядоченную последовательность его значений на две равные по численности части. В итоге у одной половины единиц совокупности значение признака больше медианного уровня, а у другой – меньше его.
Если изучаемый признак имеет дискретные значения, то особых сложностей при расчете моды и медианы не бывает. Если же данные о значениях признака Х представлены в виде упорядоченных интервалов его изменения (интервальных рядов), расчет моды и медианы несколько усложняется. Поскольку медианное значение делит всю совокупность на две равные по численности части, оно оказывается в каком-то из интервалов признака X. С помощью интерполяции в этом медианном интервале находят значение медианы:
, (1.20)
где XMe
– нижняя граница медианного интервала;
∆
X
– его величина (размах);
∑
f
/2
– половина от общего числа величин;
– сумма наблюдений (или объема взвешивающего признака), накопленная до начала медианного интервала;
f
Me
– число наблюдений или объем взвешивающего признака в медианном интервале.
При расчете модального значения признака по данным интервального ряда надо обращать внимание на то, чтобы интервалы были одинаковыми
, поскольку от этого зависит показатель повторяемости значений признака X. Для интервального ряда с равными интервалами величина моды определяется как
, (1.21)
где ХMo
– нижнее значение модального интервала;
f
Mo
– число наблюдений или объем взвешивающего признака в модальном интервале;
f
Mo-1
– то же для интервала, предшествующего модальному;
f
Mo+1
– то же для интервала, следующего за модальным;
∆
X
– величина интервала изменения признака в группах.
Очевидно, что в формуле (1.20) и (1.21) можно заменить частоты f
на доли d
, так как , а можно вынести за скобки как в числителе, так и в знаменателе и сократить.
Показателями типа медианы, характеризующими структуру рядов распределения признака, являются квартили
(делят ряд на 4 равные части), квинтили
(на 5), децили
(на 10), перцентили
(на 100).
2.6 Средние отклонения от средних величин
Каждая статистическая величина от среднего значения отличается (отклоняется) по-разному и в любую сторону: со знаком плюс или минус. Поэтому для оценки типичности полученной средней величины надо знать величину среднего отклонения совокупности от нее. Поскольку неизбежны и отрицательные отдельные отклонения, необходима нейтрализация знака минус, иначе среднего отклонения не получится. Этого можно достичь двумя способами: принять отрицательные отклонения по модулю или возвести их во вторую степень (в квадрат).
При первом способе образуется среднее линейное отклонение
, а при втором — среднее квадратическое
. В связи с тем, что средние величины могут быть простыми и взвешенными, аналогичными могут быть и средние отклонения. Поэтому среднее линейное отклонение определяется по формулам
–
простое;
(1.22)
–
взвешенное.
(1.23)
В этих формулах прямые скобки означают, что разности или отклонения берутся по модулю, то есть без учета знака. Если ошибочно вместо прямых скобок принять обычные круглые, то получится Л=0.
При использовании второго способа вначале определяется дисперсия отклонений
по формулам
–
простая;
(1.24)
–
взвешенная.
(1.25)
Дисперсия альтернативного признака
(т.е. имеющего две взаимоисключающие разновидности, например, пол человека – мужской или женский, качество продукции – годная или бракованная) определяется по формуле 1.25, если вместо Xi
подставить 1 и 0 (так как признак может принимать только 2 значения). Зная, что:
p
+
q
= 1,
где p
– доля единиц, обладающих признаком, q
– доля единиц не обладающих им.
Среднее значение можно найти по формуле (1.14):
.
Таким образом получим формулу дисперсии альтернативного признака, применив формулу (1.25):
.
Таким образом, дисперсия альтернативного признака равна
. (1.26)
Предельное значение дисперсии альтернативного признака равно 0,25; оно получается при p
= q
= 0,5.
В отличие от математики статистика оперирует не абстрактными, а смысловыми величинами, имеющими размерность. Поэтому и дисперсия здесь не безразмерная, как в математике, а сопровождается квадратической размерностью. Например, если статистическая величина измеряется в годах, или рублях, то дисперсия отклонений получится в «квадратных» годах или в «квадратных» рублях.
Для получения обычной размерности находится среднее квадратическое отклонение
(«сигма») как корень квадратный из дисперсии. То есть
=
.
(1.27)
Однако значения средних отклонений, как любой абсолютной величины, служат лишь количественной мерой анализа статистической совокупности. Для качественного анализа применяются относительные критерии, называемые коэффициентами вариации.
2.7 Коэффициенты вариации
Вариация
— это несовпадение значений одной и той же статистической величины у разных объектов в силу особенностей их собственного развития, а также различия условий, в которых они находятся. Вариация имеет объективный характер и помогает познать сущность изучаемого явления. Если средняя величина сглаживает индивидуальные различия, то вариация, наоборот, их подчеркивает, устанавливая типичность или не типичность найденной средней величины для конкретной статистической совокупности. Тем самым можно делать вывод о качественности подобранных статистических данных.
Вариация измеряется с помощью относительных величин, называемых коэффициентами вариации
и определяемых в виде отношения среднего отклонения к средней величине.
Поскольку среднее отклонение может определяться линейным и квадратическим способами, то соответствующими могут быть и коэффициенты вариации. Следовательно, коэффициенты вариации надо определять по формулам
–
линейный;
(1.28)
–
квадратический.
(1.29)
Значения коэффициента вариации изменяются от 0 до 1 и чем ближе он к нулю, тем типичнее найденная средняя величина для изучаемой статистической совокупности, а значит и качественнее подобраны статистические данные. При этом критериальным значением коэффициента вариации служит 1/3.
То есть средняя величина считается типичной для данной совокупности при λ
0,333 или при ν
0,333. В ином случае средняя величина не типична и требуется пересмотреть статистическую совокупность с целью включения в нее более объективных статистических величин.
Обычно квадратический коэффициент вариации несколько (примерно на 25%) больше линейного, рассчитанные по одним и тем же данным. А значит возможен случай, когда λ
0,333 и ν
0,333, тогда необходимо взять среднюю из этих коэффициентов и по ее значению сделать окончательный вывод о не/типичности найденной средней величины.
С помощью линейного коэффициента вариации принципиальный вывод о типичности или не типичности средней величины можно получить проще и быстрее, чем с помощью квадратического. Однако квадратический коэффициент применяется чаще, так как существует несколько способов для вычисления дисперсии.
У такого способа оценки вариации есть и существенный недостаток. Действительно, пусть, например, исходная совокупность рабочих, имеющих средний стаж 15 лет, со стандартным отклонением σ
= 10 лет, «состарилась» еще на 15 лет. Теперь = 30 лет, а стандартное отклонение по-прежнему равно 10. Совокупность, ранее бывшая неоднородной (10/15*100 = 66,7%), со временем оказывается, таким образом, вполне однородной (10/30*100 = 33,3 %).
Поэтому возможен дополнительный анализ статистической совокупности с помощью коэффициента осцилляции
, определяемого по формуле
, (1.30)
где R
— размах вариации в виде разности наибольшего и наименьшего значений в совокупности статистических величин. То есть
R
= Хмах
–Х
min
,
(1.31)
где Xм
a
x
и Xmin
— максимальное и минимальное значения в совокупности.
При упорядочении статистических величин в совокупности образуются группировочные интервалы. Тогда под обозначением ∆Х
понимается размах интервала, а среднее интервальное значение обозначается ХИ
.
В случае ориентировки только на квадратический коэффициент вариации могут применяться разные методы определения дисперсии.
2.8 Определение дисперсии методом моментов
Преобразованием приведенных выше логических формул определения дисперсии могут быть получены ее новые формулы для расчета, например, методом моментов, которым иногда значение дисперсии получается быстрее.
===
Окончательно записываем, что дисперсия методом моментов определяется по формуле
Д = ,
(1.32)
где – средняя квадратов статистических величин;
– квадрат их средней величины.
Эти параметры нередко имеют и другие названия. Вычитаемое называют начальным моментом первого порядка, уменьшаемое – начальным моментом второго порядка, а сама дисперсия при этом называется центральным моментом второго порядка.
Для иллюстрации пользования формулами дисперсии рассмотрим простейший пример, приняв абстрактно Х1
= 2, Х2
= 4, Х3
= 6
, для которых среднее значение, очевидно, равняется = 4
. Тогда дисперсия простая по логической формуле (1.24) будет равна
Д3
= ((2-4)2
+ (4-4)2
+ (6-4)2
)/3 = 8/3 = 2,67
Применив формулу моментов (1.32), получим тот же результат
Д3
=(22
+ 42
+ 6 2
)/3 – 42
= 56/3 – 16 = 2,67
В данном примере быстрота определения дисперсии методом моментов не достаточно ощутима, но она проявляется очень заметно при большом количестве статистических данных.
2.9 Свойства средней арифметической и дисперсии
В статистических расчетах эти характеристики статистической совокупности зачастую применяются во взаимодействии. При этом с целью приведения их к удобному для анализа виду при громоздких значениях статистических величин используют следующие свойства.
1. Если каждую статистическую величину изменить на одно число (прибавить или отнять), то средняя арифметическая изменится на это число, а дисперсия при этом не изменится.
2. Если каждую статистическую величину изменить в одинаковое число раз (умножить или разделить), то средняя арифметическая изменится во столько же раз, а дисперсия изменится в квадрат таких раз.
Доказать эти свойства можно путем математических преобразований соответствующих формул, но гораздо проще доказательство получается с помощью следующего численного примера.
Принимая предыдущие три статистические величины с их значениями 2, 4, и 6, сначала прибавим к каждой из них 5, а потом умножим каждую из них на 5. Тогда получим измененные значения статистических величин, представленные матрицей
X
1
=2;
X
1
’=2+5=7;
X
1
’’=2*5=10.
X
2
=4;
X
2
’=4+5=9;
X
2
’’=4*5=10.
X
3
=6;
X
3
’=6+5=11;
X
3
’’=6*5=30.
= 4;
’=9;
’’=20.
Д=2,67; Д’=2,67; Д’’=66,67.
В этой матрице значения средних арифметических очевидны, а первоначальное значение дисперсии было найдено в предыдущем примере. Расчет других ее значений приведен ниже по логической формуле (1.24)
Д’= ((7-9)2
+ (9-9)2
+ (11-9)2
)/3 = 2,67
Д’’= ((10-20)2
+ (20-20)2
+ (30-20)2
)/3 = 66,67
Отмечаем, что отношение 66,67/2,67 дает ровно 25 или 52
. То есть при увеличении каждой статистической величины в 5 раз дисперсия увеличилась в 25 раз. Аналогичные численные доказательства можно выполнить и в случаях противоположного изменения статистических величин.
3. Выборочное наблюдение
3.1 Понятие и отбор единиц
Выборочный метод используется, когда применение сплошного наблюдения физически невозможно из-за огромного массива данных или экономически нецелесообразно. Физическая невозможность имеет место, например, при изучении пассажиропотоков, рыночных цен, семейных бюджетов. Экономическая нецелесообразность имеет место при оценке качества товаров, связанной с их уничтожением. Например, дегустация, испытание кирпичей на прочность и т.п. Выборочное наблюдение используется также для проверки результатов сплошного.
Статистические величины, отобранные для наблюдения, составляют выборочную
совокупность или выборку,
а весь их массив - генеральную
совокупность. При этом число величин в выборке обозначают п,
во всей генеральной совокупности — как обычно N.
Отношение n
/
N
называется относительный размер или частость выборки,
измеряемая в процентах.
Качество результатов выборочного наблюдения зависит от репрезентативности
выборки, т.е. от того, насколько она представительна в генеральной совокупности. Для обеспечения репрезентативности выборки надо соблюдать принцип случайности отбора статистических величин, который реализуется разными способами.
1. Собственно случайный
отбор или «метод лото», когда статистическим величинам присваиваются порядковые номера, заносимые на определенные предметы (бумажки, фишки, кубики, бочонки, шары), которые затем перемешиваются в некоторой емкости (шапка, мешок, ящик, барабан) и выбираются наугад. Этот способ можно осуществить также с помощью математических таблиц случайных чисел.
2.
Механический
отбор, согласно которому отбирается каждая (N/п)-я
величина генеральной совокупности. Так, если она содержит 100000 величин, а требуется выбрать 1000, то в выборку попадет каждая 100000 / 1000 = 100-я величина. Причем, если они не ранжированы, то первая выбирается наугад из первой сотни, а номера других будут на сотню больше. Например, если первой оказалась статистическая величина № 19, то следующей должна быть № 119, затем № 219, затем № 319 и т. д. Если статистические величины ранжированы, то первой выбирается № 50, затем № 150, затем № 250 и так далее.
3. Отбор величин из неоднородного массива данных ведется стратифицированным
(расслоенным) способом, когда генеральная совокупность предварительно разбивается на однородные группы, к которым применяется случайный или механический отбор.
4. Особый способ составления выборки представляет собой серийный
или гнездовой
отбор, при котором случайно или механически выбирают не отдельные величины, а их серии или гнезда, внутри которых ведут сплошное наблюдение.
Качество выборочных наблюдений зависит и от типа выборки: повторная
или бесповторная.
В первом случае попавшие в выборку статистические величины или их серии после использования возвращаются в генеральную совокупность, имея шанс попасть в новую выборку. При .этом у всех величин генеральной совокупности одинаковая вероятность включения в выборочную совокупность.
Бесповторный отбор означает, что попавшие в выборку статистические величины или их серии после использования не возвращаются в генеральную совокупность, а потому для остальных величин последней повышается вероятность попадания в следующую выборку.
Бесповторный отбор дает более точные результаты, поэтому применяется чаще. Но есть ситуации, когда его применить нельзя (изучение пассажиропотоков, потребительского спроса и т.п.) и тогда ведется повторный отбор.
3.2 Средняя ошибка выборки
Выборочную совокупность можно сформировать по количественному признаку статистических величин, а также по альтернативному или атрибутивному. В первом случае обобщающей характеристикой выборки служит выборочная средняя
величина, обозначаемая ,
а во втором — выборочная доля
величин, обозначаемая w
.
В генеральной совокупности соответственно: генеральная средняя
и генеральная доля р .
Разности —
и W
— р
называются ошибкой выборки,
которая делится на ошибку регистрации и ошибку репрезентативности. Первая часть ошибки выборки возникает из-за неправильных или неточных сведений по причинам непонимания существа вопроса, невнимательности регистратора при заполнении анкет, формуляров и т.п. Она достаточно легко обнаруживается и устраняется. Вторая часть ошибки возникает из-за постоянного или спонтанного несоблюдения принципа случайности отбора. Ее трудно обнаружить и устранить, она гораздо больше первой и потому ей уделяется основное внимание.
Величина ошибки выборки зависит от структуры последней. Например, если при определении среднего балла успеваемости студентов факультета в одну выборку включить больше отличников, а в другую - больше неудачников, то выборочные средние баллы и ошибки выборки будут разными.
Поэтому в статистике определяется средняя ошибка повторной и бесповторной выборки в виде ее удельного среднего квадратического отклонения по формулам
=
-
повторная;
(1.35)
=
-
бесповторная;
(1.36)
где Дв
— выборочная дисперсия, определяемая при количественном признаке статистических величин по обычным формулам из гл.2.
При альтернативном или атрибутивном признаке выборочная дисперсия определяется по формуле
Дв =
w
(1-
w
).
(1.37)
Из формул (1.35) и (1.36) видно, что средняя ошибка меньше у бесповторной выборки, что и обусловливает ее более широкое применение.
3.3 Предельная ошибка выборки
Учитывая, что на основе выборочного обследования нельзя точно оценить изучаемый параметр (например, среднее значение) генеральной совокупности, необходимо найти пределы, в которых он находится. В конкретной выборке разность может быть больше, меньше или равна . Каждое из отклонений от имеет определенную вероятность. При выборочном обследовании реальное значение в генеральной совокупности неизвестно. Зная среднюю ошибку выборки, с определенной вероятностью можно оценить отклонение выборочной средней от генеральной и установить пределы, в которых находится изучаемый параметр (в данном случае среднее значение) в генеральной совокупности. Отклонение выборочной характеристики от генеральной называется предельной ошибкой выборки .
Она определяется в долях средней ошибки с заданной вероятностью, т.е.
=
t
,
(1.38)
где t
– коэффициент доверия
, зависящий от вероятности, с которой определяется предельная ошибка выборки.
Вероятность появления определенной ошибки выборки находят с помощью теорем теории вероятностей. Согласно теореме П. Л. Чебышёва, при достаточно большом объеме выборки и ограниченной дисперсии генеральной совокупности вероятность того, что разность между выборочной средней и генеральной средней будет сколь угодно мала, близка к единице
:
при .
А. М. Ляпунов доказал, что независимо от характера распределения генеральной совокупности при увеличении объема выборки распределение вероятностей появления того или иного значения выборочной средней приближается к нормальному распределению
. Это так называемая центральная предельная теорема. Следовательно, вероятность отклонения выборочной средней от генеральной средней, т.е. вероятность появления заданной предельной ошибки, также подчиняется указанному закону и может быть найдена как функция от t
с помощью интеграла вероятностей Лапласа:
,
где – нормированное отклонение выборочной средней от генеральной средней.
Значения интеграла Лапласа для разных t
рассчитаны и имеются в специальных таблицах, из которых в статистике широко применяется сочетание:
Вероятность |
0,683 |
0,866 |
0,950 |
0,954 |
0,988 |
0,990 |
0,997 |
0,999 |
t |
1 |
>1,5
|
1,96 |
2 |
2,5 |
2,58 |
3 |
3,5 |
Задавшись конкретным уровнем вероятности, выбирают величину нормированного отклонения t
и определяют предельную ошибку выборки по формуле (1.38)
При этом чаще всего применяют = 0,95 и t
= 1,96, т.е. считают, что с вероятностью 95% предельная ошибка выборки вдвое больше средней. Поэтому в статистике величина t
иногда именуется коэффициентом кратности предельной ошибки относительно средней
.
После исчисления предельной ошибки находят доверительный интервал обобщающей характеристики генеральной совокупности. Такой интервал для генеральной средней величины имеет вид
(-)
(+),
(1.39)
а для генеральной доли аналогично
(
w
-
)
p
(
w
+
).
(1.40)
Следовательно, при выборочном наблюдении определяется не одно, точное значение обобщающей характеристики генеральной совокупности, а лишь ее доверительный интервал с заданным уровнем вероятности. И это серьезный недостаток выборочного метода статистики.
3.4 Определение численности выборки
Разрабатывая программу выборочного наблюдения, иногда задаются конкретным значением предельной ошибки с уровнем вероятности. Неизвестной остается минимальная численность выборки, обеспечивающая заданную точность. Ее можно получить из формул средней и предельной ошибок в зависимости от типа выборки. Так, подставляя формулы сначала (1.35) и затем (1.36) в формулу (1.38) и решая ее относительно численности выборки, получим следующие формулы
для повторной выборки
n = ; (1.41)
для бесповторной выборки
n = . (1.42)
Кроме того, при статистических величинах с количественными признаками надо знать и выборочную дисперсию, но к началу расчетов и она не известна. Поэтому она принимается приближенно одним из следующих способов:
—берется из предыдущих выборочных наблюдений;
—по правилу, согласно которому в размахе вариации укладывается примерно шесть стандартных отклонений (
R
/ =
6 или R
/
= 6; отсюда Д =
R
2
/36);
— по правилу «трех сигм», согласно которому в средней величине укладывается примерно три стандартных отклонения (/ =3; отсюда = /3 или Д =2
/9).
При изучении не численных признаков, если даже нет приблизительных сведений о выборочной доле, принимается w
= 0,5, что по формуле (1.37) соответствует выборочной дисперсии в размере Дв =
0,5(1-0,5) = 0,25.
4. Ряды динамики
4.1 Понятие и классификация рядов динамики
Ряд динамики — это последовательность упорядоченных во времени количественных статистических величин, характеризующих развитие изучаемого явления или процесса. Конкретное значение величины называется уровнем ряда и обозначается Y
, а их число в ряду обозначается n
. Ряды динамики классифицируются по следующим признакам.
1. По времени — ряды моментные и интервальные (периодные)
которые показывают уровень явления на конкретный момент времени или на определенный его период. Сумма уровней интервального ряда дает вполне реальную статистическую величину за несколько периодов времени, например, общий выпуск продукции, общее количество проданных акций и т.п. Уровни моментного ряда, хотя и можно суммировать, но эта сумма реального содержания, как правило, не имеет. Так, если сложить величины запасов на начало каждого месяца квартала, то полученная сумма не означает квартальную величину запасов.
2. По форме представления — ряды абсолютных, относительных и средних величин.
3. По интервалам времени — ряды равномерные и неравномерные (полные и неполные),
первые из которых имеют равные интервалы, а у вторых равенство интервалов не соблюдается.
4. По числу смысловых статистических величин — ряды изолированные и комплексные (одномерные и многомерные).
Первые представляют собой ряд динамики одной статистической величины (например, индекс инфляции), а вторые — нескольких (например, потребление основных продуктов питания).
4.2 Абсолютное и относительное изменение уровней ряда
Система уровней ряда аналогична системе дискретных статистических величин X. По-прежнему вычисляются абсолютное, относительное изменения, среднее значение, а также соответствующие индексы и темпы изменения по единичным и средним значениям. Используются те же формулы средних величин от простой арифметической до геометрической.
Любое изменение уровней ряда определяется базисным и цепным способами.
Базисное абсолютное изменение
представляет собой разность конкретного и первого уровней ряда, определяясь по формуле
(1.43)
Цепное абсолютное изменение
представляет собой разность конкретного и предыдущего уровней ряда, определяясь по формуле
(1.44)
По знаку абсолютного изменения делается вывод о характере развития явления: при > 0 — рост,
при < 0 — спад,
при = 0 — стабильность.
Для проверки правильности расчетов применяется правило, согласно которому сумма цепных абсолютных изменений равняется последнему базисному. То есть
(1.45)
где к
= n-1 — количество изменений уровней ряда (r = 1 ...к
).
Базисное относительное изменение
представляет собой соотношение конкретного и первого уровней ряда, определяясь по формуле
(1.46)
Цепное относительное изменение
представляет собой соотношение конкретного и предыдущего уровней ряда, определяясь по формуле
(1.47)
Относительные изменения уровней — это по существу индексы динамики, критериальным значением которых служит 1. Если они больше ее, имеет место рост
явления, меньше ее — спад,
а при равенстве единице наблюдается стабильность
явления.
Вычитая единицу из относительных изменений, получают темп изменения уровней, критериальным значением которого служит 0. При положительном темпе изменения имеет место рост
явления, при отрицательном — спад,
а при нулевом темпе изменения наблюдается стабильность
явления.
Для проверки правильности расчетов применяется правило, согласно которому произведение цепных относительных изменений равняется последнему базисному.
То есть
(1.48)
4.3 Средний уровень ряда и средние изменения
Способ расчета среднего уровня зависит от того, моментный ряд или интервальный. При моментном ряде применяется формула средней хронологической величины (1.17), но при соответствующих обозначениях имеющая вид
= ,
(1.49)
где Y
1
и Yn
— первый и последний уровни ряда; Yi
— промежуточные уровни.
В случае интервального ряда его средний уровень определяется по формуле простой средней арифметической величины как
=
(1.50)
Среднее изменение уровней ряда определяется также базисным и цепным способами.
Базисное среднее абсолютное изменение
представляет собой частное от деления последнего базисного абсолютного изменения на количество изменений. То есть
Б
=
(1.51)
Цепное среднее абсолютное изменение
уровней ряда представляет собой частное от деления суммы всех цепных абсолютных изменений на количество изменений.
То есть
Ц
=
(1.52)
По знаку средних абсолютных изменений также судят о характере изменения явления в среднем: рост, спад или стабильность.
Из правила контроля базисных и цепных абсолютных изменений согласно формуле (1.45) следует, что базисное и цепное среднее изменение должны быть равными.
Наряду со средними абсолютным изменением рассчитывается и среднее относительное тоже базисным и цепным способами.
Базисное среднее относительное изменение
определяется по формуле
Б
==
(1.53)
Цепное среднее относительное изменение
определяется по формуле
Ц
=
(1.54)
Естественно, базисное и цепное среднее относительное изменения должны быть одинаковыми и сравнением их с критериальным значением 1 делается вывод о характере изменения явления в среднем: рост, спад или стабильность.
Вычитанием 1 из базисного или цепного среднего относительного изменения образуется соответствующий средний темп изменения, по знаку которого также можно судить о характере изменения изучаемого явления, отраженного данным рядом динамики.
4.4 Проверка ряда на наличие тренда
Всякий ряд динамики теоретически может быть представлен в виде составляющих:
- тренд
– основная тенденция развития ряда, обусловливающая увеличение или снижение его уровней;
- циклические (периодические) колебания (в том числе сезонные);
- случайные колебания.
Проверка ряда динамики на наличие в нем тренда возможна несколькими способами (в порядке усложнения):
1. Графический метод
, когда на графике по оси абсцисс откладывается время, а по оси ординат – уровни ряда. Соединив полученные точки линиями, в большинстве случаев можно выявить тренд визуально.
2. Метод средних
, согласно которому изучаемый ряд динамики делится на два равных подряда, для каждого из которых определяется средняя величина и . И если они различаются существенно (более 10%), то признается наличие тренда.
3. Метод
Кокса и Стюарта
, согласно которому ряд динамики делится на три равные по числу уровней группы и существенное различие выявляется между средними уровнями первой и третьей групп. Если общее число уровней не делится на три, то надо добавить недостающий уровень или исключить излишний.
4. Метод
Валлиса и Мура
, согласно которому наличие тренда признается в том случае, если ряд не содержит либо содержит в приемлемом количестве фазы, т.е. перемену знака при определении абсолютного изменения цепным способом.
5. Метод серий
, согласно которому каждый уровень ряда считается принадлежащим к одному из двух типов, например типу А
– меньше медианного или среднего значения или типу В
– больше его. Затем в образовавшейся последовательности типов устанавливается число серий R
. Они называются последовательностью уровней одинакового типа, которая граничит с уровнями другого типа. Если в ряду динамики общая тенденция к росту или снижению уровней отсутствует, то число серий является случайной величиной, распределенной приближенно по нормальному закону (при n>30) или по распределению Стьюдента (при n<30). Следовательно, если закономерности в изменениях уровней нет, то случайная величина R
оказывается в доверительном интервале
где t
– коэффициент доверия для принятого уровня вероятности при нормальном законе или со степенью свободы k
= (
n
- 1)
при распределении Стьюдента;
– среднее число серий в ряду, определяемое по формуле:
;
– среднее квадратическое отклонение числа серий в ряду, определяемое по формуле
.
Подставляя среднее число серий и его среднее квадратическое отклонение в доверительный интервал, получим его развернутое значение в виде
.
Значит, с заданной вероятностью тренд имеет место, если установленное число серий ряда не входит в доверительный интервал, и тренд отсутствует, если установленное число серий находится в этом интервале.
4.5 Непосредственное выделение тренда
Этот процесс можно осуществлять тремя способами.
1. Укрупнение интервалов
, когда ряд динамики делят на некоторое достаточно большое число равных интервалов. Если интервальные средние уровни не позволяют увидеть тенденцию, то увеличивают размах интервалов, уменьшая одновременно их число.
2. Методом скользящей средней
, когда уровни ряда заменяются средними величинами, получаемыми из данного уровня и нескольких симметрично его окружающих уровней. Такие средние называются интервалом сглаживания
. Он может быть нечетным (3, 5, 7 и т.д. уровней) или четным (2, 4, 6 и т.д. уровней). Чаще применяется нечетный интервал, потому что сглаживание идет проще. При этом формулы для расчета скользящей средней величины имеют вид
;
.
Недостаток метода скользящей средней заключается в условности определения сглаженных значений для уровней в начале и в конце ряда. Получают их по специальным формулам. Так, при сглаживании по трем уровням условное значение первого уровня нового ряда рассчитывается по формуле
.
Для уровня в конце нового ряда при таком сглаживании формула аналогична:
.
При сглаживании по пяти уровням условными оказываются по два уровня в начале и в конце нового ряда. Первое условное значение определяется по формуле
,
а второе – по формуле
.
Для двух уровней в конце нового ряда при таком сглаживании формулы аналогичны. Так, последнее расчетное значение определяется по формуле
,
а предпоследнее значение по формуле
.
3. Метод аналитического выравнивания
, под которым понимается формализация основной, проявляющейся во времени тенденции развития изучаемого явления. В итоге получают наиболее общий результат действия всех причинных факторов, а отклонение конкретных уровней ряда от формализованных значений объясняют действием фактов, проявляющихся случайно или циклически. В результате приходят к трендовой модели вида
, (1.55)
где – математическая функция развития; – случайное или циклическое отклонение от функции; t
– время в виде номера периода (уровня ряда). Цель такого метода – выбор теоретической зависимости в качестве одной из функций:
– прямая линия;
– гипербола;
– парабола;
– степенная;
– ряд Фурье.
Определение параметров в этих функциях может вестись несколькими способами, но самые незначительные отклонения аналитических (теоретических) уровней ( – читается как «игрек, выравненный по t») от фактических () дает метод наименьших квадратов – МНК
(т.е. минимально). При этом методе учитываются все эмпирические уровни и должна обеспечиваться минимальная сумма квадратов отклонений эмпирических значений уровней от теоретических :
. (1.56)
В частности, при выравнивании по прямой вида , параметры и отыскиваются по МНК следующим образом. В формуле (1.56) вместо записываем его конкретное выражение . Тогда
.
Дальнейшее решение сводится к задаче на экстремум, т.е. к определению того, при каком значении и функция двух переменных S
может достигнуть минимума. Как известно, для этого надо найти частные производные S по и , приравнять их к нулю и после элементарных преобразований решить систему двух уравнений с двумя неизвестными.
В соответствии с вышеизложенным найдем частные производные
Сократив каждое уравнение на 2, раскрыв скобки и перенеся члены с y
в правую сторону, а остальные – оставив в левой, получим систему нормальных уравнений
где n
– количество уровней ряда; t
– порядковый номер в условном обозначении периода или момента времени; y
– уровни эмпирического ряда.
Эта система и, соответственно, расчет параметров и упрощаются, если отсчет времени ведется от середины ряда. Например, при нечетном
числе уровней серединная точка (год, месяц) принимается за нуль. Тогда предшествующие периоды обозначаются соответственно –1, –2, –3 и т.д., а следующие за средним (центральным) – соответственно 1, 2, 3 и т.д. При четном
числе уровней два серединных момента (периода) времени обозначают –1 и +1, а все последующие и предыдущие, соответственно, через два интервала: , , и т.д.
При таком порядке отсчета времени (от середины ряда) = 0, поэтому система нормальных уравнений упрощается до следующих двух уравнений, каждое из которых решается самостоятельно:
(1.57)
Как видим, при такой нумерации периодов параметр представляет собой среднее значение уровней ряда. К данному виду можно свести гиперболу, если ввести замену , тогда к ней полностью применима система уравнений (1.57).
По полученной модели для каждого периода (каждой даты) определяются теоретические уровни тренда () и оценивается надежность (адекватность) выбранной модели тренда.
4.6 Оценка надежности уравнения тренда
Выбрав и составив уравнение, проводят оценку его надежности с помощью критерия Фишера, сравнивая его расчетное значение F
р
с теоретическими значениями F
Т
, приведенными в специальных таблицах любого справочника по высшей математике. При этом расчетный критерий Фишера определяется по формуле
, (1.58)
где k – число параметров (членов) выбранного уравнения тренда; ДА
– дисперсия аналитическая; До
– дисперсия остаточная в виде разности фактической ДФ
и аналитической дисперсий.
В свою очередь, фактическая и аналитическая дисперсии отклонений уровней ряда определяются по формулам
; (1.59)
. (1.60)
Сравнение расчетного и теоретического значений критерия Фишера ведется обычно при уровне значимости 0,05 с учетом степеней свободы и . При условии F
р
>
F
Т
считается, что выбранная математическая модель ряда динамики адекватно отражает обнаруженный в нем тренд.
4.7 Гармонический анализ сезонных колебаний
[1]
*
Особое место при анализе сезонных колебаний занимает выравнивание с помощью ряда Фурье, в котором уровни можно выразить как функцию времени следующим уравнением:
.
То есть сезонные колебания уровней динамического ряда можно представить в виде синусоидальных колебаний. Поскольку последние представляют собой гармонические колебания, то синусоиды, полученные при выравнивании по ряду Фурье, называют гармониками
различных порядков (показатель k
в этом уравнении определяет число гармоник). Обычно при выравнивании по ряду Фурье рассчитывают несколько гармоник (чаще не более 4) и затем уже определяют, с каким числом гармоник ряд Фурье наилучшим образом отражает изменения уровней ряда.
При выравнивании по ряду Фурье периодические колебания уровней динамического ряда представлены в виде суммы нескольких синусоид (гармоник), наложенных друг на друга.
Так, при k
=1
ряд Фурье будет иметь вид
,
а при k
=2,
соответственно,
и так далее.
Параметры уравнения теоретических уровней, определяемого рядом Фурье, находят, как и в других случаях, методом наименьших квадратов. Приведем без вывода формулы, используемые для исчисления параметров ряда Фурье:
; ; .
Последовательные значения t
обычно определяются от 0
с увеличением (приростом), равным , где n
– число уровней эмпирического ряда.
Например, при n
=10
временнЫе точки t
можно записать следующим образом:
,
или (после сокращения)
; ; ; ; ; ; ; ; .
При n
=12
значения t
, соответственно будут
; .
Значения и удобно расположить в таблице (для двух гармоник):
В следующей таблице приведены исходные данные (графы 1 и 2) и расчет показателей, необходимых для получения уравнений первой и второй гармоники (k
=1
и k
=2
).
Искомое уравнение первой гармоники имеет вид
.
В шестой графе получены теоретические значения объема продажи зимней одежды по месяцам. Очевидно, что они значительно отличаются от эмпирических. Поэтому определим уравнение второй гармоники, т.е.
.
В девятой графе получены теоретические значения , которые более близки к эмпирическим уровням, чем . Об этом свидетельствует и сумма квадратов отклонений теоретических значений от эмпирических (итого двух последних столбцов). После выбора оптимального уравнения, естественно, что его нужно проверить на адекватность с помощью критерия Фишера (параграф 4.6). В нашем примере F
Р1
=14,45>F
Т
=4,26, F
Р2
=7,60>F
Т
=4,12 значит обе модели адекватны и их можно использовать для прогнозирования. Графическое отображение на следующей диаграмме свидетельствует о более точном представлении во второй гармонике.
Аналогично рассчитываются параметры уравнения с применением третьей и четвертой гармоник и проверяют близость теоретических значений к эмпирическим.
4.8 Прогнозирование при помощи тренда
Нахождение по имеющимся данным за определенный период времени некоторых недостающих значений признака внутри этого периода называется интерполяцией
. Нахождение значений признака за пределами анализируемого периода называется экстраполяцией
.
Применение экстраполяции для прогнозирования должно основываться на предположении, что найденная закономерность развития внутри динамического ряда сохраняется и вне этого ряда. Это означает, что основные факторы, сформировавшие выявленную закономерность изменений уровней ряда во времени, сохранится в будущем.
При составлении прогнозов уровней социально-экономических явлений обычно оперируют не точечной, а интервальной оценкой, рассчитывая так называемые доверительные интервалы прогноза
. Границы интервалов определяются по формуле
, (1.61)
где – точечный прогноз, рассчитанный по модели тренда;
– коэффициент доверия по распределению Стьюдента
при уровне значимости и числе степеней свободы =
n
-1
;
– ошибка аппроксимации.
Уровень значимости
связан с вероятностью следующей формулой
. (1.62)
Ошибка аппроксимации
(среднее квадратическое отклонение тренда) определяется по следующей формуле
, (1.63)
где и – соответственно фактические и теоретические (расчетные) значения уровней ряда динамики;
n
– число уровней ряда;
k
– число параметров (членов) в уравнении тренда.
5. Индексы
5.1 Индивидуальные индексы
Индекс — относительная величина, показывающая, во сколько раз уровень изучаемого явления в данных условиях отличается от уровня того же явления в других условиях. В статистическом анализе индексы используются не только для сопоставления уровней явлений, но и для установления значимости причин, вызывающих их изменение.
Если анализируются простые явления или не имеет значения структура сложных явлений, то применяются индивидуальные индексы. Например, такие простые явления как количество проданного товара q
и его цена р
своим произведением образуют такое сложное явление, как выручка от продаж Q
=
qp
.
Сравнение их значений по отдельности для конкретного товара в отчетном периоде времени относительно какого-либо базисного периода и дает индивидуальные индексы:
—количества товара iq
= q
1
/
q
0
;
—его цены ip
=
p
1
/
p
0
;
—выручки от продаж iQ
=
Q
1
/
Q
0
.
Очевидно, что индивидуальный индекс сложного явления формируется из таких индексов простых его составляющих по типологической формуле его определения. То есть
iQ
=
iq
ip
(1.64)
Подставив сюда индивидуальный индекс выручки, записываем:
Q
1
/
Q
0
=
iq
ip
откуда получаем, что
Q
1
=
iq
ip
Q
0
(1.65)
Формула (1.65) представляет собой двухфакторную мультипликативную модель сложного явления, позволяющую находить его изменение под влиянием каждого фактора в отдельности.
Мультипликативной
она называется потому, что содержит только действие умножения. Если в формуле только сложение, или вычитание, или оба этих действия, то она называется аддитивной
моделью. Если в формуле только деление, то она называется кратной
моделью. Если в формуле сложение и вычитание с умножением и делением в любом сочетании, то она называется смешанной
моделью.
Общее изменение выручки равняется =
Q
1
-
Q
0
, а ее изменение от каждого фактора определяется следующим образом. От изменения количества товара при постоянной цене (ip
=
1) оно равно
q
=
iq
Q
0
-
Q
0
= (
iq
–1)
Q
0
,
(1.66)
а при изменении еще и цены оно будет равным
p
=
Q
1
-
Q
0
-
q
=
iq
ip
Q
0
-
Q
0
- (
iq
–1)
Q
0
=
iq
(
ip
–1)
Q
0
,
(1.67)
Так, если выручка от продаж возросла с Q
0
= 8 млн. руб. в предыдущем периоде до Q1
=12,18 млн. руб. в последующем при увеличении количества проданного товара на 5% (iq
=1,05) и повышении цены на 45% (ip
=1,45), то можно по формуле (1.54) записать, что
Q
1
= 1,05*1,45*8 = 12,18 млн. руб.
При этом весь прирост выручки в сумме = 12,18-8=4,18 млн. руб. вызван увеличением обоих факторов. За счет изменения количества проданного товара он по формуле (1.66) составил
q
=(1,05-1)8=0,4 млн. руб., а за счет изменения цены по формуле (1.67) равняется
p
=1,05(1,45-1)8 =3,78 млн. руб. Для контроля отмечаем, что сумма факторных изменений выручки равна общему: 0,4+3,78=4,18 млн. руб.
Формулы (1.66) и (1.67) получены исходя из того, что в основной формуле выручки количество товара - первый фактор, а цена - второй. Если эти факторы поменять местами, то выручка и ее общее изменение останутся прежними, но изменения от каждого фактора будут другими.
Так, если основываться на формуле выручки вида Q
=
pq
,
то ее изменение за счет цены, как первого фактора, по аналогии с формулой (1.66) будет равняться
p
= (
ip
–1)
Q
0
,
(1.68)
Изменение выручки за счет количества товара, как второго фактора, по аналогии с формулой (1.67) определится по выражению
q
=
ip
(
iq
–1)
Q
0
.
(1.69)
Суммарное по факторам изменение выручки по-прежнему равняется ее общему изменению.
В рассмотренном примере, считая цену первым фактором и применяя формулу (1.68), определяем, что изменение выручки за счет повышения цены равняется
p
= (1,45-1)8 = 3,6 млн. руб.
Изменение выручки за счет увеличения количества проданного товара, как второго фактора, по формуле (1.69) равно
q
=
1,45(1,05-1)8 = 0,58 млн. руб.
Общее изменение выручки осталось прежним: 3,6+0,58=4,18 млн. руб.
В связи с различными факторными изменениями выручки в зависимости от места фактора в ее основной формуле, встает вопрос, какую же формулу выручки применять для анализа. Это зависит от конкретной экономической ситуации. Если увеличение выручки обеспечивается главным образом за счет роста количества проданного товара при более или менее стабильной цене, то товар считается первым фактором, а цена — вторым. Если же увеличение выручки достигается в основном повышением цен без увеличения и даже при снижении количества проданного товара, то цена считается первым фактором, а товар — вторым.
Значит, очередность анализа по факторам вытекает из вида формулы сложного явления. Так, если материальные затраты М
на выпуск продукции определяются как произведение ее количества q
, удельного расхода материала т
и его цены р
, то типологическая формула имеет вид
М =
qmp
,
(1.70)
а трехфакторная мультипликативная модель запишется как
M
1
=
iq
im
ip
M
0
.
(1.71)
Следовательно, можно записать следующие формулы факторных изменений материальных затрат
Меняя факторы местами в основной формуле (1.70), можно получать другие факторные формулы. Но всегда общее изменение материальных затрат, равное сумме факторных изменений, будет одинаковым.
Подобные мультипликативные модели можно формировать для неограниченного числа факторов.
5.2 Простые общие индексы
Индекс становится общим, когда в основной формуле показывается неоднородность изучаемого явления. Например, анализируется изменение выручки от продаж не одного, а всех или нескольких видов товаров. Тогда общий индекс количества проданных товаров будет равен
=
(1.72)
Аналогично по ценам
=
(1.73)
Аналогично по выручке
==
(1.74)
Однако здесь двухфакторная мультипликативная модель не может выглядеть как в случае индивидуальных индексов, потому что произведение простых общих индексов количества товаров и цен не равно общему индексу выручки. То есть
и убеждаемся в этом неравенстве, подставив значения общих индексов из формул (1.72)—(1.74).
В самом деле:
Как видим, в числителе и знаменателе левой части произведения сумм, а в числителе и знаменателе правой части сумма произведений и они, конечно, не адекватны.
Это вызвано тем, что записанные выше общие индексы простых явлений не отражают взаимосвязи между собой в сложном явлении и потому считаются не объективными. Поэтому они помечены штрихом и названы простыми общими индексами.
5.3 Агрегатные общие индексы
Объективность общим индексам придает их запись в агрегатном виде, предложенная испанцем Ласпейресом
и немцем Пааше.
Агрегатный общий индекс Ласпейреса для количества товаров как первого фактора выручки определяется по формуле
=
(1.75)
Аналогично можно записать агрегатный общий индекс Ласпейреса для цен как первого фактора выручки, то есть
=
(1.76)
В формулах Ласпейреса знаменатели по существу одинаковые, представляя собой выручку базисного периода, а числители разные. В формуле (1.75) это отчетная выручка в базисных ценах (количесгво товаров отчетное, а цены — базисные), в формуле (1.76) наоборот — базисная выручка в отчетных ценах (цены отчетные, а количество товаров — базисное).
Агрегатные общие индексы Пааше применяются ко вторым факторам мультипликативных моделей. Поэтому такой индекс для цен как второго фактора выручки определяется по формуле
=
(1.77)
Аналогично можно записать агрегатный общий индекс Пааше для количества товаров как второго фактора выручки, то есть
=
(1.78)
В формулах Пааше числители по существу одинаковые, представляя собой выручку отчетного периода, а знаменатели аналогичны числителям формул Ласпейреса.
Для облегчения запоминания студентами формул Ласпейреса и Пааше предлагаю обратить внимание на букву «ш» в слове «Пааше», которая напоминает «111» - так обозначены отчетные периоды в общей формуле (две единицы – в числителе, а одна – в знаменателе). В формуле же Ласпейреса – три нуля (наоборот к формуле Пааше).
Произведения количественного индекса Ласпейреса и ценового индекса Пааше, а также ценового индекса Ласпейреса и количественного индекса Пааше дают общий индекс выручки.
Однако вид этих формул показывает, что однофакторные индексы Ласпейреса и Пааше не равны между собой. То есть не равными являются количественные индексы Ласпейреса и Пааше и ценовые. Американский экономист Гершенкрон обширными расчетами установил, что по одному и тому же фактору индекс Ласпейреса всегда больше индекса Пааше и это открытие названо эффектом Гершенкрона.
Но в статистике должно быть одно значение индекса, поэтому американский экономист Фишер предложил применять среднюю геометрическую величину из индексов Ласпейреса и Пааше, определяя ее по формулам:
для количества товаров
=
(1.79)
для цен
=
(1.80)
Вместе с тем, проведенные Ворониным В.Ф. многочисленные расчеты показали, что для целей статистики вполне можно применять не среднюю геометрическую, а простую среднюю арифметическую величину из индексов Ласпейреса и Пааше, определяя ее по формулам:
для количества товаров
=
(1.81)
для цен
=
(1.82)
Например, если индекс Ласпейреса 1,8 и индекс Пааше 1,4 , то средний геометрический индекс по предложению Фишера равняется
IФ
==1,59,
а средний арифметический индекс по нашему предложению составит
IВ
=(1,8+1,4)/2 = 1,60.
Как видим, разница очень незначительная. Но при этом важно во всех периодах времени постоянно пользоваться одной и той же средней величиной: или геометрической, или арифметической.
5.4 Общие индексы как средние из индивидуальных
Помимо записи общих индексов в агрегатном виде, на практике часто используют формулы их расчета как величин, средних из соответствующих индивидуальных индексов.
Используя их формулы, можем записывать, что q
1
= q
0
iq
и p1
=
p
0
ip
,
а также, что q
0
=
q
1
/
iq
и р0
=р1
/
ip
.
Подставив отчетные значения количества товара и цены в формулу общего индекса выручки, получим
IQ
=
=
=
.
(1.83)
Значит, общий индекс выручки можно определять только через ее базисные значения с умножением в числителе на индивидуальный индекс выручки по конкретному товару.
Теперь подставим базисные значения количества товара и цены в формулу общего индекса выручки. Тогда получим
IQ
=
.
(1.84)
Значит, общий индекс выручки можно определять только через ее отчетные значения с делением в знаменателе на индивидуальный индекс выручки по конкретному товару.
Аналогично через индивидуальные индексы количества товара и цены можно выразить агрегатные общие индексы Ласпейреса и Пааше.
5.5 Индекс структурных сдвигов
Выше изложенные общие индексы применимы к изучению явлений, образованных как разными, так и однородными процессами. В последнем случае динамику итога можно показать через простые общие индексы отдельных факторов.
Для доказательства в формуле количественного индекса Ласпейреса числитель умножим и разделим на , а знаменатель – на . Тогда будем иметь
===,
где= - простой общий индекс количества товаров;
=– доля или удельный вес конкретного товара в общем количестве;
=- агрегатный общий индекс структуры, доли или удельного веса, часто называемый индексом структурных сдвигов.
Следовательно, количественный индекс Ласпейреса равняется произведению простого общего индекса количества товаров и индекса структурных сдвигов. То есть
=,
(1.85)
откуда для определения индекса структурных сдвигов получается довольно простая формула
=/.
(1.86)
Используя формулу (1.83) в двухфакторной модели общего индекса выручки, получим его трехфакторную мультипликативную модель вида
IQ
==.
(1.87)
Трехфакторная модель возможна к широкому применению в экономическом анализе для установления количественного влияния каждого фактора на вариацию сложного явления.
5.6 Факторный анализ общей и частной выручки
Приравнивая правую часть полученной трехфакторной модели и среднюю часть формулы (1.72), записываем выражение
=,
из которого заключаем, что общую выручку отчетного периода можно определить через общую выручку базисного периода и общие индексы по мультипликативной формуле
=.
(1.88)
Эта формула в точности соответствует мультипликативной модели (1.71), что позволяет применять соответствующие формулы факторных изменений. Так, изменение общей выручки за счет изменения общего количества товаров определится по формуле
=.
(1.89)
Изменение общей выручки за счет изменения долей конкретных товаров (структурных сдвигов) определяется по формуле
=.
(1.90)
И наконец изменение общей выручки за счет изменения цен определяется по формуле
=.
(1.91)
Естественно, сумма факторных изменений должна равняться общему итоговому изменению. То есть для контроля правильности анализа проверяется выполнение условия
=-=++.
(1.92)
Факторный анализ изменения выручки по отдельному товару в составе общего товарооборота ведется на основе следующей трехфакторной мультипликативной модели
=,
(1.93)
где =
— индивидуальный индекс доли конкретного товара.
Следовательно, изменения выручки по конкретному товару за счет изменения каждого фактора могут определяться по формулам:
за счет изменения общего количества товаров (товарооборота)
=;
(1.94)
за счет изменения доли конкретного товара
=;
(1.95)
за счет изменения цены конкретного товара
=.
(1.96)
Естественно, факторные изменения выручки по конкретному товару в сумме должны равняться полному изменению выручки по этому товару. То есть для контроля правильности анализа проверяется выполнение условия
=-=++.
(1.97)
где j
— признак конкретного товара.
Кроме того, полные изменения выручки по каждому товару в сумме должны равняться общему изменению выручки по всему товарообороту. То есть для контроля правильности анализа дополнительно проверяется выполнение условия =. При этом для облегчения необходимого контроля результаты факторного анализа представляются в виде факторной таблицы, рассмотренной ниже в методических указаниях по теме.
5.7 Индексы фиксированного (постоянного) и переменного состава
В полученной трехфакторной модели (1.87) второй и третий индексы запишем подробно по формулам их определения, а третий еще и сократим на . Тогда сначала будем иметь
IQ
=====,
а, произведя очевидное сокращение и обозначив
=- индекс переменного состава,
(1.98)
получим общий индекс выручки в виде формулы
IQ
=.
(1.99)
=
называется индексом фиксированного (постоянного) состава.
(1.100)
Следовательно, общий индекс выручки есть произведение простого общего индекса количества товаров и индекса переменного состава. Последний часто путают с ценовым индексом Пааше, хотя формулы их определения совершенно разные.
Из формулы (1.99) можно заключить, что индекс переменного состава есть частное от деления общего индекса выручки на простой общий индекс количества товаров, тогда как ценовый индекс Пааше наравне с формулой (1.77) возможно определять как отношение общего индекса выручки и количественного индекса Ласпейреса.
Изложенные математические выкладки позволяют общий индекс выручки определять следующими семью способами
=
===
=
==.
Результат расчета любым способом должен быть одинаковым и это яркий пример того, что истина всегда одна, хотя пути ее достижения могут быть разными.
[1]
Тема повышенной сложности