Реферат: Статистические методы исследования. Анализ данных: статистические методы исследования. Формы, виды и способы статистического наблюдения

Статистика можно охарактеризовать следующим определением – это использование методов статистического сбора данных для проведения исследования рыночного, коммерческого или хозяйственного состояние отдельного субъекта предпринимательской деятельности.

Статистические данные позволяют провести анализ достижений, рассмотреть сильные и слабые стороны коммерческой деятельности. Они являются вспомогательным средством для разработки программ развития бизнеса, внедрения инноваций, рассмотрения инвестиционной политики и прогнозирования.

Процедура бизнес-статистической работы

Первым этапом в проведении рассматриваемого вида исследования является определение целей и масштабов, то есть планирование получения результата в конкретном сегменте деятельности компании или же данных по её общему состоянию.

Статистическая работа может быть постоянной или одноразовой в зависимости от внутренней политики ведения бизнеса и актуальных потребностей. Если говорить о временных статистических проектах, то далеко не всегда существует необходимость проводить полномасштабную статистическую экспертизу предприятия в целом. Часто необходимо исследование конкретной отрасли, товарной позиции, рыночного сектора и так далее.

После определения и конкретизации задач начинается сбор данных, для обеспечения которого могут быть использованы разные методы, от систематизации бухгалтерских данных до интервьюирования потребителей или партнёров по бизнесу.

Следующий этап – сводка и группировка собранного материала. Сводка являет собой первичную обработку статистических данных с целью получения общей, не детализированной, картины по состоянию исследуемого сектора бизнеса. Она демонстрирует типичные черты, присущие субъекту исследования, а также возможные тенденции его развития.

Группировка данных позволяет перейти на следующий, более подробный уровень рассмотрения информации. Общая статистическая база по каким-либо признакам разбивается на группы, что позволяет увеличить эффективность наблюдения за отдельными бизнес-явлениями внутри организации.

научные методы описания и изучения массовых явлений, допускающих количественное (численное) выражение. Слово «статистика» (от итал. stato – государство) имеет общий корень со словом «государство». Первоначально оно относилось к науке управления и означало сбор данных о некоторых параметрах жизнедеятельности государства. Со временем статистика стала охватывать сбор, обработку и анализ данных о массовых явлениях вообще; ныне статистические методы охватывают собою практически все области знаний и жизнедеятельности общества.

Статистические методы включают в себя и экспериментальное, и теоретическое начала. Статистика исходит прежде всего из опыта; недаром ее зачастую определяют как науку об общих способах обработки результатов эксперимента. Обработка массовых опытных данных представляет самостоятельную задачу. Иногда простая регистрация некоторых рядов наблюдений приводит к тому или иному значимому выводу. Так, если в некоторой стране из года в год растет объем валового внутреннего продукта, то это говорит об ее устойчивом развитии. Однако в большинстве случаев для обработки опытного статистическою материала используются математические модели исследуемого явления, основу которых составляют идеи и методы теории вероятностей.

Теория вероятностей есть наука о массовых случайных явлениях. Массовость означает, что исследуются огромные количества однородных явлений (объектов, процессов). Случайность же означает, что значение рассматриваемого параметра отдельного явления (объекта) в своей основе не зависит и не определяется значениями этого параметра у других явлений, входящих в ту же совокупность. Основной характеристикой массового случайного явления является распределение вероятностей. Теорию вероятностей можно определить как науку о вероятностных распределениях – их свойствах, видах, законах взаимосвязей, распределении величин, характеризующих исследуемый объект, и законах изменения распределений во времени. Так, говорят о распределении молекул газа по скоростям, о распределениях доходов граждан в некотором обществе и т.д.

Эмпирически задаваемые распределения соотносятся с т.н. генеральной совокупностью, т.е. с наиболее полным теоретическим описанием распределений соответствующих массовых явлений. При этом во многих случаях бывает нецелесообразно «перебирать» все элементы рассматриваемых совокупностей либо в силу чрезвычайно большого их числа, либо в силу того, что при наличии некоторого числа «перебранных» элементов учет новых не внесет существенных изменений в общие результаты. Для этих случаев разработан специальный выборочный метод исследования общих свойств статистических систем на основе изучения лишь части соответствующих элементов, взятых на выборку. Так, при оценке политических симпатий граждан некоторого региона или страны перед предстоящими выборами невозможно проводить сплошной опрос граждан. В этих случаях и прибегают к выборочному методу. Чтобы выборочное распределение достаточно надежно характеризовало исследуемую систему, оно должно удовлетворять специальным условиям репрезентативности. Репрезентативность требует случайного выбора элементов и учета макроструктуры всего массового явления.

Распределения представляют наиболее общую характеристику массовых случайных явлений. Задание исходного распределения нередко предполагает построение математической модели соответствующих областей действительности. Построение и анализ таких моделей и составляет основную направленность статистических методов. Построенная математическая модель, в свою очередь, указывает, какие переменные следует измерять и какие из них имеют основное значение. Но главное в построении математической модели состоит в объяснении исследуемых явлений и процессов. Если модель достаточно полна, то она описывает зависимости между основными параметрами этих явлений.

Статистические методы в естествознании породили многие научные теории, привели к разработке важнейших фундаментальных направлений исследования – классической статистической физики, генетики, квантовой теории, теории цепных химических реакций и др. Следует, однако, отметить, что во многих случаях исходные вероятностные распределения задаются не путем непосредственной обработки массового материала. Вероятностная гипотеза чаще всего вводится гипотетически, косвенно, на основе теоретических предпосылок. Так, в учение о газах предположение о существовании вероятностных распределений было введено как гипотеза, на основе допущений о «молекулярном беспорядке». Возможность подобного задания вероятностных распределений и проверки их справедливости обусловлена характером и природой самих распределений, математическое выражение которых обладает самостоятельными характеристиками, достаточно независимыми от конкретных значений элементов.

Особые сложности возникают при применении статистических методов в изучении социальных явлений. Анализ общих направлений социальных процессов и внутренних механизмов, вызывающих конкретные статистические результаты, необычайно трудоемок. Так, благосостояние людей характеризуется весьма многими параметрами и соответствующими распределениями – уровнем доходов, участием в общественно-полезном труде, уровнем образования и здравоохранения и др. показателями жизнедеятельности человека. Выявление взаимосвязи этих распределений и тенденций их изменения требует решения многих сложных задач. Состояние общества можно определить через такие параметры, как внутренний валовый продукт, потребление энергии на душу населения, расслоение общества по доходам и т.п. Вместе с тем общество представляет собой необычайно сложную систему, а познание сложных систем основывается на разработке многих моделей, выражающих различные аспекты их структуры и функционирования. Соответственно, для более полной характеристики состояния общества требуется оперировать весьма многими параметрами и их распределениями. Так, говорят об экономической, производственной, сельскохозяйственной, социальной и многих других статистиках. Для объединения данных этих статистик в единую целостную картину необходимо выявление субординации, иерархии параметров, характеризующих состояние общества.

Объектом исследования в прикладной статистике являются статистические данные, полученные в результате наблюдений или экспериментов. Статистические данные – это совокупность объектов (наблюдений, случаев) и признаков (переменных), их характеризующих. Например, объекты исследования – страны мира и признаки, – географические и экономические показатели их характеризующие: континент; высота местности над уровнем моря; среднегодовая температура; место страны в списке по качеству жизни, доли ВВП на душу населения; расходы общества на здравоохранение, образование, армию; средняя продолжительность жизни; доля безработицы, безграмотных; индекс качества жизни и т.д.
Переменные – это величины, которые в результате измерения могут принимать различные значения.
Независимые переменные – это переменные, значения которых в процессе экперимента можно изменять, а зависимые переменные – это переменные, значения которых можно только измерять.
Переменные могут быть измерены в различных шкалах. Различие шкал определяется их информативностью. Рассматривают следующие типы шкал, представленные в порядке возрастания их информативности: номинальная, порядковая, интервальная, шкала отношений, абсолютная. Эти шкалы отличаются друг от друга также и количеством допустимых математических действий. Самая «бедная» шкала – номинальная, так как не определена ни одна арифметическая операция, самя «богатая» – абсолютная.
Измерение в номинальной (классификационной) шкале означает определение принадлежности объекта (наблюдения) к тому или иному классу. Например: пол, род войск, профессия, континент и т.д. В этой шкале можно лишь посчитать количество объектов в классах – частоту и относительную частоту.
Измерение в порядковой (ранговой) шкале, помимо определения класса принадлежности, позволяет упорядочить наблюдения, сравнив их между собой в каком-то отношении. Однако эта шкала не определяет дистанцию между классами, а только то, какое из двух наблюдений предпочтительнее. Поэтому порядковые экспериментальные данные, даже если они изображены цифрами, нельзя рассматривать как числа и выполнять над ними арифметические операции 5 . В этой шкале дополнительно к подсчету частоты объекта можно вычислить ранг объекта. Примеры переменных, измеренных в порядковой шкале: бальные оценки учащихся, призовые места на соревнованиях, воинские звания, место страны в списке по качеству жизни и т.д. Иногда номинальные и порядковые переменные называют категориальными, или группирующими, так как они позволяют произвести разделение объектов исследования на подгруппы.
При измерении в интервальной шкале упорядочивание наблюдений можно выполнить настолько точно, что известны расстояния между любыми двумя их них. Шкала интервалов единственна с точностью до линейных преобразований (y = ax + b). Это означает, что шкала имеет произвольную точку отсчета – условный нуль. Примеры переменных, измеренных в интервальной шкале: температура, время, высота местности над уровнем моря. Над переменными в данной шкале можно выполнять операцию определения расстояния между наблюдениями. Расстояния являются полноправными числами и над ними можно выполнять любые арифметические операции.
Шкала отношений похожа на интервальную шкалу, но она единственна с точностью до преобразования вида y = ax. Это означает, что шкала имеет фиксированную точку отсчета – абсолютный нуль, но произвольный масштаб измерения. Примеры переменных, измеренных в шкале отношений: длина, вес, сила тока, количество денег, расходы общества на здравоохранение, образование, армию, средняя продолжительность жизни и т.д. Измерения в этой шкале – полноправные числа и над ними можно выполнять любые арифметические действия.
Абсолютная шкала имеет и абсолютный нуль, и абсолютную единицу измерения (масштаб). Примером абсолютной шкалы является числовая прямая. Эта шкала безразмерна, поэтому измерения в ней могут быть использованы в качестве показателя степени или основания логарифма. Примеры измерений в абсолютной шкале: доля безработицы; доля безграмотных, индекс качества жизни и т.д.
Большинство статистических методов относятся к методам параметрической статистики, в основе которых лежит предположение, что случайный вектор переменных образует некоторое многомерное распределение, как правило, нормальное или преобразуется к нормальному распределению. Если это предположение не находит подтверждения, следует воспользоваться непараметрическими методами математической статистики.

Корреляционный анализ. Между переменными (случайными величинами) может существовать функциональная связь, проявляющаяся в том, что одна из них определяется как функция от другой. Но между переменными может существовать и связь другого рода, проявляющаяся в том, что одна из них реагирует на изменение другой изменением своего закона распределения. Такую связь называют стохастической. Она появляется в том случае, когда имеются общие случайные факторы, влияющие на обе переменные. В качестве меры зависимости между переменными используется коэффициент корреляции (r), который изменяется в пределах от –1 до +1. Если коэффициент корреляции отрицательный, это означает, что с увеличением значений одной переменной значения другой убывают. Если переменные независимы, то коэффициент корреляции равен 0 (обратное утверждение верно только для переменных, имеющих нормальное распределение). Но если коэффициент корреляции не равен 0 (переменные называются некоррелированными), то это значит, что между переменными существует зависимость. Чем ближе значение r к 1, тем зависимость сильнее. Коэффициент корреляции достигает своих предельных значений +1 или -1, тогда и только тогда, когда зависимость между переменными линейная. Корреляционный анализ позволяет установить силу и направление стохастической взаимосвязи между переменными (случайными величинами). Если переменные измерены, как минимум, в интервальной шкале и имеют нормальное распределение, то корреляционный анализ осуществляется посредством вычисления коэффициента корреляции Пирсона, в противном случае используются корреляции Спирмена, тау Кендала, или Гамма.

Регрессионный анализ. В регрессионном анализе моделируется взаимосвязь одной случайной переменной от одной или нескольких других случайных переменных. При этом, первая переменная называется зависимой, а остальные – независимыми. Выбор или назначение зависимой и независимых переменных является произвольным (условным) и осуществляется исследователем в зависимости от решаемой им задачи. Независимые переменные называются факторами, регрессорами или предикторами, а зависимая переменная – результативным признаком, или откликом.
Если число предикторов равно 1, регрессию называют простой, или однофакторной, если число предикторов больше 1 – множественной или многофакторной. В общем случае регрессионную модель можно записать следующим образом:

Y = f(x 1 , x 2 , …, x n),

Где y – зависимая переменная (отклик), x i (i = 1,…, n) – предикторы (факторы), n – число предикторов.
Посредством регрессионного анализа можно решать ряд важных для исследуемой проблемы задач:
1). Уменьшение размерности пространства анализируемых переменных (факторного пространства), за счет замены части факторов одной переменной – откликом. Более полно такая задача решается факторным анализом.
2). Количественное измерение эффекта каждого фактора, т.е. множественная регрессия, позволяет исследователю задать вопрос (и, вероятно, получить ответ) о том, «что является лучшим предиктором для...». При этом, становится более ясным воздействие отдельных факторов на отклик, и исследователь лучше понимает природу изучаемого явления.
3). Вычисление прогнозных значений отклика при определенных значениях факторов, т.е. регрессионный анализ, создает базу для вычислительного эксперимента с целью получения ответов на вопросы типа «Что будет, если… ».
4). В регрессионном анализе в более явной форме выступает причинно-следственный механизм. Прогноз при этом лучше поддается содержательной интерпретации.

Канонический анализ. Канонический анализ предназначен для анализа зависимостей между двумя списками признаков (независимых переменных), характеризующих объекты. Например, можно изучить зависимость между различными неблагоприятными факторами и появлением определенной группы симптомов заболевания, или взаимосвязь между двумя группами клинико-лабораторных показателей (синдромов) больного. Канонический анализ является обобщением множественной корреляции как меры связи между одной переменной и множеством других переменных. Как известно, множественная корреляция есть максимальная корреляция между одной переменной и линейной функцией других переменных. Эта концепция была обобщена на случай связи между множествами переменных – признаков, характеризующих объекты. При этом достаточно ограничиться рассмотрением небольшого числа наиболее коррелированных линейных комбинаций из каждого множества. Пусть, например, первое множество переменных состоит из признаков у1, …, ур, второе множество состоит из – х1, …, хq, тогда взаимосвязь между данными множествами можно оценить как корреляцию между линейными комбинациями a1y1 + a2y2 + ... + apyp, b1x1 + b2x2 + ... + bqxq, которая называется канонической корреляцией. Задача канонического анализа в нахождении весовых коэффициентов таким образом, чтобы каноническая корреляция была максимальной.

Методы сравнения средних. В прикладных исследованиях часто встречаются случаи, когда средний результат некоторого признака одной серии экспериментов отличается от среднего результата другой серии. Так как средние это результаты измерений, то, как правило, они всегда различаются, вопрос в том, можно ли объяснить обнаруженное расхождение средних неизбежными случайными ошибками эксперимента или оно вызвано определенными причинами. Если идет речь о сравнении двух средних, то можно применять критерий Стьюдента (t-критерий). Это параметрический критерий, так как предполагается, что признак имеет нормальное распределение в каждой серии экспериментов. В настоящее время модным стало применение непараметрических критериев сравнения средних
Сравнение средних результата один из способов выявления зависимостей между переменными признаками, характеризующими исследуемую совокупность объектов (наблюдений). Если при разбиении объектов исследования на подгруппы при помощи категориальной независимой переменной (предиктора) верна гипотеза о неравенстве средних некоторой зависимой переменной в подгруппах, то это означает, что существует стохастическая взаимосвязь между этой зависимой переменной и категориальным предиктором. Так, например, если установлено, что неверна гипотеза о равенстве средних показателей физического и интеллектуального развития детей в группах матерей, куривших и не куривших в период беременности, то это означает, что существует зависимость между курением матери ребенка в период беременности и его интеллектуальным и физическим развитием.
Наиболее общий метод сравнения средних дисперсионный анализ. В терминологии дисперсионного анализа категориальный предиктор называется фактором.
Дисперсионный анализ можно определить как параметрический, статистический метод, предназначенный для оценки влияния различных факторов на результат эксперимента, а также для последующего планирования экспериментов. Поэтому в дисперсионном анализе можно исследовать зависимость количественного признака от одного или нескольких качественных признаков факторов. Если рассматривается один фактор, то применяют однофакторный дисперсионный анализ, в противном случае используют многофакторный дисперсионный анализ.

Частотный анализ. Таблицы частот, или как еще их называют одновходовые таблицы, представляют собой простейший метод анализа категориальных переменных. Таблицы частот могут быть с успехом использованы также для исследования количественных переменных, хотя при этом могут возникнуть трудности с интерпретацией результатов. Данный вид статистического исследования часто используют как одну из процедур разведочного анализа, чтобы посмотреть, каким образом различные группы наблюдений распределены в выборке, или как распределено значение признака на интервале от минимального до максимального значения. Как правило, таблицы частот графически иллюстрируются при помощи гистограмм.

Кросстабуляция (сопряжение) – процесс объединения двух (или нескольких) таблиц частот так, что каждая ячейка в построенной таблице представляется единственной комбинацией значений или уровней табулированных переменных. Кросстабуляция позволяет совместить частоты появления наблюдений на разных уровнях рассматриваемых факторов. Исследуя эти частоты, можно выявить связи между табулированными переменными и исследовать структуру этой связи. Обычно табулируются категориальные или количественные переменные с относительно небольшим числом значений. Если надо табулировать непрерывную переменную (предположим, уровень сахара в крови), то вначале ее следует перекодировать, разбив диапазон изменения на небольшое число интервалов (например, уровень: низкий, средний, высокий).

Анализ соответствий. Анализ соответствий по сравнению с частотным анализом содержит более мощные описательные и разведочные методы анализа двухвходовых и многовходовых таблиц. Метод, так же, как и таблицы сопряженности, позволяет исследовать структуру и взаимосвязь группирующих переменных, включенных в таблицу. В классическом анализе соответствий частоты в таблице сопряженности стандартизуются (нормируются) таким образом, чтобы сумма элементов во всех ячейках была равна 1.
Одна из целей анализа соответствий – представление содержимого таблицы относительных частот в виде расстояний между отдельными строками и/или столбцами таблицы в пространстве более низкой размерности.

Кластерный анализ. Кластерный анализ – это метод классификационного анализа; его основное назначение – разбиение множества исследуемых объектов и признаков на однородные в некотором смысле группы, или кластеры. Это многомерный статистический метод, поэтому предполагается, что исходные данные могут быть значительного объема, т.е. существенно большим может быть как количество объектов исследования (наблюдений), так и признаков, характеризующих эти объекты. Большое достоинство кластерного анализа в том, что он дает возможность производить разбиение объектов не по одному признаку, а по ряду признаков. Кроме того, кластерный анализ в отличие от большинства математико-статистических методов не накладывает никаких ограничений на вид рассматриваемых объектов и позволяет исследовать множество исходных данных практически произвольной природы. Так как кластеры – это группы однородности, то задача кластерного анализа заключается в том, чтобы на основании признаков объектов разбить их множество на m (m – целое) кластеров так, чтобы каждый объект принадлежал только одной группе разбиения. При этом объекты, принадлежащие одному кластеру, должны быть однородными (сходными), а объекты, принадлежащие разным кластерам, – разнородными. Если объекты кластеризации представить как точки в n-мерном пространстве признаков (n – количество признаков, характеризующих объекты), то сходство между объектами определяется через понятие расстояния между точками, так как интуитивно понятно, что чем меньше расстояние между объектами, тем они более схожи.

Дискриминантный анализ. Дискриминантный анализ включает статистические методы классификации многомерных наблюдений в ситуации, когда исследователь обладает так называемыми обучающими выборками. Этот вид анализа является многомерным, так как использует несколько признаков объекта, число которых может быть сколь угодно большим. Цель дискриминантного анализ состоит в том, чтобы на основе измерения различных характеристик (признаков) объекта классифицировать его, т. е. отнести к одной из нескольких заданных групп (классов) некоторым оптимальным способом. При этом предполагается, что исходные данные наряду с признаками объектов содержат категориальную (группирующую) переменную, которая определяет принадлежность объекта к той или иной группе. Поэтому в дискриминантном анализе предусмотрена проверка непротиворечивости классификации, проведенной методом, с исходной эмпирической классификацией. Под оптимальным способом понимается либо минимум математического ожидания потерь, либо минимум вероятности ложной классификации. В общем случае задача различения (дискриминации) формулируется следующим образом. Пусть результатом наблюдения над объектом является построение k-мерного случайного вектора Х = (X1, X2, …, XК), где X1, X2, …, XК – признаки объекта. Требуется установить правило, согласно которому по значениям координат вектора Х объект относят к одной из возможных совокупностей i, i = 1, 2, …, n. Методы дискриминации можно условно разделить на параметрические и непараметрические. В параметрических известно, что распределение векторов признаков в каждой совокупности нормально, но нет информации о параметрах этих распределений. Непараметрические методы дискриминации не требуют знаний о точном функциональном виде распределений и позволяют решать задачи дискриминации на основе незначительной априорной информации о совокупностях, что особенно ценно для практических применений. Если выполняются условия применимости дискриминантного анализа – независимые переменные–признаки (их еще называют предикторами) должны быть измерены как минимум в интервальной шкале, их распределение должно соответствовать нормальному закону, необходимо воспользоваться классическим дискриминантным анализом, в противном случае – методом общие модели дискриминантного анализа.

Факторный анализ. Факторный анализ – один из наиболее популярных многомерных статистических методов. Если кластерный и дискриминантный методы классифицируют наблюдения, разделяя их на группы однородности, то факторный анализ классифицирует признаки (переменные), описывающие наблюдения. Поэтому главная цель факторного анализа – сокращение числа переменных на основе классификация переменных и определения структуры взаимосвязей между ними. Сокращение достигается путем выделения скрытых (латентных) общих факторов, объясняющих связи между наблюдаемыми признаками объекта, т.е. вместо исходного набора переменных появится возможность анализировать данные по выделенным факторам, число которых значительно меньше исходного числа взаимосвязанных переменных.

Деревья классификации. Деревья классификации – это метод классификационного анализа, позволяющий предсказывать принадлежность объектов к тому или иному классу в зависимости от соответствующих значений признаков, характеризующих объекты. Признаки называются независимыми переменными, а переменная, указывающая на принадлежность объектов к классам, называется зависимой. В отличие от классического дискриминантного анализа, деревья классификации способны выполнять одномерное ветвление по переменными различных типов категориальным, порядковым, интервальным. Не накладываются какие-либо ограничения на закон распределения количественных переменных. По аналогии с дискриминантным анализом метод дает возможность анализировать вклады отдельных переменных в процедуру классификации. Деревья классификации могут быть, а иногда и бывают, очень сложными. Однако использование специальных графических процедур позволяет упростить интерпретацию результатов даже для очень сложных деревьев. Возможность графического представления результатов и простота интерпретации во многом объясняют большую популярность деревьев классификации в прикладных областях, однако, наиболее важные отличительные свойства деревьев классификации – их иерархичность и широкая применимость. Структура метода такова, что пользователь имеет возможность по управляемым параметрам строить деревья произвольной сложности, добиваясь минимальных ошибок классификации. Но по сложному дереву, из-за большой совокупности решающих правил, затруднительно классифицировать новый объект. Поэтому при построении дерева классификации пользователь должен найти разумный компромисс между сложностью дерева и трудоемкостью процедуры классификации. Широкая сфера применимости деревьев классификации делает их весьма привлекательным инструментом анализа данных, но не следует полагать, что его рекомендуется использовать вместо традиционных методов классификационного анализа. Напротив, если выполнены более строгие теоретические предположения, налагаемые традиционными методами, и выборочное распределение обладает некоторыми специальными свойствами (например, соответствие распределения переменных нормальному закону), то более результативным будет использование именно традиционных методов. Однако как метод разведочного анализа или как последнее средство, когда отказывают все традиционные методы, Деревья классификации, по мнению многих исследователей, не знают себе равных.

Анализ главных компонент и классификация. На практике часто возникает задача анализа данных большой размерности. Метод анализ главных компонент и классификация позволяет решить эту задачу и служит для достижения двух целей:
– уменьшение общего числа переменных (редукция данных) для того, чтобы получить «главные» и «некоррелирующие» переменные;
– классификация переменных и наблюдений, при помощи строящегося факторного пространства.
Метод имеет сходство с факторным анализом в постановочной части решаемых задач, но имеет ряд существенных отличий:
– при анализе главных компонент не используются итеративные методы для извлечения факторов;
– наряду с активными переменными и наблюдениями, используемыми для извлечения главных компонент, можно задать вспомогательные переменные и/или наблюдения; затем вспомогательные переменные и наблюдения проектируются на факторное пространство, вычисленное на основе активных переменных и наблюдений;
– перечисленные возможности позволяют использовать метод как мощное средство для классификации одновременно переменных и наблюдений.
Решение основной задачи метода достигается созданием векторного пространства латентных (скрытых) переменных (факторов) с размерностью меньше исходной. Исходная размерность определяется числом переменных для анализа в исходных данных.

Многомерное шкалирование. Метод можно рассматривать как альтернативу факторному анализу, в котором достигается сокращение числа переменных, путем выделения латентных (непосредственно не наблюдаемых) факторов, объясняющих связи между наблюдаемыми переменными. Цель многомерного шкалирования – поиск и интерпретация латентных переменных, дающих возможность пользователю объяснить сходства между объектами, заданными точками в исходном пространстве признаков. Показателями сходства объектов на практике могут быть расстояния или степени связи между ними. В факторном анализе сходства между переменными выражаются с помощью матрицы коэффициентов корреляций. В многомерном шкалировании в качестве исходных данных можно использовать произвольный тип матрицы сходства объектов: расстояния, корреляции и т.д. Несмотря на то, что имеется много сходства в характере исследуемых вопросов, методы многомерное шкалирование и факторный анализ имеют ряд существенных отличий. Так, факторный анализ требует, чтобы исследуемые данные подчинялись многомерному нормальному распределению, а зависимости были линейными. Многомерное шкалирование не накладывает таких ограничений, оно может быть применимо, если задана матрица попарных сходств объектов. В терминах различий получаемых результатов факторный анализ стремится извлечь больше факторов – латентных переменных по сравнению с многомерным шкалированием. Поэтому многомерное шкалирование часто приводит к проще интерпретируемым решениям. Однако более существенно то, что метод многомерное шкалирование можно применять к любым типам расстояний или сходств, в то время как факторный анализ требует, чтобы в качестве исходных данных была использована корреляционная матрица переменных или по файлу исходных данных сначала была вычислена матрица корреляций. Основное предположение многомерного шкалирования заключается в том, что существует некоторое метрическое пространство существенных базовых характеристик, которые неявно и послужили основой для полученных эмпирических данных о близости между парами объектов. Следовательно, объекты можно представить как точки в этом пространстве. Предполагают также, что более близким (по исходной матрице) объектам соответствуют меньшие расстояния в пространстве базовых характеристик. Поэтому, многомерное шкалирование – это совокупность методов анализа эмпирических данных о близости объектов, с помощью которых определяется размерность пространства существенных для данной содержательной задачи характеристик измеряемых объектов и конструируется конфигурация точек (объектов) в этом пространстве. Это пространство («многомерная шкала») аналогично обычно используемым шкалам в том смысле, что значениям существенных характеристик измеряемых объектов соответствуют определенные позиции на осях пространства. Логику многомерного шкалирования можно проиллюстрировать на следующем простом примере. Предположим, что имеется матрица попарных расстояний (т.е. сходства некоторых признаков) между некоторыми городами. Анализируя матрицу, надо расположить точки с координатами городов в двумерном пространстве (на плоскости), максимально сохранив реальные расстояния между ними. Полученное размещение точек на плоскости впоследствии можно использовать в качестве приближенной географической карты. В общем случае многомерное шкалирование позволяет таким образом расположить объекты (города в нашем примере) в пространстве некоторой небольшой размерности (в данном случае она равна двум), чтобы достаточно адекватно воспроизвести наблюдаемые расстояния между ними. В результате можно измерить эти расстояния в терминах найденных латентных переменных. Так, в нашем примере можно объяснить расстояния в терминах пары географических координат Север/Юг и Восток/Запад.

Моделирование структурными уравнениями (причинное моделирование). Наметившийся в последнее время прогресс в области многомерного статистического анализа и анализа корреляционных структур, объединенный с новейшими вычислительными алгоритмами, послужил отправной точкой для создания новой, но уже получившей признание техники моделирования структурными уравнениями (SEPATH). Эта необычайно мощная техника многомерного анализа включает методы из различных областей статистики, множественная регрессия и факторный анализ получили здесь естественное развитие и объединение.
Объектом моделирования структурными уравнениями являются сложные системы, внутренняя структура которых не известна («черный ящик»). Наблюдая параметры системы при помощи SEPATH, можно исследовать ее структуру, установить причинно-следственные взаимосвязи между элементами системы.
Постановка задачи структурного моделирования выглядит следующим образом. Пусть имеются переменные, для которых известны статистические моменты, например, матрица выборочных коэффициентов корреляции или ковариации. Такие переменные называются явными. Они могут быть характеристиками сложной системы. Реальные связи между наблюдаемыми явными переменными могут быть достаточно сложными, однако предполагаем, что имеется некоторое число скрытых переменных, которые с известной степенью точности объясняют структуру этих связей. Таким образом, с помощью латентных переменных строится модель связей между явными и неявными переменными. В некоторых задачах латентные переменные можно рассматривать как причины, а явные – как следствия, поэтому, такие модели называются причинными. Допускается, что скрытые переменные, в свою очередь, могут быть связаны между собой. Структура связей допускается достаточно сложной, однако тип ее постулируется – это связи, описываемые линейными уравнениями. Какие-то параметры линейных моделей известны, какие-то нет, и являются свободными параметрами.
Основная идея моделирования структурными уравнениями состоит в том, что можно проверить, связаны ли переменные Y и X линейной зависимостью Y = aX, анализируя их дисперсии и ковариации. Эта идея основана на простом свойстве среднего и дисперсии: если умножить каждое число на некоторую константу k, среднее значение также умножится на k, при этом стандартное отклонение умножится на модуль k. Например, рассмотрим набор из трех чисел 1, 2, 3. Эти числа имеют среднее, равное 2, и стандартное отклонение, равное 1. Если умножить все три числа на 4, то легко посчитать, что среднее значение будет равно 8, стандартное отклонение – 4, а дисперсия – 16. Таким образом, если есть наборы чисел X и Y, связанные зависимостью Y = 4X, то дисперсия Y должна быть в 16 раз больше, чем дисперсия X. Поэтому можно проверить гипотезу о том, что Y и X связаны уравнением Y = 4X, сравнением дисперсий переменных Y и X. Эта идея может быть различными способами обобщена на несколько переменных, связанных системой линейных уравнений. При этом правила преобразований становятся более громоздкими, вычисления более сложными, но основной смысл остается прежним – можно проверить, связаны ли переменные линейной зависимостью, изучая их дисперсии и ковариации.

Методы анализа выживаемости. Методы анализа выживаемости первоначально были развиты в медицинских, биологических исследованиях и страховании, но затем стали широко применяться в социальных и экономических науках, а также в промышленности в инженерных задачах (анализ надежности и времен отказов). Представьте, что изучается эффективность нового метода лечения или лекарственного препарата. Очевидно, наиболее важной и объективной характеристикой является средняя продолжительность жизни пациентов с момента поступления в клинику или средняя продолжительность ремиссии заболевания. Для описания средних времен жизни или ремиссии можно было бы использовать стандартные параметрические и непараметрические методы. Однако в анализируемых данных есть существенная особенность – могут найтись пациенты, которые в течение всего периода наблюдения выжили, а у некоторых из них заболевание все еще находится в стадии ремиссии. Также может образоваться группа больных, контакт с которыми был потерян до завершения эксперимента (например, их перевели в другие клиники). При использовании стандартных методов оценки среднего эту группу пациентов пришлось бы исключить, тем самым, потеряв с трудом собранную важную информацию. К тому же большинство этих пациентов являются выжившими (выздоровевшими) в течение того времени, которое их наблюдали, что свидетельствует в пользу нового метода лечения (лекарственного препарата). Такого рода информация, когда нет данных о наступлении интересующего нас события, называется неполной. Если есть данные о наступлении интересующего нас события, то информация называется полной. Наблюдения, которые содержат неполную информацию, называются цензурированными наблюдениями. Цензурированные наблюдения типичны, когда наблюдаемая величина представляет время до наступления некоторого критического события, а продолжительность наблюдения ограничена по времени. Использование цензурированных наблюдений составляет специфику рассматриваемого метода – анализа выживаемости. В данном методе исследуются вероятностные характеристики интервалов времени между последовательным возникновением критических событий. Такого рода исследования называются анализом длительностей до момента прекращения, которые можно определить как интервалы времени между началом наблюдения за объектом и моментом прекращения, при котором объект перестает отвечать заданным для наблюдения свойствам. Цель исследований – определение условных вероятностей, связанных с длительностями до момента прекращения. Построение таблиц времен жизни, подгонка распределения выживаемости, оценивание функции выживания с помощью процедуры Каплана – Мейера относятся к описательным методам исследования цензурированных данных. Некоторые из предложенных методов позволяют сравнивать выживаемость в двух и более группах. Наконец, анализ выживаемости содержит регрессионные модели для оценивания зависимостей между многомерными непрерывными переменными со значениями, аналогичными временам жизни.
Общие модели дискриминантного анализа. Если не выполняются условия применимости дискриминантного анализа (ДА) – независимые переменные (предикторы) должны быть измерены как минимум в интервальной шкале, их распределение должно соответствовать нормальному закону, необходимо воспользоваться методом общие модели дискриминантного анализа (ОДА). Метод имеет такое название, потому что в нем для анализа дискриминантных функций используется общая линейная модель (GLM). В этом модуле анализ дискриминантных функций рассматривается как общая многомерная линейная модель, в которой категориальная зависимая переменная (отклик) представляется векторами с кодами, обозначающими различные группы для каждого наблюдения. Метод ОДА имеет ряд существенных преимуществ перед классическим дискриминантным анализом. Например, не устанавливается никаких ограничений на тип используемого предиктора (категориальный или непрерывный) или на тип определяемой модели, возможен пошаговый выбор предикторов и выбор наилучшего подмножества предикторов, в случае наличия в файле данных кросс-проверочной выборки выбор наилучшего подмножества предикторов можно провести на основе долей ошибочной классификации для кросс-проверочной выборки и т.д.

Временные ряды. Временные ряды – это наиболее интенсивно развивающееся, перспективное направление математической статистики. Под временным (динамическим) рядом подразумевается последовательность наблюдений некоторого признака Х (случайной величины) в последовательные равноотстоящие моменты t. Отдельные наблюдения называются уровнями ряда и обозначаются хt, t = 1, …, n. При исследовании временного ряда выделяются несколько составляющих:
x t =u t +y t +c t +e t , t = 1, …, n,
где u t – тренд, плавно меняющаяся компонента, описывающая чистое влияние долговременных факторов (убыль населения, уменьшение доходов и т.д.); – сезонная компонента, отражающая повторяемость процессов в течение не очень длительного периода (дня, недели, месяца и т.д.); сt – циклическая компонента, отражающая повторяемость процессов в течение длительных периодов времени свыше одного года; t – случайная компонента, отражающая влияние не поддающихся учету и регистрации случайных факторов. Первые три компоненты представляют собой детерминированные составляющие. Случайная составляющая образована в результате суперпозиции большого числа внешних факторов, оказывающих каждый в отдельности незначительное влияние на изменение значений признака Х. Анализ и исследование временного ряда позволяют строить модели для прогнозирования значений признака Х на будущее время, если известна последовательность наблюдений в прошлом.

Нейронные сети. Нейронные сети представляют собой вычислительную систему, архитектура которой имеет аналогию с построением нервной ткани из нейронов. На нейроны самого нижнего слоя подаются значения входных параметров, на основании которых нужно принимать определенные решения. Например, в соответствии со значениями клинико-лабораторных показателей больного надо отнести его к той или иной группе по степени тяжести заболевания. Эти значения воспринимаются сетью как сигналы, передающиеся в следующий слой, ослабляясь или усиливаясь в зависимости от числовых значений (весов), приписываемых межнейронным связям. В результате на выходе нейрона верхнего слоя вырабатывается некоторое значение, которое рассматривается как ответ – отклик всей сети на входные параметры. Для того, чтобы сеть работала ее надо «натренировать» (обучить) на данных для которых известны значения входных параметров и правильные отклики на них. Обучение состоит в подборе весов межнейронных связей, обеспечивающих наибольшую близость ответов к известным правильным ответам. Нейронные сети могут быть использованы для классификации наблюдений.

Планирование экспериментов. Искусство располагать наблюдения в определенном порядке или проводить специально спланированные проверки с целью полного использования возможностей этих методов и составляет содержание предмета «планирование эксперимента». В настоящее время экспериментальные методы широко используются как в науке, так и в различных областях практической деятельности. Обычно основная цель научного исследования состоит в том, чтобы показать статистическую значимость эффекта воздействия определенного фактора на изучаемую зависимую переменную. Как правило, основная цель планирования экспериментов заключается в извлечении максимального количества объективной информации о влиянии изучаемых факторов на интересующий исследователя показатель (зависимую переменную) с помощью наименьшего числа дорогостоящих наблюдений. К сожалению, на практике, в большинстве случаев, недостаточное внимание уделяется планированию исследований. Собирают данные (столько, сколько могут собрать), а потом уже проводят статистическую обработку и анализ. Но сам по себе правильно проведенный статистический анализ недостаточен для достижения научной достоверности, поскольку качество любой информации, получаемой в результате анализа данных, зависит от качества самих данных. Поэтому планирование экспериментов находит все большее применение в прикладных исследованиях. Целью методов планирования экспериментов является изучение влияния определенных факторов на исследуемый процесс и поиск оптимальных уровней факторов, определяющих требуемый уровень течения данного процесса.

Карты контроля качества. В условиях современного мира чрезвычайно актуальным является проблема качества не только выпускаемой продукции, но и услуг оказываемых населению. От успешного решения этой важной проблемы в значительной степени зависит благополучие любой фирмы, организации или учреждения. Качество продукции и услуг формируется в процессе научных исследований, конструкторских и технологических разработок, обеспечивается хорошей организацией производства и услуг. Но изготовление продукции и оказание услуг независимо от их вида всегда связано с определенным непостоянством условий производства и предоставления. Это приводит к некоторой вариабельности признаков их качества. Поэтому, актуальными являются вопросы разработки методов контроля качества, которые позволят своевременно выявить признаки нарушения технологического процесса или оказания услуг. При этом, для достижения и поддержания высокого уровня качества, удовлетворяющего потребителя нужны методы, направленные не на устранение дефектов готовой продукции и несоответствий услуг, а на предупреждение и прогнозирование причин их появления. Контрольная карта – это инструмент, позволяющий отслеживать ход протекания процесса и воздействовать на него (с помощью соответствующей обратной связи), предупреждая его отклонения от предъявленных к процессу требований. Инструментарий карт контроля качества широко использует статистические методы, основанные на теории вероятностей и математической статистики. Применение статистических методов позволяет при ограниченных объемах анализируемых изделий с заданной степенью точности и достоверности судить о состоянии качества выпускаемой продукции. Обеспечивает прогнозирование, оптимальное регулирование проблем в области качества, принятие верных управленческих решений не на основе интуиции, а при помощи научного изучения и выявления закономерностей в накапливаемых массивах числовой информации. />/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>

Введение

Заключение

Заказать работу

РЕФЕРАТ 3
ВВЕДЕНИЕ 4
1 Выборочный метод статистических исследований в бизнесе 6
1.1 Постановка задачи выборочного исследования 6
1.2 Ошибки выборки 8
1.3 Численность выборки и способы распространения ее характеристик на генеральную совокупность 12
1.4 Примеры применения выборочного метода в бизнесе 14
2 Анализ биржевого рынка 17
2.1 Построение статистической модели курсов акций компании Sears 18
2.2 Построение статистической модели курсов акций компании BankOne 24
2.3 Сравнительный анализ полученных статистических моделей 27
ЗАКЛЮЧЕНИЕ 30
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 32
ПРИЛОЖЕНИЕ А 33
ПРИЛОЖЕНИЕ Б 34

Под выборочным понимается метод статистического исследования, при котором обобщающие показатели изучаемой совокупности устанавливаются по некоторой её части на основе положений случайного отбора. При выборочном методе обследованию подвергается сравнительно небольшая часть всей изучаемой совокупности (обычно до 5-10%, реже до 15-25%). При этом подлежащая изучению статистическая совокупность, из которой производится отбор части единиц, называется генеральной совокупностью. Отобранная из генеральной совокупности некоторая часть единиц, подвергающаяся обследованию, называется выборочной совокупностью, или просто выборкой. Задача выборочного наблюдения состоит в том, чтобы получить правильное представление о показателях всей генеральной совокупности на основе изучения выборочной совокупности.
Значение выборочного метода состоит в том, что при минимальной численности обследуемых единиц проведение исследования осуществляется в более короткие сроки и с минимальными затратами труда и средств. Это повышает оперативность статистической информации, уменьшает ошибки регистрации.
Большую актуальность приобретает выборочный метод в современных условиях хозяйствования при переходе к рыночной экономике. Изменения характера экономических отношений, аренда, собственность отдельных коллективов и физических лиц обуславливают изменения функций учёта и статистики, сокращение и упрощение отчетности. Вместе с тем возрастающие требования к менеджменту усиливают потребность в надёжной управленческой информации, дальнейшего повышения её оперативности. Всё это обуславливает более широкое применение выборочного метода исследования в экономических явлений, прежде всего в таких сферах как торговля и сфера услуг которые находятся непосредственно в контакте с конечным потребителем и требующие для своего рационального управления огромных массивов информации...

Выборочное исследование широко применяется на практике, поскольку обладает существенными преимуществами по сравнению с другими методами получения статистических данных. К ним относятся:
- достаточно высокая точность результатов обследования благодаря использованию более квалифицированных кадров, что приводит к сокращению ошибок регистрации;
- экономия времени и средств в результате сокращения объема работы, большая оперативность в получении данных о результатах обследования;
- возможность исследования очень больших статистических совокупностей;
- выборочный метод является единственно возможным, если сбор информации связан с разрушением или потерей единиц наблюдения, например, при органалитическом контроле качества продукции;
- возможность исследования полностью недоступных совокупностей.
Ошибки выборки подразделяются на ошибки регистрации и ошибки репрезентативности. Ошибки регистрации возникают из-за неправильных или неточных сведений. Ошибки репрезентативности возникают вследствие несоответствия структуры выборки структуре генеральной совокупности.
Численность выборки – один из факторов, влияющих на величину ее ошибки: чем она больше, тем меньше ошибка. С другой стороны, с объемом выборки связаны затраты на проведение исследования: чем она больше, тем больше затраты.
Таким образом, выборка должна быть оптимальной по численности, чтобы обеспечить достоверность результатов исследования и не вызвать дополнительных затрат труда и денежных средств.
Далее в работе рассмотрены примеры применения выборочного метода в бизнесе: пример вычисления среднего значения и доверительного интервала для непрерывного количественного признака, а также пример оценки вероятности(генеральной доли) р.
При проведении анализ биржевого рынка были найдены уравнения линейной зависимости разброса колебания биржевой стоимости акций компании SEARS (y1) и компании BANCONE (y2) от колебания индекса S&P 500 (x)...

1. Определение термина "статистика" и история ее возникновения


Статистика - это точная наука, изучающая методы сбора, анализа и обработки данных, которые описывают массовые действия, явления и процессы. Данные, изучаемые в статистике, затрагивают не отдельные объекты, а их совокупности. Главным методом сбора данных для статистики является полное обследование объектов, имеющих отношение к изучаемой проблеме.

Статистика - отрасль знаний, в которой излагаются общие вопросы сбора, измерения и анализа массовых статистических (количественных или качественных) данных.

Слово «статистика» происходит от латинского status - состояние дел. В науку термин «статистика» ввел немецкий ученый Готфрид Ахенваль в 1746 году, предложив заменить название курса «Государствоведение», преподававшегося в университетах Германии, на «Статистику», положив тем самым начало развитию статистики как науки и учебной дисциплины. Несмотря на это, статистический учет вёлся намного раньше: проводились переписи населения в Древнем Китае, осуществлялось сравнение военного потенциала государств, велся учет имущества граждан в Древнем Риме и т. п.

Статистика разрабатывает специальную методологию исследования и обработки материалов: массовые статистические наблюдения, метод группировок, средних величин, индексов, балансовый метод, метод графических изображений и другие методы анализа статистических данных.

Начало статистической практики относится примерно ко времени возникновения государства. Первой опубликованной статистической информацией можно считать глиняные таблички Шумерского царства (III - II тысячелетия до н. э.).

Вначале под статистикой понимали описание экономического и политического состояния государства или его части. Например, к 1792 г. относится определение: «статистика описывает состояние государства в настоящее время или в некоторый известный момент в прошлом». И в настоящее время деятельность государственных статистических служб вполне укладывается в это определение.

Постепенно термин «статистика» стал использоваться более широко. В XX веке статистику часто рассматривают прежде всего как самостоятельную научную дисциплину. Статистика есть совокупность методов и принципов, согласно которым проводится сбор, анализ, сравнение, представление и интерпретация числовых данных. В 1954 г. академик АН УССР Б. В. Гнеденко дал следующее определение: «Статистика состоит из трёх разделов:

Сбор статистических сведений, то есть сведений, характеризующих отдельные единицы каких-либо массовых совокупностей;

Статистическое исследование полученных данных, заключающееся в выяснении тех закономерностей, которые могут быть установлены на основе данных массового наблюдения;

Разработка приёмов статистического наблюдения и анализа статистических данных. Последний раздел, собственно, и составляет содержание математической статистики».

Термин «статистика» употребляют ещё в двух смыслах. Во-первых, в обиходе под «статистикой» часто понимают набор количественных данных о каком-либо явлении или процессе. Во-вторых, статистикой называют функцию от результатов наблюдений, используемую для оценки характеристик и параметров распределений и проверки гипотез.

Типовые примеры раннего этапа применения статистических методов описаны в Библии, в Ветхом Завете. Там, в частности, приводится число воинов в различных племенах. С математической точки зрения дело сводилось к подсчёту числа попаданий значений наблюдаемых признаков в определённые градации.

Сразу после возникновения теории вероятностей (Паскаль, Ферма, XVII век) вероятностные модели стали использоваться при обработке статистических данных. Например, изучалась частота рождения мальчиков и девочек, было установлено отличие вероятности рождения мальчика от 0.5, анализировались причины того, что в парижских приютах эта вероятность не та, что в самом Париже, и т. д.

В 1794 г. (по другим данным - в 1795 г.) немецкий математик Карл Гаусс формализовал один из методов современной математической статистики - метод наименьших квадратов. В XIX веке заметный вклад в развитие практической статистики внёс бельгиец Кетле, на основе анализа большого числа реальных данных показавший устойчивость относительных статистических показателей, таких, как доля самоубийств среди всех смертей.

Первая треть ХХ века прошла под знаком параметрической статистики. Изучались методы, основанные на анализе данных из параметрических семейств распределений, описываемых кривыми семейства Пирсона. Наиболее популярным было нормальное распределение. Для проверки гипотез использовались критерии Пирсона, Стьюдента, Фишера. Были предложены метод максимального правдоподобия, дисперсионный анализ, сформулированы основные идеи планирования эксперимента.

Разработанную в первой трети ХХ века теорию анализа данных называют параметрической статистикой, поскольку её основной объект изучения - это выборки из распределений, описываемых одним или небольшим числом параметров. Наиболее общим является семейство кривых Пирсона, задаваемых четырьмя параметрами. Как правило, нельзя указать каких-либо веских причин, по которым распределение результатов конкретных наблюдений должно входить в то или иное параметрическое семейство. Исключения хорошо известны: если вероятностная модель предусматривает суммирование независимых случайных величин, то сумму естественно описывать нормальным распределением; если же в модели рассматривается произведение таких величин, то итог, видимо, приближается логарифмически нормальным распределением и так далее.

В настоящее время термин статистика употребляется в 4 значениях:

Наука, изучающая количественную сторону массовых явлений и процессов в неразрывной связи с их качественным содержанием - учебный предмет в высших и средних специальных учебных заведений;

Совокупность цифровых сведений, характеризующих состояние массовых явлений и процессов общественной жизни; статистические данные, представляемые в отчетности предприятий, организаций, отраслей экономики, а также публикуемых в сборниках, справочниках, периодической печати и в сети Интернет, которые являются результатом статистической работы;

Отрасль практической деятельности («статистический учет») по сбору, обработке, анализу и публикации массовых цифровых данных о самых различных явлениях и процессах общественной жизни;

Некий параметр ряда случайных величин, получаемый по определенному алгоритму из результатов наблюдений, например, статистические критерии (критические статистики), применяющиеся при проверке различных гипотез (предположительных утверждений) относительно природы или значений отдельных показателей исследуемых данных, особенностей их распределения и пр.


2. Описание научных подходов и методов статистики


Как и любая другая наука, статистика имеет свой предмет и метод исследования. Статистика изучает количественную сторону массовых общественных явлений в неразрывной связи с их качественной стороной или содержанием, а также исследует количественное выражение закономерностей общественного развития в конкретных условиях места и времени. Такое изучение основывается на системе категорий (понятий), отражающих наиболее общие и существенные свойства, признаки, связи и отношения предметов и явлений объективного мира.

Статистическая совокупность - множество социально-экономических объектов или явлений общественной жизни, объединенных качественной основой, но отличающихся друг от друга отдельными признаками, т.е. однородных в одном отношении, но разнородных в другом. Таковы, например, совокупность домохозяйств, семей, предприятий, фирм и т.п.

Единица совокупности - первичный элемент статистической совокупности, являющийся носителем признаков и основой ведущегося при обследовании счета.

Признак единицы совокупности - свойства единицы совокупности, которые различаются способами их измерения и другими особенностями

Статистический показатель - понятие, отображающее количественные характеристики (размеры) или соотношения признаков общественных явлений. Статистические показатели можно подразделить на первичные (объемные) - характеризуют либо общее число единиц совокупности (объем совокупности), либо сумму значений какого-либо признака (объем признака) и выражаются абсолютными величинами и вторичные (расчетные) - задаются на единицу первичного показателя и выражаются относительными и средними величинами. Статистические показатели могут быть плановыми, отчетными и прогнозными.

Система статистических показателей - совокупность статистических показателей, отражающая взаимосвязи, которые объективно существуют между явлениями. Она охватывает все стороны общественной жизни как на макро-, так и на микроуровне. С изменением условий жизни общества меняются и системы статистических показателей, совершенствуется методология их расчета.

Совокупность приемов, пользуясь которыми статистика исследует свой предмет, составляет метод статистики. Можно выделить 3 группы статистических методов (3 этапа статистического исследования):

Cтатистическое наблюдение - научно организованный сбор сведений, заключающийся в регистрации тех или иных фактов, признаков, относящихся к каждой единице изучаемой совокупности;

Сводка и группировка - обработка собранных первичных данных, включающая их группировку, обобщение и оформление в таблицах;

Статистический анализ - на основе итоговых данных сводки рассчитываются различные обобщающие показатели в виде средних и относительных величин, выявляются определенные закономерности в распределениях, динамике показателей и т.п.

Таким образом, любое законченное статистическое исследование проходит в 3 этапа, между которыми, разумеется, могут быть перерывы во времени.

Статистические методы - методы анализа статистических данных. Выделяют методы прикладной статистики, которые могут применяться во всех областях научных исследований и любых отраслях народного хозяйства, и другие статистические методы, применимость которых ограничена той или иной сферой. Имеются в виду такие методы, как статистический приемочный контроль, статистическое регулирование технологических процессов, надежность и испытания, планирование экспериментов.

Классификация статистических методов. Статистические методы анализа данных применяются практически во всех областях деятельности человека. Их используют всегда, когда необходимо получить и обосновать какие-либо суждения о группе (объектов или субъектов) с некоторой внутренней неоднородностью.

Целесообразно выделить три вида научной и прикладной деятельности в области статистических методов анализа данных (по степени специфичности методов, сопряженной с погруженностью в конкретные проблемы):

а) разработка и исследование методов общего назначения, без учета специфики области применения;

б) разработка и исследование статистических моделей реальных явлений и процессов в соответствии с потребностями той или иной области деятельности;

в) применение статистических методов и моделей для статистического анализа конкретных данных.

Прикладная статистика - это наука о том, как обрабатывать данные произвольной природы. Математической основой прикладной статистики и статистических методов анализа является теория вероятностей и математическая статистика.

Описание вида данных и механизма их порождения - начало любого статистического исследования. Для описания данных применяют как детерминированные, так и вероятностные методы. С помощью детерминированных методов можно проанализировать только те данные, которые имеются в распоряжении исследователя. Например, с их помощью получены таблицы, рассчитанные органами официальной государственной статистики на основе представленных предприятиями и организациями статистических отчетов. Перенести полученные результаты на более широкую совокупность, использовать их для предсказания и управления можно лишь на основе вероятностно-статистического моделирования. Поэтому в математическую статистику часто включают лишь методы, опирающиеся на теорию вероятностей.

Статистические методы - научные методы описания и изучения массовых явлений, допускающих количественное (численное) выражение. Слово статистика (от игал. stato - государство) имеет общий корень со словом государство. Первоначально оно относилось к науке управления и означало сбор данных о некоторых параметрах жизнедеятельности государства. Со временем статистика стала охватывать сбор, обработку и анализ данных о массовых явлениях вообще; ныне статистические методы охватывают собою практически все области знаний и жизнедеятельности общества.

Статистические методы включают в себя и экспериментальное, и теоретическое начала. Статистика исходит, прежде всего, из опыта; недаром ее зачастую определяют как науку об общих способах обработки результатов эксперимента. Обработка массовых опытных данных представляет самостоятельную задачу. Иногда простая регистрация некоторых рядов наблюдений приводит к тому или иному значимому выводу. Так, если в некоторой стране из года в год растет объем валового внутреннего продукта, то это говорит об ее устойчивом развитии. Однако в большинстве случаев для обработки опытного статистического материала используются математические модели исследуемого явления, основу которых составляют идеи и методы теории вероятностей.

Теория вероятностей есть наука о массовых случайных явлениях. Массовость означает, что исследуются огромные количества однородных явлений (объектов, процессов). Случайность же означает, что значение рассматриваемого параметра отдельного явления (объекта) в своей основе не зависит и не определяется значениями этого параметра у других явлений, входящих в ту же совокупность. Основной характеристикой массового случайного явления является распределение вероятностей. Теорию вероятностей можно определить как науку о вероятностных распределениях их свойствах, видах, законах взаимосвязей, распределении величин, характеризующих исследуемый объект, и законах изменения распределений во времени. Так, говорят о распределении молекул газа по скоростям, о распределениях доходов граждан в некотором обществе и т. д.

Эмпирически задаваемые распределения соотносятся с т. н. генеральной совокупностью, т. е. с наиболее полным теоретическим описанием распределений соответствующих массовых явлений. При этом во.многих случаях бывает нецелесообразно перебирать все элементы рассматриваемых совокупностей либо в силу чрезвычайно большого их числа, либо в силу того, что при наличии некоторого числа перебранных элементов учет новых не внесет существенных изменений в общие результаты. Для этих случаев разработан специальный выборочный метод исследования общих свойств статистических систем на основе изучения лишь части соответствующих элементов, взятых на выборку. Так, при оценке политических симпатий граждан некоторого региона или страны перед предстоящими выборами невозможно проводить сплошной опрос граждан. В этих случаях и прибегают к выборочному методу Чтобы выборочное распределение достаточно надежно характеризовало исследуемую систему, оно должно удовлетворять специальным условиям репрезентативности. Репрезентативность требует случайного выбора элементов и учета макроструктуры всего массового явления.

Распределения представляют наиболее общую характеристику массовых случайных явлений. Задание исходного распределения нередко предполагает построение математической модели соответствующих областей действительности. Построение и анализ таких моделей и составляет основную направленность статистических методов. Построенная математическая модель, в свою очередь, указывает, какие переменные следует измерять и какие из них имеют основное значение. Но главное в построении математической модели состоит в объяснении исследуемых явлений и процессов. Если модель достаточно полна, то она описывает зависимости между основными параметрами этих явлений.

Статистические методы в естествознании породили многие научные теории, привели к разработке важнейших фундаментальных направлений исследования - классической статистической физики, генетики, квантовой теории, теории цепных химических реакций и др. Следует, однако, отметить, что во многих случаях исходные вероятностные распределения задаются не путем непосредственной обработки массового материала. Вероятностная гипотеза чаще всего вводится гипотетически, косвенно, на основе теоретических предпосылок. Так, в учение о газах предположение о существовании вероятностных распределений было введено как гипотеза, на основе допущений о молекулярном беспорядке. Возможность подобного задания вероятностных распределений и проверки их справедливости обусловлена характером и природой самих распределений, математическое выражение которых обладает самостоятельными характеристиками, достаточно независимыми от конкретных значений элементов.

Особые сложности возникают при применении статистических методов в изучении социальных явлений. Анализ общих направлений социальных процессов и внутренних механизмов, вызывающих конкретные статистические результаты, необычайно трудоемок. Так, благосостояние людей характеризуется весьма многими параметрами и соответствующими распределениями - уровнем доходов, участием в общественно-полезном труде, уровнем образования и здравоохранения и др. показателями жизнедеятельности человека. Выявление взаимосвязи этих распределений и тенденций их изменения требует решения многих сложных задач. Состояние общества можно определить через такие параметры, как внутренний валовый продукт, потребление энергии на душу населения, расслоение общества по доходам и т. п. Вместе с тем общество представляет собой необычайно сложную систему, а познание сложных систем основывается на разработке многих моделей, выражающих различные аспекты их структуры и функционирования. Соответственно, для более полной характеристики состояния общества требуется оперировать весьма многими параметрами и их распределениями. Так, говорят об экономической, производственной, сельскохозяйственной, социальной и многих других статистиках. Для объединения данных этих статистик в единую целостную картину необходимо выявление субординации, иерархии параметров, характеризующих состояние общества.


3. Взаимосвязь статистики с другими науками


Статистика является мультидисциплиной, так как она использует методы и принципы, заимствованные из других дисциплин. Так, в качестве теоретической базы для формирования статистической науки служат знания в области социологии и экономической теории. В рамках этих дисциплин происходит изучение законов общественных явлений. Статистика помогает произвести оценку масштаба того или иного явления, а также разработать систему методов для анализа и изучения. Статистика, несомненно, связана с математикой, так как для выявления закономерностей, оценки и анализа объекта исследования требуется ряд математических операций, методов и законов, а систематизация результатов находит отражения в виде графиков и таблиц.


4. Виды статистических исследований


Наблюдение как начальный этап исследования связано со сбором исходных данных об изучаемом вопросе. Оно свойственно многим наукам. Однако каждая наука имеет свою специфику, отличаясь по своим наблюдениям. Поэтому не всякое наблюдение - статистическое.

Статистическое исследование - это научно организованный по единой программе сбор, сводка и анализ данных (фактов) о социально-экономических, демографических и других явлениях и процессах общественной жизни в государстве с регистрацией их наиболее существенных признаков в учетной документации.

Отличительными чертами (спецификой) статистического исследования являются: целенаправленность, организованность, массовость, системность (комплексность), сопоставимость, документированность, контролируемость, практичность.

В целом статистическое исследование должно:

Иметь общественно-полезную цель и всеобщую (государственную) значимость;

Относиться к предмету статистики в конкретных условиях его места и времени;

Выражать статистический вид учета (а не бухгалтерский и не оперативный);

Проводиться по заранее разработанной программе с ее научно обоснованным методологическим и другим обеспечением;

Осуществлять сбор массовых данных (фактов), в которых отражается вся совокупность причинно-следственных и других факторов, разносторонне характеризующих явление;

Регистрироваться в виде учетных документов установленного образца;

Гарантировать отсутствие ошибок наблюдения или же сводить их к возможному минимуму;

Предусматривать определенные критерии качества и способы контроля собранных данных, обеспечивая их достоверность, полноту и содержательность;

Ориентироваться на экономически эффективную технологию сбора и обработки данных;

Быть надежной информационной базой для всех последующих этапов статистического исследования и всех пользователей статистической информацией.

Исследования, не удовлетворяющие этим требованиям, статистическими не являются. Не являются статистическими исследования, например, наблюдения и исследования: матери за играющим ребенком (личный вопрос); зрителей за театральной постановкой (нет учетной документации по зрелищу); научного работника за физико-химическими опытами с их измерениями, расчетами и документальной регистрацией (не массово-общественные данные); врача за больными с ведением медицинских карточек (оперативный учет); бухгалтера за движением денежных средств на банковском счете предприятия (бухгалтерский учет); журналистов за общественной и личной жизнедеятельностью государственных лиц или иных знаменитостей (не предмет статистики).

Статистическая совокупность - множество единиц, обладающих массовостью, типичностью, качественной однородностью и наличием вариации.

Статистическая совокупность состоит из материально существующих объектов (Работники, предприятия, страны, регионы), является объектом статистического исследования.

Статистическое наблюдение является первой стадией статистического исследования, представляющий собой научно организованный сбор данных об изучаемых явлениях и процессах общественной жизни.


5. Предназначение выборочного метода


Множество всех единиц совокупности, обладающих определенным признаком и подлежащих изучению, носит в статистике название генеральной совокупности.

На практике по тем или иным причинам не всегда возможно или же нецелесообразно рассматривать всю генеральную совокупность. Тогда ограничиваются изучением лишь некоторой части ее, конечной целью которого является распространение полученных результатов на всю генеральную совокупность, т. е. применяют выборочный метод.

Для этого из генеральной совокупности особым образом отбирается часть элементов, так называемая выборка, и результаты обработки выборочных данных (например, средние арифметические значения) обобщаются на всю совокупность.

Теоретической основой выборочного метода является закон больших чисел. В силу этого закона при ограниченном рассеивании признака в генеральной совокупности и достаточно большой выборке с вероятностью, близкой к полной достоверности, выборочная средняя может быть сколь угодно близка к генеральной средней. Закон этот, включающий в себя группу теорем, доказан строго математически. Таким образом, средняя арифметическая, рассчитанная по выборке, может с достаточным основанием рассматриваться как показатель, характеризующий генеральную совокупность в целом.

Разумеется, не всякая выборка может быть основой для характеристики всей совокупности, к которой она принадлежит. Таким свойством обладают лишь репрезентативные (представительные) выборки, т. е. выборки, которые правильно отражают свойства генеральной совокупности. Существуют способы, позволяющие гарантировать достаточную репрезентативность выборки. Как доказано в ряде теорем математической статистики, таким способом при условии достаточно большой выборки является метод случайного отбора элементов генеральной совокупности, такого отбора, когда каждый элемент генеральной совокупности имеет равный с другими элементами шанс попасть в выборку. Выборки, полученные таким способом, называются случайными выборками. Случайность выборки является, таким образом, существенным условием применения выборочного метода.

Области применения выборочного метода в исторических исследованиях. Сфера приложения этого метода в изучении истории обширна. Во-первых, историки могут применять выборочный метод при проведении всякого рода обследований с целью изучения различных явлений и процессов современности. Правда, сейчас такими исследованиями больше занимаются социологи, чем историки, хотя именно историки могут проводить конкретно-социологические обследования, опираясь на исторические данные, и добиваться наибольшего эффекта таких исследований.

Во-вторых, историки нередко имеют дело с сохранившимися данными ранее проведенных собственно выборочных обследований. Такие обследования стали все более широко применяться с конца XIX в. Так, при проведении ряда сплошных обследований и переписей выборочно собирались и собираются сведения по более широкой программе. Многие данные собирались только выборочно. Наиболее интересными среди них для историков являются описания разного рода хозяйственных комплексов (крестьянских хозяйств, промышленных предприятий, колхозов, совхозов и т. д.), а также бюджетные и другого рода обследования различных слоев населения.

В-третьих, в распоряжении историков имеется значительное число разнообразных первичных сплошных массовых данных, полная обработка которых весьма затруднительна даже при применении современной вычислительной техники. При изучении их может быть применен выборочный метод. Такие материалы имеются по всем периодам истории, но особенно много их по истории XIX-XX вв.

Наконец, историкам очень часто приходится иметь дело с частичными данными, так называемыми естественными выборками. При обработке этих данных также может быть применен выборочный метод. Характер естественных выборок бывает различным. Прежде всего они могут представлять собой сохранившийся остаток некогда существовавшей более или менее полной совокупности данных. Так, многие актовые материалы, документы текущего делопроизводства и отчетности представляют остатки в прошлом обширных и систематических массивов данных. Далее, при систематическом сборе тех или иных сведений отдельные показатели могли учитываться лишь частично (именно частично, а не выборочно). Так, при составлении «Экономических примечаний» к Генеральному межеванию второй половины XVIII в., которое охватило большую часть территории страны, ряд показателей (количество населения, площадь земельных угодий и др.) учитывался повсеместно, а некоторые важные данные (о величине барских запашек, размерах оброка) были собраны в силу целого ряда причин лишь частично. Многие сведения вообще собирались только частично. Это, прежде всего, относится к тем из них, которые не являлись нормативными и сбором которых занимались различные местные органы, научные и общественные организации и отдельные лица.

Итак, области выборочного метода в исторических исследованиях весьма обширны, а задачи, которые следует при этом решать, различны.

Так, при организации выборочного обследования и формировании выборки из имеющихся сплошных данных исследователь располагает определенной свободой маневра для обеспечения репрезентативности выборок. При этом он может опираться на хорошо разработанную в математической статистике теорию, методику и технику получения таких выборок.

При оперировании же данными ранее проведенных выборочных обследований следует проверить, в какой мере они были выполнены в соответствии с требованиями, предъявляемыми к выборочному методу. Для этого надо знать, как было проведено это обследование. Чаще всего это вполне можно сделать.

И совсем иное дело - естественные выборки данных, с которыми очень часто имеет дело историк. Прежде всего необходимо доказать их репрезентативность. Без этого экстраполяция показателей выборок на всю изучаемую совокупность будет необоснованной. Поскольку пока еще нет достаточно надежных методов математической проверки репрезентативности естественных выборок, то решающую роль здесь играет выяснение истории их возникновения и содержательный анализ имеющихся данных.


6. Предназначение корреляционно-регрессионного анализа

сезонный регрессионный статистический выборочный

Экономические данные почти всегда представлены в виде таблиц. Числовые данные, содержащиеся в таблицах, обычно имеют между собой явные (известные) или неявные (скрытые) связи.

Явно связанные показатели получены методами прямого счета, т. е. вычислены по заранее известным формулам. Например, вычисляются проценты выполнения плана, темпы роста, индексы и т. д.

Связи же второго типа заранее неизвестны. Однако люди должны уметь объяснять и предсказывать (прогнозировать) сложные явления для того, чтобы управлять ими. Поэтому специалисты с помощью наблюдений стремятся выявить скрытые зависимости и выразить их в виде формул, т. е. математически смоделировать явления или процессы. Одну из таких возможностей предоставляет корреляционно-регрессионный анализ.

Обратим внимание на то, что специалисты строят и используют математические модели для трех обобщенных целей - объяснения, предсказания и управления.

Представление экономических и других данных в электронных таблицах в наши дни стало простым и естественным. Оснащение же электронных таблиц средствами корреляционно-регрессионного анализа способствует тому, что из группы сложных, глубоко научных и потому редко используемых, почти экзотических методов, корреляционно-регрессионный анализ превращается для специалиста в повседневный, эффективный и оперативный аналитический инструмент.

Пользуясь методами корреляционно-регрессионного анализа, аналитики измеряют тесноту связей показателей с помощью коэффициента корреляции. При этом обнаруживаются связи, различные по силе (сильные, слабые, умеренные и др.) и различные по направлению (прямые, обратные). Если связи окажутся существенными, то целесообразно будет найти их математическое выражение в виде регрессионной модели и оценить статистическую значимость модели. В экономике значимое уравнение регрессии используется, как правило, для прогнозирования изучаемого явления или показателя.

Поэтому регрессионный анализ называют основным методом современной математической статистики для выявления неявных и завуалированных связей между данными наблюдений. Электронные же таблицы делают такой анализ легко доступным.


7. Предназначение и методика проведения анализа сезонных колебаний


При анализе многих рядов динамики можно заметить определённую повторяемость (цикличность, закономерность в колебаниях), изменениях их уровней. Например, в большинстве отраслей экономики это проявляется в виде внутритрудовых чередований, подъёмов и спадов выпуска продукции, неодинаковым потреблением сырья и энергии, колебания уровней себестоимости, прибыли и других показателей. Ярко выраженный сезонный характер имеет сельское хозяйство, рыболовство, лесозаготовка, охота, туризм и так далее. Значительной колеблемости во внутренней динамике подвержены денежные обращения и товарооборот. Наибольшие денежные доходы образуются у населения в III и IV кварталах, особенно у селян. Максимальный объём товарооборота (различного) приходится на конец каждого года. Продажа молочных продуктов увеличивается обычно во II и III кварталах, а фруктов и овощей - во втором полугодии. Потребление пищи связано со временем суток, днями недели, временами года. Также закономерности в изменении уровней ряда динамики принято называть сезонными колебаниями.

Под сезонными колебаниями понимается более или менее устойчивые внутригодовые колебания уровней динамического рода, обусловленные спецификами развития данного явления.

Цель изучения сезонных колебаний состоит как в разработке мер его ликвидации или смягчению сезонных колебаний (нередко этим и ограничивается статистическое исследование), так и для оптимального исследования условий, благоприятствующих развитию массовых явлений и процессов.

При статистическом исследовании в рядах динамики сезонных колебаний решаются следующие две взаимосвязанные задачи: 1) выявление специфики развития изучаемого явления во внутренне годовой динамике; 2) измерение сезонных колебаний изучаемого явления с построением модели сезонной волны.

Особое внимание отражается на обеспечение сопоставимости уровней ряда. При наличии в исходном материале разновесных по продолжительности периодов времени объёмные величины пересчитываются в средние величины, характеризующие интенсивность развития изучаемого явления в единицу времени.

Для выявления сезонных колебаний обычно берутся данные за несколько последних лет, распределённые по определённым внутригодовым периодам.

Для измерения сезонных колебаний исчисляются специальные статистические показатели, которые называются индексами сезонности (Is) и совокупность которых отражает сезонную волну.

Для вычисления индексов сезонности применяются различные методы.

В общем виде индексы сезонности определяются отношением исходных (фактических) уровней первоначального ряда (y) к расчётным (теоретическим) уровням, выступающим в качестве базы сравнения.

Тем самым ликвидируется (устраняется) влияние основной тенденции (тренда). Затем усреднением индивидуальных индексов сезонных одноимённых внутригодовых периодов анализируемого ряда динамики устраняется влияние на сезонные колебания случайных отклонений. Поэтому для каждого периода сумма определяется обобщением показателей в виде средних индексов сезонности

В зависимости от характера тренда последняя формула может быть записана по разному:

Например, коэффициенты месячной непрерывности определяются в этом случае как отношения уровня каждого месяца к среднемесячному за год. Для большей надёжности индексы сезонности обычно рассчитываются по данным за 3-5 лет. При этом для каждого месяца рассчитывается средняя величина уровня за эти 3-5 дет, которая сопоставляется с общим ежемесячным уровнем за 3-5 лет. Можно, таким образом, сначала для каждого из этих 3-5 лет рассчитать ежемесячный индекс сезонности, из которых рассчитывается затем средний индекс сезонности для каждого месяца. Результаты будут совпадать.

Поэтому для всех фактических уровней анализируемого ряда динамики общий средний уровень является постоянной величиной, то этот подход называется способом постоянной средней. В этом случае сначала выполняется предварительное аналитическое выравнивание фактических уровней и после этого исчисляется сезонная величина, но не от постоянной средней (как в предыдущем случае), а от выровненных данных.

Измерение сезонных колебаний на базе переменных уровней тренда (расчётных уровней ряда) в статистике получило название способы переменной средней. Есть и другие, более сложные методы расчета индексов сезонности. Например, если все колебания членов первоначального ряда объясняются только (или в основном) сезонными причинами, то уравнение тренда выражает только сезонные колебания. Следовательно, изучение сезонного колебания сводится к проблеме выбора адекватной математической функции. Однако наилучшее с точки зрения отражения сезонных колебаний нагрузки уравнения выбирают по минимуму среднего квадратичного индексов сезонности 100 %.


Список литературы


1.Гусаров В.М. Теория статистики: М.: «Аудит», издательское объединение «ЮНИТИ», 2010.

2.Лапунина Л., Четверина Т. Напряженность на Российском рынке и механизмы ее преодоления: Вопросы экономики, N 2, 2008.

.Общая теория статистики: статистическая методология в изучении коммерческой деятельности, Учебник / под редакцией А.А. Спирина, О.Э. Башиной: М.: «Финансы и статистика», 2009.

.Сабирьянова К. Микроэкономический анализ динамических изменений на Российском рынке труда. Вопросы экономики, N 1, 2012.

.Социальная статистика: Учебник/ Под ред. чл.-кор. РАН И.И. Елисеевой.- 3-е изд., перераб. и доп.- М.: Финансы и статистика, 2011.- 480 с.


Репетиторство

Нужна помощь по изучению какой-либы темы?

Наши специалисты проконсультируют или окажут репетиторские услуги по интересующей вас тематике.
Отправь заявку с указанием темы прямо сейчас, чтобы узнать о возможности получения консультации.