Самое распространенное применение наивного Байеса - классификация документов. Является ли это электронное письмо спамом или наоборот, долгожданной новостью? Эта запись в Twitter - благодушная или сердитая? Нужно ли передавать этот перехваченный звонок по сотовому для дальнейшего исследования федеральным агентам? Вы предоставляете «данные для обучения», например, классифицированные примеры документов, обучающему алгоритму, который в дальнейшем сможет «разбить» новые документы на те же категории, используя имеющиеся знания.

Самый распространенный подход к классификации документов - это использование модели набор слов в сочетании с наивным байесовским классификатором. Модель набор слов воспринимает документ как беспорядочное множество слов. «Джонни съел сыр» для него то же самое, что «сыр съел Джонни» - и то и другое состоит из одного и того же множества слов: {«Джонни», «съел», «сыр»}.

Скачать заметку в формате или , примеры в формате

Небольшое введение в теорию вероятностей. Выражение р() используется для обозначения вероятности. Например, р(А) = 0, 2 означает, что событие А произойдет с вероятностью 20%. Выражения, типа р(А|B) используются для обозначения условных вероятностей. Например, р(А|B) = 0,3 означает, что вероятность события А, при условии, что случилось событие В, составляет 30%. Совместная вероятность р(А, B) используется для обозначения вероятности того, что события А и В произойдут одновременно. Если события А и В независимы, то р(А, B) = р(А) * р(B). Если события А и В зависимы, то р(А, B) = р(А) * р(B|A).

В качестве примера мы изучаем твиты о сервисе для отправки электронных писем – Mandrill.com . При поиске по ключевому слову – mandrill – помимо полезных, появляются также ссылки, не имеющие отношения к делу. Наша задача – отфильтровать релевантные твиты. Допустим, ранее мы накопили базу, включающую 300 твитов: 150 – о приложении Mandrill.com, и 150 – других.

Каждый твит мы разбиваем на отдельные слова (называемые жетонами - token ). Нам важны две вероятности:

р (приложение | слово1, слово2 …)
р (другое | слово1, слово2, …)

Это вероятность того, что твит либо о приложении, либо о чем-то другом, при том, что мы обнаруживаем слова: «слово1», «слово2» и т.д.

(1) р (приложение | слово1, слово2, …) > р (другое | слово1, слово2, …)

то данный твит - о Mandrill.com. Но как же вычислить эти вероятности? Первый шаг - использование теоремы Байеса, которая позволяет переписать условную вероятность приложения как:

Точно так же

Подставив (2) и (3) в (1) и умножив обе части на р(слово1, слово2, …) , получим условие (1) в виде:

(4) р(прилож.) * р(слово1,слово2,…| прилож.) > р(другое) * р(слово1,слово2,…| другое)

Применяемое для анализа правило апостериорного максимума (МАР) позволяет, во-первых, не обращать внимание на различие значений р (прилож.) и р (другое), а во-вторых, считать вероятности вхождения слов в твит независимыми (хотя это и не так!), и заменить:

р(слово1,слово2,…| прилож.) –> р(слово1| прилож.) * р(слово2| прилож.) * …
р(слово1,слово2,…|другое) –>

В окончательном виде мы будем сравнивать две величины:

(5) р(слово1| прилож.) * р(слово2| прилож.) * … > р(слово1|другое) * р(слово2|другое) * …

Предположение о независимости позволяет разбить совместную условную вероятность набора слов при известном классе на вероятности нахождения каждого слова в данном классе. Считая слова независимыми, мы вносим в алгоритм МАР множество ошибок, но, в конце концов, они не влияют на правильность выбора между набором, относящимся к приложению и другими твитам.

Осталось решить две проблемы: что делать с редкими словами, и как победить исчезающе малые величины, появляющиеся при перемножении большого числа вероятностей, близких к нулю? Принято добавлять единицу к каждому значению (даже нулевому). Это называется дополнительным сглаживанием и часто используется для приспособления неведомых ранее слов к модели наборов слов. А вместо умножения используется сложение логарифмов. Например, у вас есть произведение: 0,2 * 0,8. Прологарифмируйте его: ln(0,2 * 0,8) = ln(0,2) + ln(0,8).

Итак, все объяснения даны, и можно перейти к Excel. На первых двух листах книги с примерами содержатся по 150 твитов, относящихся к приложению Mandrill.com (рис. 1) и к другим темам. Последовательно в оригинальном тексте твитов все буквы заменяются на строчные, а затем знаки препинания – на пробелы. Например, формула в ячейке Е2 =ПОДСТАВИТЬ(D2;»?»;» «) – заменяет в тексте, содержащемся в ячейке D2, все знаки вопроса на пробелы.

Рис. 1. Удаление лишних знаков в базе твитов о приложении (чтобы увеличить изображение, кликните на нем правой кнопкой мыши, и выберите Открыть картинку в новой вкладке )

Теперь нам необходимо сосчитать, сколько раз каждое слово используется в записях данной категории. Для этого нужно собрать все слова из твитов каждой базы в одном столбце. Предполагая, что каждый твит содержит не более 30 слов, и собираясь присвоить каждому жетону отдельную строку, вам понадобится 150 * 30 = 4500 строк. Создайте новый лист, назовите его Жетоны_прил. Назовите ячейку А1 Твиты . Скопируйте в буфер значения Н2:Н151 с листа Приложение. Выделите на листе Жетоны_прил. область А2:А4501 и кликните Вставить –> Специальная вставка –> значения (рис. 2). Нажмите Ok. Обратите внимание: так как вы вставляете 150 твитов в 4500 строк, Excel повторяет все за вас. Это означает, что если вы выделите первое слово из первого твита в строке 2, этот самый твит повторится для выделения второго слова в строке 152, третьего - в 302 и т.д.

Изучите формулы в столбцах В:D листа Жетоны_прил. , чтобы понять механику последовательного извлечения жетонов из твита (рис. 3). Аналогично создайте лист Жетоны_др. для базы твитов, не относящихся к приложению Mandrill.com.

Рис. 3. Фрагмент листа Жетоны_прил., на котором извлекаются жетоны из базы данных твитов, относящихся к приложению Mandrill.com

Теперь на базе листа Жетоны_прил. следует создать сводную таблицу, которая подсчитает число вхождений каждого жетона. С помощью фильтра сводной таблицы исключите слова длиною до 4 символов, а также добавьте столбцы для подсчета логарифма частоты вхождения жетона (рис. 4). Повторите операцию для листа Жетоны_др.

Теперь, когда модель классификатора «обучена», настало время ее использовать. На листе Тест размещены 20 твитов, которые нужно классифицировать. Они также обработаны (как и на рис. 1). Поместим подготовленные твиты на лист Классификация . Выделите D2:D21 и выберите ДАННЫЕ –> Текст по столбцам . В появившемся окне выберите С разделителями и нажмите Далее . На втором шаге выберите знаки табуляции и пробела в качестве разделителей, а также Считать последовательные разделители одним (рис. 5). Ограничитель строк установите (нет) . Нажмите Далее . На последнем шаге Формат данных столбца установите общий . Нажмите Готово .

Процедура разбросает твиты по столбцам всего листа до столбца AI (рис. 6).

Теперь с помощью функции ВПР извлечем данные о логарифмах вероятностей вхождения тестовых жетонов в два набора данных (приложение / другие). Сравним суммы, и сделаем вывод о принадлежности тестов к тому или иному классу (рис. 7). Выделены цветом твиты, разность логарифмов по которым менее 1. Подробнее с формулами можно ознакомиться на листе Классификация.

Вот и все. Модель построена, предположения сделаны.

Написано по материалам книги Джона Формана . – М.: Альпина Паблишер, 2016. – С. 101–128

Статистика- наука, изучающая количественную сторону массовых социально- экономических явлений и процессов, в неразрывном единстве с их качественной стороной в конкретных условиях места и времени.

В естественных науках понятие «статистика» означает анализ массовых явлений, основанных на применении методов теории вероятности.

Статистика разрабатывает специальную методологию исследования и обработки материалов: массовые статистические наблюдения, метод группировок, средних величин, индексов, балансовый метод, метод графических изображений.

Методологическими особенностями является изучение: массовости явлений, качественно однородных признаков того или иного явления в динамике.

Статистика включает ряд разделов, среди которых: общая теория статистики, экономическая статистика, отраслевые статистики- промышленная, сельского хозяйства, транспорта, медицинская.

11. Группы показателей для оценки состояния здоровья населения.

Здоровье населения характеризуется тремя группами основных показателей:

А) медико-демографические –отражают состояние и динамику демографических процессов:

    Статистика населения (плотность, размещение, социальный состав, состав по полу и возрасту, грамотность, образование, национальность, язык, культура.)

    Динамика населения (механическая эмиграция и иммиграция, естественная рождаемость, смертность, естественный прирост.)

    Семейное состояние (коэффициент брачности, разводов, средняя продолжительность брака.)

    Процессы воспроизводства (суммарная плодовитость, брутто-коэффициент и нетто-коэффициент.)

    Средняя ожидаемая продолжительность жизни

    Смертность (структура смертности, показатели смертности в зависимости от причины, характера заболеваемости и возраста.)

Б) показатели заболеваемости и травматизма (первичная заболеваемость, распространенность, накопленная заболеваемость, патологическая пораженность, индекс здоровья, летальность, травматизм, инвалидность.)

В) показатели физического развития:

    Антропометрические (рост, масса тела, окружность грудной клетки, головы, плеча, предплечья, голени, бедра)

    Физиометрические (жизненная ёмкость легких, мышечная сила кистей рук, становая сила)

    Соматоскопические (телосложение, развитие мускулатуры, степень упитанности, форма грудной клетки, форма голеней, стоп, выраженность вторичных половых признаков.)

    Медицинская статистика, ее разделы, задачи. Роль статистического метода в изучении здоровья населения и деятельности системы здравоохранения.

Медицинская (санитарная) статистика - изу­чает количественную сторону явлений и процессов, связанных с ме­дициной, гигиеной и здравоохранением.

Выделяют 3 раздела медицинской статистики:

1. Статистика здоровья населения - изучает состояние здоровья населения в целом или его отдельных групп (путем сбора и статис­тического анализа данных о численности и составе населения, его воспроизводстве, о естественном движении, физическом развитии, распространенности различных заболеваний, продолжительности жиз­ни и т.д.). Оценка показателей здоровья проводится в сопоставлении с общепринятыми оценочными уровнями и уровнями, полученными по различным регионам и в динамике.

2. Статистика здравоохранения - решает вопросы сбора, обработ­ки и анализа информации о сети учреждений здравоохранения (их размещении, оснащении, деятельности) и кадрах (о численности врачей, среднего и младшего медицинского персонала, о распределе­нии их по специальностям, стажу работы, о их переподготовке и т.д.). При анализе деятельности лечебно-профилактических учрежде­ний осуществляется сопоставление полученных данных с нормативны­ми уровнями, а также уровнями, полученными по другим регионам и в динамике.

3. Клиническая статистика - это использование статистических методов при обработке результатов клинических, экспериментальных и лабораторных исследований; она позволяет с количественной точ­ки зрения оценить достоверность результатов исследования и ре­шить ряд других задач (определение объема необходимого числа наблюдений при выборочном исследовании, сформировать эксперимен­тальную и контрольную группы, изучить наличие корреляционных и регрессионных связей, устранить качественную неоднородность групп и т. д.).

Задачами медицинской статистики являются:

1) изучение состояния здоровья населения, анализ количественных характеристик общественного здоровья.

2) выявление связей между показателями здоровья и различными фак­торами природной и социальной среды, оценка влияния этих фак­торов на уровни здоровья населения.

3) изучение материально- технической базы здравоохранения.

4) анализ деятельности лечебно-профилактических учреждений.

5) оценка эффективности (медицинской, социальной, экономической) проводимых лечебных, профилактических, противоэпидемических мероприятий и здравоохранения в целом.

6) использование статистических методов при проведении клинических и экспериментальных медико-биологических исследований.

Медицинская статистика является методом социальной диагности­ки, поскольку она позволяет дать оценку состояния здоровья насе­ления страны, региона и на этой основе разработать меры, направ­ленные на улучшение общественного здоровья. Важнейшим принципом статистики является применение ее для изу­чения не отдельных, единичных, а массовых явлений , с целью выявления их общих закономерностей. Эти закономерности проявляются, как правило, в массе наблюдений, то есть при изучении статистической совокупности.

В медицине статистика - ведущий метод, т.к.:

1) позволяет количественно измерить показатели здоровья населения и показатели деятельности медицинских учреждений

2) определяет силу влияния различных факторов на здоровье населения

3) определяет эффективность лечения и оздоровительных мероприятий

4) позволяет оценить динамику показателей здоровья и позволяет прогнозировать их

5) позволяет получить необходимые данные для разработки норм и нормативов здравоохранения.

    Статистическая совокупность. Определение, виды, свойства. Особенности исследования статистической совокупности.

Объектом любого статистического исследования является статис­тическая совокупность.

Статистическая совокупность - группа, состоящая из множества относительно однородных элементов, взятых вместе в известных гра­ницах пространства и времени и обладающих признаками сходства и различия.

Свойства статистической совокупности : 1) однородность единиц наблюдения 2) определенные границы пространства и времени изучаемого явления

Объектом статистического исследования в медицине и здравоохранении могут быть различные контингенты населения (население в целой или его отдельные группы, больные, умершие, родившиеся), лечебно-профилактические учреждения и др.

Различают два вида статистической совокупности :

а) генеральная совокупность

б) выборочная совокупность

1. выборочная совокупность формируется таким образом, чтобы обес­печить равную возможность для всех элементов исходной совокупнос­ти быть охваченными наблюдением.

2. выборочная совокупность должна быть репрезентативной (представительной), точно и полно отра­жать явление, т.е. давать такое же представление о явлении, как если бы изучалась вся генеральная совокупность.

Выборочная совокупность

1) должна быть репрезентативной, точно и полно отражать явление, т.е. давать такое же представление о явлении как если бы изучалась вся генеральная совокупность, для этого она должна:

а. быть достаточной по численности

б. обладать основными чертами генеральной совокупности (в отобранной части должны быть представлены все элементы в таком же соотношении, как и в генеральной)

2) при ее формировании должен соблюдаться

1) случайный отбор - отбор единиц наблюдения путем жеребьевки с помощью таблицы случайных чисел и т.д. При этом для каждой единицы обеспечивается равная возможность попасть в выборку.

2) механический отбор - единицы генеральной совокупности, последовательно расположенные по какому-либо признаку (по алфавиту, по датам обращения к врачу и т.д.), разбиваются на равные части; из каждой части в заранее обусловленном порядке отбирают каждую 5, 10 или n-ую единицу наблюдения таким образом, чтобы обеспечить необходимый объем выборки.

3) типический (типологический) отбор - предполагает обязательное предварительное расчленение генеральной совокупности на отдельные качественно однородные группы (типы) с последующей выборкой единиц наблюдения из каждой группы по принипам случайного или механического отбора.

4) серийный (гнездный, гнездовой) отбор - предполагает выборку из генеральной совокупности не отдельных единиц, а целых серий (организованной совокупности единиц наблюдений, например, организаций, районов и т.д.)

5) комбинированные способы - сочетание различных способов формирования выборочной.

    Выборочная совокупность, требования, предъявляемые к ней. Принципы и способы формирования выборочной совокупности.

Различают два вида статистической совокупности :

а) генеральная совокупность - совокупность, состоящая из всех единиц наблюдения, которые могут быть к ней отнесены в соответствии с целью исследования. При изучении общественного здоровья генеральная совокупность часто рассматривается в пределах конкретных территориальных гра­ниц или может ограничиваться другими признаками (полом, возрас­том и др.) в зависимости от цели исследования.

б) выборочная совокупность - часть генеральной, отобранная спе­циальным (выборочным) методом и предназначенная для характерис­тики генеральной совокупности.

Особенности проведения статистического исследования на выборочной совокупности:

1. выборочная совокупность формируется таким образом, чтобы обес­печить равную возможность для всех элементов исходной совокупнос­ти быть охваченными наблюдением.

2. выборочная совокупность должна быть репрезентативной (представительной), точно и полно отра­жать явление, т.е. давать такое же представление о явлении, как если бы изучалась вся генеральная совокупность.

Выборочная совокупность - часть генеральной совокупности, отобранная спе­циальным (выборочным) методом и предназначенная для характерис­тики генеральной совокупности.

Требования, предъявляемые к выборочной совокупности:

1) должна быть репрезентативной, точно и полно отражать явление, т.е. давать такое же представление о явлении как если бы изучалась вся генеральная совокупность, для этого она должна:

а. быть достаточной по численности

б. обладать основными чертами генеральной совокупности (в отобранной части должны быть представлены все элементы в таком же соотношении, как и в генеральной)

2) при ее формировании должен соблюдаться основной принцип формирования выборочной совокупности : равная возможность для каждой единицы наблюдения попасть в исследование.

Способы формирования статистической совокупности:

1) случайный отбор - отбор единиц наблюдения путем жеребьевки с помощью таблицы случайных чисел и т.д. При этом для каждой единицы обеспечивается равная возможность попасть в выборку.

2) механический отбор - единицы генеральной совокупности, последовательно расположенные по какому-либо признаку (по алфавиту, по датам обращения к врачу и т.д.), разбиваются на равные части; из каждой части в заранее обусловленном порядке отбирают каждую 5, 10 или n-ую единицу наблюдения таким образом, чтобы обеспечить необходимый объем выборки.

3) типический (типологический) отбор - предполагает обязательное предварительное расчленение генеральной совокупности на отдельные качественно однородные группы (типы) с последующей выборкой единиц наблюдения из каждой группы по принипам случайного или механического отбора.

4) серийный (гнездный, гнездовой) отбор - предполагает выборку из генеральной совокупности не отдельных единиц, а целых серий (организованной совокупности единиц наблюдений, например, организаций, районов и т.д.)

5) комбинированные способы - сочетание различных способов формирования выборочной.

В этой части мы не будем говорить о рекомендательных системах как таковых. Вместо этого мы отдельно сконцентрируемся на главном инструменте машинного обучения - теореме Байеса - и рассмотрим один простой пример её применения - наивный байесовский классификатор. Disclaimer: знакомому с предметом читателю я вряд ли тут сообщу что-то новое, поговорим в основном о базовой философии машинного обучения.


Теорему Байеса или помнит, или тривиально может вывести любой, кто проходил хоть самый-самый базовый курс теории вероятностей. Помните, что такое условная вероятность события x при условии события y ? Прямо по определению: , где - это совместная вероятность x и y , а p (x ) и p (y ) - вероятности каждого события по отдельности. Значит, совместную вероятность можно выразить двумя способами:
.

Ну, вот вам и теорема Байеса:

Вы, наверное, думаете, что я над вами издеваюсь - как может тривиально-тавтологичное переписывание определения условной вероятности быть основным инструментом чего бы то ни было, тем более такой большой и нетривиальной науки, как машинное обучение? Однако давайте начнём разбираться; сначала просто перепишем теорему Байеса в других обозначениях (да-да, я продолжаю издеваться):

А теперь давайте соотнесём это с типичной задачей машинного обучения. Здесь D - это данные, то, что мы знаем, а θ - это параметры модели, которые мы хотим обучить. Например, в модели SVD данные - это те рейтинги, которые ставили пользователи продуктам, а параметры модели - факторы, которые мы обучаем для пользователей и продуктов.

Каждая из вероятностей тоже имеет свой смысл. - это то, что мы хотим найти, распределение вероятностей параметров модели после того, как мы приняли во внимание данные; это называется апостериорной вероятностью (posterior probability). Эту вероятность, как правило, напрямую не найти, и здесь как раз и нужна теорема Байеса. - это так называемое правдоподобие (likelihood), вероятность данных при условии зафиксированных параметров модели; это как раз найти обычно легко, собственно, конструкция модели обычно в том и состоит, чтобы задать функцию правдоподобия. А - априорная вероятность (prior probability), она является математической формализацией нашей интуиции о предмете, формализацией того, что мы знали раньше, ещё до всяких экспериментов.

Здесь, наверное, не время и не место в это углубляться, но заслуга преподобного Томаса Байеса была, конечно, не в том, чтобы переписать в две строчки определение условной вероятности (не было тогда таких определений), а как раз в том, чтобы выдвинуть и развить такой взгляд на само понятие вероятности. Сегодня «байесовским подходом» называют рассмотрение вероятностей с позиций скорее «степеней доверия», чем фриквентистской (от слова frequency, а не freak!) «доли успешных экспериментов при стремлении к бесконечности общего числа экспериментов». В частности, это позволяет рассуждать о вероятностях одноразовых событий - ведь на самом деле нет никакого «стремящегося к бесконечности числа экспериментов» для событий вроде «Россия станет чемпионом мира по футболу в 2018 году» или, ближе к нашей теме, «Васе понравится фильм «Трактористы»»; тут скорее как с динозавром: или понравится, или нет. Ну а математика, конечно, при этом везде одна и та же, колмогоровским аксиомам вероятности всё равно, что о них думают.

Для закрепления пройденного - простой пример. Рассмотрим задачу категоризации текстов: например, предположим, что мы пытаемся рассортировать по темам поток новостей на основе уже имеющейся базы данных с темами: спорт, экономика, культура… Мы будем использовать так называемую bag-of-words model: представлять документ (мульти)множеством слов, которые в нём содержатся. В результате каждый тестовый пример x принимает значения из множества категорий V и описывается атрибутами . Нам нужно найти наиболее вероятное значение данного атрибута, т.е.

По теореме Байеса,

Оценить легко: будем просто оценивать частоту его встречаемости. Но оценить разные не получится - их слишком много, - это вероятность в точности такого набора слов в сообщениях на разные темы. Очевидно, такой статистики взять неоткуда.

Чтобы с этим справиться, наивный байесовский классификатор (naive Bayes classifier - его иногда даже называют idiot’s Bayes) предполагает условную независимость атрибутов при условии данного значения целевой функции:

Теперь обучить отдельные гораздо проще: достаточно подсчитать статистику встречаемости слов в категориях (там есть ещё одна деталь, которая приводит к двум разным вариантам наивного байеса, но мы сейчас углубляться в детали не будем).

Заметим, что наивный байесовский классификатор делает чертовски сильное предположение: в классификации текстов мы предполагаем, что разные слова в тексте на одну и ту же тему появляются независимо друг от друга. Это, конечно, полный бред - но, тем не менее, результаты получаются вполне приличные. На самом деле наивный байесовский классификатор гораздо лучше, чем кажется. Его оценки вероятностей оптимальны, конечно, только в случае настоящей независимости; но сам классификатор оптимален в куда более широком классе задач, и вот почему. Во-первых, атрибуты, конечно, зависимы, но их зависимость одинакова для разных классов и «взаимно сокращается» при оценке вероятностей. Грамматические и семантические зависимости между словами одни и те же и в тексте про футбол, и в тексте о байесовском обучении. Во-вторых, для оценки вероятностей наивный байес очень плох, но как классификатор гораздо лучше (обычно, если даже на самом деле и , наивный байес выдаст и , но классификация при этом будет чаще правильная).

В следующей серии мы усложним этот пример и рассмотрим модель LDA, которая способна выделять темы в корпусе документов безо всякого набора отмеченных документов, причём так, что один документ сможет содержать несколько тем, а также применим её к задаче рекомендаций.

В современном обществе важную роль в механизме управления экономикой играет статистика. Она осуществляет сбор, научную обработку, обобщение и анализ информации, характеризующей развитие экономики страны, уровня жизни населения и других общественных явлений и процессов.

Статистика как наука

Статистика — это ряды цифр, которые характеризуют различные стороны жизни государства.

Статистика — это род практической деятельности людей цель которой сбор, обработка и анализ информации.

Статистика — это наука, разрабатывающая статистическую методологию т.е. набор приемов и способов сбора, обработки и анализа информации.

Таким образом, с татистика — это общетеоретическая наука (комплекс научных дисциплин), которая изучает количественную сторону качественно определенных массовых социально-экономических явлений и процессов, иэ состав, распределение, размещение в пространстве, движение во времени выявляя действующие взаимозависимости и закономерности в конкретных условиях места и времени.

Объектом изучения статистики является общество , протекающие в нём процессы и закономерности развития.

Статистика как наука представляет собой целостную систему научных дисциплин:
  • Общая теория статистики — разрабатывает теорию статистического исследования, являющуюся методологической основой остальных отраслей статистики.
  • (Макроэкономическая статистика). Использует методы общей теории статистики, изучает количественную сторону социально-экономических явлений и процессов на уровне национальной экономики.
  • Математическая статистика и теория вероятности. Изучает случайные величины, законы их распределени.
  • Международная статистика. Предетом международной статистики является количественная сторона явлений и процессов зарубежных стран и международных организаций.
  • Отраслевые статистики. Предетом изучения является количественная сторона деятельности различных отраслей экономики (Статистика промышленности, сельского хозяйства).

Общая теория статистики открывает курс изучения статистических дисциплин. Она является основополагающей дисциплиной для изучения отраслевых стастик, создаёт фундамент для усвоения и применения статистических методов анализа.

Общая теория статистики является наукой о наиболее общих принципах и методах социально-экономических явлений и решает другие общественные вопросы. Она разрабатывает систему категорий, рассматривает , статистических данных.

Общая теория статистики — методологическая основа всех отраслевых статистик.

При изложении основ теории статистики предполагается изучить следующие вопросы:
  • предмет, методы и задачи статистики и ее связь с и некоторыми другими смежными дисциплинами;
  • система статистических показателей и классификаций, используемых в экономической статистике, их содержание и область применения, взаимосвязи между показателями и классификациями статистики;
  • наиболее важные направления статистического анализа, основанного на данных экономики и финансов;
  • основные источники первичных данных и основы формирования статистической базы.

Предмет статистики — размеры и количественные соотношения качественно определенных социально-экономических явлений, закономерности их связи и развития в конкретных условиях места и времени.

Предмет статистики (статистика изучает):
  • Массовые общественные явления и их динамику при помощи статистических показателей. Требование массовости обусловлено действием закона больших чисел — при большом количестве наблюдений, действия случайных признаков взаимопогашаются. (численность населения, количество произведенной продукции)
  • Количественные и качественные явления (Цифровое освещение событий общества).
  • Количественную сторону общественных явлений в неразрывной связи с их качественным содержанием, наблюдает процесс перехода количественных изменений в качественные (закономерности).
  • Развитие явления во времени (динамику)