Меню

Анализ данных измерение это



Анализ данных: определение, цели и задачи

Несмотря на то что анализом данных занимаются в любом бизнесе, руководители которого намерены его развивать, определение анализа данных, его цели и задачи тем не менее не всем до конца ясны.

Определений понятия анализа данных несколько, но само слово «анализ» пришло к нам из Древней Греции и значит «распутывать», «освобождать». Согласно Большому экономическому словарю, анализ данных – это направление статистических исследований, включающее комплекс методов обработки многомерной системы данных наблюдений. В отличие от классических математико-статистических методов, предполагающих вероятностную модель порождения данных, методы анализа данных используют только сведения, зафиксированные в этих отчетах и данных.

В бизнес-среде в последнее время очень популярно определение анализа данных Марио Фариа (Mario Faria), вице-президента Gartner: анализ данных — это преобразование данных в выводы, на основе которых будут приниматься решения и строиться действия с помощью людей, процессов и технологий. Для любого руководителя бизнеса или топ-менеджера по этому определению в анализе данных важен поиск скрытых закономерностей и получение новых знаний.

Как используют Data Mining в компании Mail.ru?

Цели и задачи анализа данных

Анализ данных — это не просто обработка информации после ее получения и сбора, это средство проверки гипотез. Цель любого анализа данных — понимание исследуемой ситуации целиком (выявление тенденций, в том числе негативных отклонений от плана, прогнозирование и получение рекомендации). Для достижения этой цели ставятся следующие задачи анализа данных:

  • сбор информации,
  • структуризация информации,
  • выявление закономерностей, анализ,
  • прогнозирование и получение рекомендаций.

Задача: анализ большого объема данных

Определение big data для анализа больших данных в бизнесе указывает на наличие четко определенных целей и задач проведения данной процедуры:

В исследовании компании IBS говорится, что уже к 2003 году в мире было накоплено 5 эксабайтов данных (1 ЭБ = 1 млрд гигабайтов), в 2011 году данных было уже 1,76 зеттабайта (1 ЗБ = 1024 эксабайта), а в мае 2015 года мировой объем данных составил более 6,5 ЗБ. По информации из исследования The Data Age 2025, прогнозируется, что к 2025 году будет сформировано более 400 зеттабайтов информации.

Все данные содержат важную информацию, но для разных вопросов. Чтобы из всего массива выделить полезную для конкретного обстоятельства данные, необходима их обработка. При большом объеме данных такой анализ должен происходить не в Excel, а в профессиональной аналитической программе.

Решения для анализа варьируются в зависимости от стоимости внедрения и персонала, который будет задействован для управления ими. Есть решения для крупных корпораций, где не обойтись без больших вложений – как на этапе внедрения, так и позже – на этапе работы решения (основная трата – это специалисты, работающие с ПО). Для небольших, средних и малых компаний есть решения типа Tableau: стоимость их внедрения минимальна (от 2000 руб. в месяц – на начало 2018 года), с ними не требуется специальных знаний – сделать красивый интерактивный отчет сможет любой пользователь с начальными знаниями компьютера.

Цифры о нас

Мы, компания АНАЛИТИКА ПЛЮС, с 2012 года помогаем нашим клиентам работать с данными – находить полезные инсайты и использовать эту информацию для увеличения прибыли компании.

За это время мы разработали и внедрили решения для различных отраслей и направлений бизнеса:

  • анализ продаж,
  • прогнозирование эффективности промо-акций,
  • отслеживание воронки продаж по конкретной кампании с показателями конверсии на каждом этапе,
  • сегментация по различным методам: ABC, RFM и т.д.,
  • ключевые показатели интернет-маркетинга,
  • анализ товара на складах,
  • аналитика для отдела кадров (карточки сотрудников, обучение, анализ KPI и т.д.),
  • анализ финансовых показателей
  • и многое другое.

Хотите узнать, как провести анализ и сделать отчеты быстро?

Источник

Процесс анализа данных

Анализ данных можно описать как процесс, состоящий из нескольких шагов, в которых сырые данные превращаются и обрабатываются с целью создать визуализации и сделать предсказания на основе математической модели.

Анализ данных — это всего лишь последовательность шагов, каждый из которых играет ключевую роль для последующих. Этот процесс похож на цепь последовательных, связанных между собой этапов:

  • Определение проблемы;
  • Извлечение данных;
  • Подготовка данных — очистка данных;
  • Подготовка данных — преобразование данных;
  • Исследование и визуализация данных;
  • Предсказательная модель;
  • Проверка модели, тестирование;
  • Развертывание — визуализация и интерпретация результатов;
  • Развертывание — развертывание решения.

График показывает схематически все этапы анализа данных.

Определение проблемы

Процесс анализа данных начинается задолго до сбора сырых данных. Он начинается с проблемы, которую необходимо сперва определить, а затем и решить.

Определить ее можно только сосредоточившись на изучаемой системе: механизме, приложении или процессе в целом. Исследование может быть предназначено для лучшего понимания функционирования системы, но его лучше спроектировать так, чтобы понять принципы поведения и впоследствии делать предсказания или выбор (осознанный).

Процессы определения и документации результатов научной проблемы или бизнеса нужны для того, чтобы сосредоточить анализ на получении результатов.

На самом деле, всеобъемлющее и исчерпывающее исследование системы — это сложный процесс, и почти всегда нет достаточного количества информации, с которой можно начать. Поэтому определение проблемы и особенно планирование приводят к появлению руководящих принципов, которым необходимо следовать в течение всего проекта.

Когда проблема определена и задокументирована, можно двигаться к этапу планирования проекта анализа данных. Планирование необходимо для понимания того, какие профессионалы и ресурсы понадобятся для выполнения требований проекта максимально эффективно. Таким образом задача — рассмотреть те вопросы в области, которые касаются решения этой проблемы Необходимо найти специалистов с разными интересами и установить ПО, нужное для анализа данных.

Построение хорошей команды — один из ключевых факторов успешного анализа данных.

Также во время фазы планировки выбирается эффективная команда. Такие команды должны быть междисциплинарными, чтобы у них была возможность решать проблемы, рассматривая данные с разных точек зрения.

Извлечение данных

Когда проблема определена, первый шаг для проведения анализа — получение данных. Они должны быть выбраны с одной базовой целью — построение предсказательной модели. Поэтому выбор данных — также важный момент для успешного анализа.

Данные должны максимально отражать реальный мир — то, как система реагирует на него. Например, использовании больших наборов сырых данных, которые были собраны неграмотно, это привести либо к неудаче, либо к неопределенности.

Поэтому недостаточное внимание, уделенное выбору данных или выбор таких, которые не представляют систему, приведет к тому, что модели не будут соответствовать изучаемым системам.

Поиск и извлечение данных часто требует интуиции, границы которой лежат за пределами технических исследований и извлечения данных. Этот процесс также требует понимания природы и формы данных, предоставить которое может только опыт и знания практической области проблемы.

Вне зависимости от количества и качества необходимых данных важный вопрос — использование лучших источников данных.

Если средой изучения выступает лаборатория (техническая или научная), а сгенерированные данные экспериментальные, то источник данных легко определить. В этом случае речь идет исключительно о самих экспериментах.

Но при анализе данных невозможно воспроизводить системы, в которых данные собираются исключительно экспериментальным путем, во всех областях применения. Многие области требуют поиска данных в окружающем мире, часто полагаясь на внешние экспериментальные данные или даже на сбор их с помощью интервью и опросов.

В таких случаях поиск хорошего источника данных, способного предоставить все необходимые данные, — задача не из легких. Часто необходимо получать данные из нескольких источников данных для устранения недостатков, выявления расхождений и с целью сделать данные максимально общими.

Интернет — хорошее место для начала поиска данных. Но большую часть из них не так просто взять. Не все данные хранятся в виде файла или базы данных. Они могут содержаться в файле HTML или другом формате. Тут на помощь приходит техника парсинга. Он позволяет собирать данные с помощью поиска определенных HTML-тегов на страницах. При появлении таких совпадений специальный софт извлекает нужные данные. Когда поиск завершен, у вас есть список данных, которые необходимо проанализировать.

Подготовка данных

Из всех этапов анализа подготовка данных кажется наименее проблемным шагом, но на самом деле требует наибольшего количества ресурсов и времени для завершения. Данные часто собираются из разных источников, каждый из которых может предлагать их в собственном виде или формате. Их нужно подготовить для процесса анализа.

Подготовка данных включает такие процессы:

  • получение,
  • очистка,
  • нормализация,
  • превращение в оптимизированный набор данных.

Обычно это табличная форма, которая идеально подходит для этих методов, что были запланированы на этапе проектировки.

Многие проблемы могут возникнуть при появлении недействительных, двусмысленных или недостающих значений, повторении полей или данных, несоответствующих допустимому интервалу.

Изучение данных/визуализация

Изучение данных — это их анализ в графической или статистической репрезентации с целью поиска моделей или взаимосвязей. Визуализация — лучший инструмент для выделения подобных моделей.

За последние годы визуализация данных развилась так сильно, что стала независимой дисциплиной. Многочисленные технологии используются исключительно для отображения данных, а многие типы отображения работают так, чтобы получать только лучшую информацию из набора данных.

Исследование данных состоит из предварительного изучения, которое необходимо для понимания типа и значения собранной информации. Вместе с информацией, собранной при определении проблемы, такая категоризация определяет, какой метод анализа данных лучше всего подойдет для определения модели.

Эта фаза, в дополнение к изучению графиков, состоит из следующих шагов:

  • Обобщение данных;
  • Группировка данных;
  • Исследование отношений между разными атрибутами;
  • Определение моделей и тенденций;
  • Построение моделей регрессионного анализа;
  • Построение моделей классификации.

Как правило, анализ данных требует обобщения заявлений касательно изучаемых данных.

Обобщение — процесс, при котором количество данных для интерпретации уменьшается без потери важной информации.

Кластерный анализ — метод анализа данных, используемый для поиска групп, объединенных общими атрибутами (также называется группировкой).

Еще один важный этап анализа — идентификация отношений, тенденций и аномалий в данных. Для поиска такой информации часто нужно использовать инструменты и проводить дополнительные этапы анализа, но уже на визуализациях.

Другие методы поиска данных, такие как деревья решений и ассоциативные правила, автоматически извлекают важные факты или правила из данных. Эти подходы используются параллельно с визуализацией для поиска взаимоотношений данных.

Предсказательная (предиктивная) модель

Предсказательная аналитика — это процесс в анализе данных, который нужен для создания или поиска подходящей статистической модели для предсказания вероятности результата.

После изучения данных у вас есть вся необходимая информация для развития математической модели, которая кодирует отношения между данными. Эти модели полезны для понимания изучаемой системы и используются в двух направлениях.

Первое — предсказания о значениях данных, которые создает система. В этом случае речь идет о регрессионных моделях.

Читайте также:  Методы полевых геодезических измерений

Второе — классификация новых продуктов. Это уже модели классификации или модели кластерного анализа. На самом деле, можно разделить модели в соответствии с типом результатов, к которым те приводят:

  • Модели классификации: если полученный результат — качественная переменная.
  • Регрессионные модели: если полученный результат числовой.
  • Кластерные модели: если полученный результат описательный.

Простые методы генерации этих моделей включают такие техники:

  • линейная регрессия,
  • логистическая регрессия,
  • классификация,
  • дерево решений,
  • метод k-ближайших соседей.

Но таких методов много, и у каждого есть свои характеристики, которые делают их подходящими для определенных типов данных и анализа. Каждый из них приводит к появлению определенной модели, а их выбор соответствует природе модели продукта.

Некоторые из методов будут предоставлять значения, относящиеся к реальной системе и их структурам. Они смогут объяснить некоторые характеристики изучаемой системы простым способом. Другие будут делать хорошие предсказания, но их структура будет оставаться «черным ящиком» с ограниченной способностью объяснить характеристики системы.

Проверка модели

Проверка (валидация) модели, то есть фаза тестирования, — это важный этап. Он позволяет проверить модель, построенную на основе начальных данных. Он важен, потому что позволяет узнать достоверность данных, созданных моделью, сравнив их с реальной системой. Но в этот раз вы берете за основу начальные данные, которые использовались для анализа.

Как правило, при использовании данных для построения модели вы будете воспринимать их как тренировочный набор данных (датасет), а для проверки — как валидационный набор данных.

Таким образом сравнивая данные, созданные моделью и созданные системой, вы сможете оценивать ошибки. С помощью разных наборов данных оценивать пределы достоверности созданной модели. Правильно предсказанные значения могут быть достоверны только в определенном диапазоне или иметь разные уровни соответствия в зависимости от диапазона учитываемых значений.

Этот процесс позволяет не только в числовом виде оценивать эффективность модели, но также сравнивать ее с другими. Есть несколько подобных техник; самая известная — перекрестная проверка (кросс-валидация). Она основана на разделении учебного набора на разные части. Каждая из них, в свою очередь, будет использоваться в качестве валидационного набора. Все остальные — как тренировочного. Так вы получите модель, которая постепенно совершенствуется.

Развертывание (деплой)

Это финальный шаг процесса анализа, задача которого — предоставить результаты, то есть выводы анализа. В процессе развертывания бизнес-среды анализ является выгодой, которую получит клиент, заказавший анализ. В технической или научной средах результат выдает конструкционные решения или научные публикации.

Развертывание — это процесс использования на практике результатов анализа данных.

Есть несколько способов развертывания результатов анализа данных или майнинга данных. Обычно развертывание состоит из написания отчета для руководства или клиента. Этот документ концептуально описывает полученные результаты. Он должен быть направлен руководству, которое будет принимать решения. Затем оно использует выводы на практике.

В документации от аналитика должны быть подробно рассмотрены следующие темы:

  • Результаты анализа;
  • Развертывание решения;
  • Анализ рисков;
  • Измерения влияния на бизнес.

Когда результаты проекта включают генерацию предсказательных моделей, они могут быть использованы в качестве отдельных приложений или встроены в ПО.

Появились вопросы? Задайте на Яндекс Кью

У блога есть сообщество на Кью >> Python Q 11 800 5 900 ₽/мес.

Источник

Анализ данных — Data analysis

Анализ данных — это процесс проверки, очистки , преобразования и моделирования данных с целью обнаружения полезной информации, обоснования выводов и поддержки принятия решений. Анализ данных имеет множество аспектов и подходов, охватывающих различные методы под разными названиями, и используется в различных областях бизнеса, науки и социальных наук. В современном деловом мире анализ данных играет важную роль в принятии более научных решений и помогает предприятиям работать более эффективно.

Интеллектуальный анализ данных — это особый метод анализа данных, который фокусируется на статистическом моделировании и обнаружении знаний для прогностических, а не чисто описательных целей, в то время как бизнес-аналитика охватывает анализ данных, который в значительной степени опирается на агрегирование с упором в основном на бизнес-информацию. В статистических приложениях анализ данных можно разделить на описательную статистику , исследовательский анализ данных (EDA) и подтверждающий анализ данных (CDA). EDA фокусируется на обнаружении новых функций в данных, в то время как CDA фокусируется на подтверждении или опровержении существующих гипотез . Прогнозная аналитика фокусируется на применении статистических моделей для прогнозирования или классификации, тогда как текстовая аналитика применяет статистические, лингвистические и структурные методы для извлечения и классификации информации из текстовых источников, разновидностей неструктурированных данных . Все вышеперечисленное — разновидности анализа данных.

Интеграция данных является предшественником анализа данных, а анализ данных тесно связан с визуализацией данных и их распространением.

СОДЕРЖАНИЕ

Процесс анализа данных

Под анализом понимается разделение целого на отдельные компоненты для индивидуального изучения. Анализ данных — это процесс получения необработанных данных и последующего преобразования их в информацию, полезную для принятия решений пользователями. Данные собираются и анализируются, чтобы ответить на вопросы, проверить гипотезы или опровергнуть теории.

Статистик Джон Тьюки определил анализ данных в 1961 году следующим образом:

«Процедуры анализа данных, методы интерпретации результатов таких процедур, способы планирования сбора данных, чтобы сделать их анализ более простым, точным или более точным, а также все механизмы и результаты (математической) статистики, которые применяются для анализа данных . «

Можно выделить несколько этапов, описанных ниже. Этапы являются итеративными , поскольку обратная связь от более поздних этапов может привести к дополнительной работе на более ранних этапах. Рамки CRISP , используемые в горнодобывающей промышленности данных , имеют аналогичные шаги.

Требования к данным

Данные необходимы в качестве входных данных для анализа, который определяется на основе требований тех, кто руководит анализом, или клиентов (которые будут использовать готовый продукт анализа). Общий тип объекта, по которому будут собираться данные, называется экспериментальной единицей (например, человек или совокупность людей). Могут быть указаны и получены конкретные переменные, относящиеся к населению (например, возраст и доход). Данные могут быть числовыми или категориальными (например, текстовая метка для чисел).

Сбор информации

Данные собираются из различных источников. Аналитики могут сообщить о требованиях хранителям данных; например, персонал информационных технологий в организации. Данные также могут быть получены с датчиков в окружающей среде, включая камеры движения, спутники, записывающие устройства и т. Д. Их также можно получить посредством интервью, загрузок из онлайн-источников или чтения документации.

Обработка данных

Данные, когда они изначально получены, должны быть обработаны или организованы для анализа. Например, они могут включать размещение данных в строках и столбцах в формате таблицы ( известном как структурированные данные ) для дальнейшего анализа, часто с использованием электронной таблицы или статистического программного обеспечения.

Очистка данных

После обработки и организации данные могут быть неполными, содержать дубликаты или ошибки. Необходимость очистки данных возникнет из-за проблем, связанных с вводом и хранением данных. Очистка данных — это процесс предотвращения и исправления этих ошибок. Общие задачи включают сопоставление записей, выявление неточностей данных, общее качество существующих данных, дедупликацию и сегментацию столбцов. Такие проблемы с данными также можно выявить с помощью различных аналитических методов. Например, с финансовой информацией, итоговые значения для определенных переменных могут сравниваться с отдельно опубликованными цифрами, которые считаются надежными. Также могут быть рассмотрены необычные суммы, превышающие или ниже заранее определенных пороговых значений. Существует несколько типов очистки данных, которые зависят от типа данных в наборе; это могут быть номера телефонов, адреса электронной почты, работодатели или другие значения. Методы количественных данных для обнаружения выбросов можно использовать, чтобы избавиться от данных, вероятность неправильного ввода которых выше. Средство проверки орфографии текстовых данных может использоваться для уменьшения количества неправильно набранных слов, однако труднее определить, правильны ли сами слова.

Исследовательский анализ данных

После очистки наборов данных их можно проанализировать. Аналитики могут применять различные методы, называемые исследовательским анализом данных , чтобы начать понимать сообщения, содержащиеся в полученных данных. Процесс исследования данных может привести к дополнительной очистке данных или дополнительным запросам данных; таким образом, инициализация итерационных фаз, упомянутых в первом абзаце этого раздела. Описательная статистика , такая как среднее значение или медиана, может быть сгенерирована, чтобы помочь в понимании данных. Визуализация данных — также используемый метод, при котором аналитик может исследовать данные в графическом формате, чтобы получить дополнительную информацию о сообщениях в данных.

Моделирование и алгоритмы

Математические формулы или модели (известные как алгоритмы ) могут применяться к данным для определения взаимосвязей между переменными; например, используя корреляцию или причинно-следственную связь . В общих чертах, модели могут быть разработаны для оценки конкретной переменной на основе другой переменной (переменных), содержащейся в наборе данных, с некоторой остаточной ошибкой, зависящей от точности реализованной модели ( например , Данные = Модель + Ошибка).

Логическая статистика включает использование методов, которые измеряют отношения между конкретными переменными. Например, регрессионный анализ может использоваться для моделирования того , дает ли изменение в рекламе ( независимая переменная X ) объяснение изменения продаж ( зависимая переменная Y ). С математической точки зрения Y (продажи) является функцией X (рекламы). Это может быть описано как ( Y = аХ + Ь + ошибку), где модель разработана таким образом, что ( ) и ( б ) свести к минимуму ошибки , когда модель предсказывает Y для заданного диапазона значений X . Аналитики также могут попытаться построить модели, описывающие данные, с целью упрощения анализа и передачи результатов.

Информационный продукт

Продукт данных , представляет собой компьютер приложение , которое принимает входные данные и генерирует выходные сигналы , подавая их обратно в окружающую среду. Он может быть основан на модели или алгоритме. Например, приложение, которое анализирует данные об истории покупок клиента и использует результаты, чтобы рекомендовать другие покупки, которые могут понравиться покупателю.

Коммуникация

Как только данные проанализированы, они могут быть представлены во многих форматах пользователям анализа для поддержки их требований. Пользователи могут оставлять отзывы, по результатам которых проводится дополнительный анализ. Таким образом, большая часть аналитического цикла является итеративной.

При определении того, как передать результаты, аналитик может рассмотреть возможность применения различных методов визуализации данных, чтобы помочь ясно и эффективно донести сообщение до аудитории. Визуализация данных использует информационные дисплеи (графики, такие как таблицы и диаграммы), чтобы помочь передать ключевые сообщения, содержащиеся в данных. Таблицы — ценный инструмент, позволяющий пользователю запрашивать и сосредотачиваться на определенных числах; а диаграммы (например, гистограммы или линейные диаграммы) могут помочь объяснить количественные сообщения, содержащиеся в данных.

Количественные сообщения

Стивен Фью описал восемь типов количественных сообщений, которые пользователи могут попытаться понять или передать на основе набора данных и связанных графиков, используемых для передачи сообщения. Заказчики, определяющие требования, и аналитики, выполняющие анализ данных, могут рассматривать эти сообщения в ходе процесса.

  1. Временной ряд: одна переменная фиксируется за период времени, например, уровень безработицы за 10-летний период. Для демонстрации тренда можно использовать линейный график .
  2. Ранжирование: категориальные подразделения ранжируются в порядке возрастания или убывания, например, рейтинг эффективности продаж ( показатель ) по продавцам ( категория , где каждый продавец является категориальным подразделением ) в течение одного периода. Гистограмма может быть использована , чтобы показать сравнение поперек продавцов.
  3. От части к целому: категориальные подразделения измеряются как отношение к целому (т. Е. Процент от 100%). Круговая диаграмма или гистограмма может показать сравнение коэффициентов, таких как доля рынка в лице конкурентов на рынке.
  4. Отклонение: категориальные подразделения сравниваются с эталоном, например, сравнение фактических и бюджетных расходов для нескольких отделов бизнеса за определенный период времени. Гистограмма может показать сравнение фактической суммы с контрольной.
  5. Частотное распределение: показывает количество наблюдений за определенной переменной для заданного интервала, например количество лет, в течение которых доходность фондового рынка находится между такими интервалами, как 0–10%, 11–20% и т. Д. Гистограмма , тип гистограммы, может использоваться для этого анализа.
  6. Корреляция: сравнение между наблюдениями, представленными двумя переменными (X, Y), чтобы определить, имеют ли они тенденцию двигаться в одном или противоположных направлениях. Например, построение графика безработицы (X) и инфляции (Y) для выборки месяцев. Для этого сообщения обычно используется диаграмма рассеяния .
  7. Номинальное сравнение: сравнение категорийных подразделений без определенного порядка, например, объем продаж по коду продукта. Для этого сравнения можно использовать гистограмму.
  8. Географические или геопространственные: сравнение переменных на карте или макете, например, уровень безработицы по штатам или количество людей на разных этажах здания. Картограмма представляет собой типичный графический используется.
Читайте также:  Погрешность измерения при вычислении объема

Методы анализа количественных данных

Автор Джонатан Кумей рекомендовал ряд лучших практик для понимания количественных данных. К ним относятся:

  • Перед выполнением анализа проверьте необработанные данные на наличие аномалий;
  • Повторно выполните важные вычисления, такие как проверка столбцов данных, которые управляются формулами;
  • Подтвердите, что основные итоги являются суммой промежуточных итогов;
  • Проверьте отношения между числами, которые должны быть связаны предсказуемым образом, например отношения во времени;
  • Нормализовать числа, чтобы упростить сравнения, например, анализировать суммы на человека или относительно ВВП или в качестве значения индекса относительно базового года;
  • Разбивайте проблемы на составные части, анализируя факторы, которые привели к результатам, например, анализ DuPont рентабельности собственного капитала.

Для исследуемых переменных аналитики обычно получают для них описательную статистику , такую ​​как среднее (среднее), медиана и стандартное отклонение . Они также могут анализировать распределение ключевых переменных, чтобы увидеть, как отдельные значения группируются вокруг среднего.

Консультанты McKinsey and Company назвали метод разделения количественной задачи на составные части, названный принципом MECE . Каждый слой можно разбить на составляющие; каждый из подкомпонентов должен быть взаимоисключающим друг друга и вместе составлять слой над ними. Отношения называются «взаимоисключающими и коллективно исчерпывающими» или MECE. Например, прибыль по определению можно разделить на общий доход и общие затраты. В свою очередь, общий доход может быть проанализирован по его компонентам, таким как доход подразделений A, B и C (которые исключают друг друга), и должен добавляться к общему доходу (в совокупности исчерпывающий).

Аналитики могут использовать надежные статистические измерения для решения определенных аналитических задач. Проверка гипотез используется, когда аналитик выдвигает определенную гипотезу об истинном положении дел и собирает данные, чтобы определить, является ли это положение дел истинным или ложным. Например, гипотеза может заключаться в том, что «Безработица не влияет на инфляцию», что относится к экономической концепции, называемой кривой Филлипса . Проверка гипотез включает рассмотрение вероятности ошибок типа I и типа II , которые связаны с тем, поддерживают ли данные принятие или отклонение гипотезы.

Регрессионный анализ может использоваться, когда аналитик пытается определить степень, в которой независимая переменная X влияет на зависимую переменную Y (например, «В какой степени изменения уровня безработицы (X) влияют на уровень инфляции (Y)?»). Это попытка смоделировать или подогнать линию или кривую уравнения к данным, так что Y является функцией X.

Анализ необходимых условий (NCA) может использоваться, когда аналитик пытается определить, в какой степени независимая переменная X допускает переменную Y (например, «В какой степени определенный уровень безработицы (X) необходим для определенного уровня инфляции (Y)» ? «). В то время как (множественный) регрессионный анализ использует аддитивную логику, где каждая переменная X может давать результат, а переменные X могут компенсировать друг друга (они достаточны, но не необходимы), анализ необходимых условий (NCA) использует логику необходимости, где один или несколько X -Переменные позволяют результату существовать, но могут не производить его (они необходимы, но недостаточны). Должны быть выполнены все необходимые условия, компенсация невозможна.

Аналитическая деятельность пользователей данных

Пользователи могут иметь определенные точки интереса в наборе данных, в отличие от общего обмена сообщениями, описанного выше. Такая низкоуровневая аналитическая деятельность пользователей представлена ​​в следующей таблице. Таксономия также может быть организована по трем направлениям деятельности: получение значений, поиск точек данных и упорядочение точек данных.

# Задача Общее
описание
Pro Forma
Abstract
Примеры
1 Получить значение Учитывая набор конкретных случаев, найдите атрибуты этих случаев. Каковы значения атрибутов в случаях данных ? — Какой пробег на галлон у Ford Mondeo?

— Как долго длится фильм «Унесенные ветром»?

2 Фильтр Учитывая некоторые конкретные условия для значений атрибутов, найдите варианты данных, удовлетворяющие этим условиям. Какие варианты данных удовлетворяют условиям ? — Какие злаки Kellogg имеют высокое содержание клетчатки?

— Какие комедии отмечены наградами?

— Какие фонды уступили SP-500?

3 Вычислить производное значение Учитывая набор вариантов данных, вычислите агрегированное числовое представление этих вариантов данных. Каково значение функции агрегирования F для данного набора S случаев данных? — Какая в среднем калорийность хлопьев Post?

— Каков валовой доход всех магазинов вместе взятых?

— Сколько сейчас производителей автомобилей?

4 Найдите экстремум Найдите в наборе данных кейсы с экстремальным значением атрибута в его диапазоне. Каковы верхние / нижние N случаев данных по отношению к атрибуту A? — Какая машина с максимальным расходом топлива?

— Какой режиссер / фильм получил больше всего наград?

— У какого фильма Marvel Studios самая последняя дата выхода?

5 Сортировать Учитывая набор вариантов данных, ранжируйте их в соответствии с некоторой порядковой метрикой. Каков порядок сортировки набора S наблюдений данных в соответствии с их значением атрибута A? — Заказ автомобилей по весу.

— Оцените крупы по калорийности.

6 Определить диапазон Учитывая набор вариантов данных и интересующий атрибут, найдите диапазон значений в наборе. Каков диапазон значений атрибута A в наборе S кейсов данных? — Какой диапазон длин фильмов?

— Какая у машины мощность в лошадиных силах?

— Какие актрисы есть в наборе данных?

7 Охарактеризуйте распространение Учитывая набор случаев данных и интересующий количественный атрибут, охарактеризуйте распределение значений этого атрибута по набору. Каково распределение значений атрибута A в наборе S случаев данных? — Каково распределение углеводов в злаках?

— Каков возрастной состав покупателей?

8 Найдите аномалии Идентифицируйте любые аномалии в данном наборе случаев данных относительно данной взаимосвязи или ожидания, например, статистические выбросы. Какие кейсы данных в наборе S кейсов данных имеют неожиданные / исключительные значения? — Есть ли исключения в соотношении мощности и ускорения?

— Есть ли выбросы в белке?

9 Кластер По заданному набору случаев данных найдите кластеры с похожими значениями атрибутов. Какие варианты данных в наборе S наборов данных аналогичны по значению для атрибутов ? — Существуют ли группы злаков с одинаковым содержанием жира / калорий / сахара?

— Есть ли кластер типичной длины пленки?

10 Соотносить Учитывая набор вариантов данных и два атрибута, определите полезные отношения между значениями этих атрибутов. Какова корреляция между атрибутами X и Y для данного набора S случаев данных? — Есть ли корреляция между углеводами и жирами?

— Есть ли корреляция между страной происхождения и MPG?

— Есть ли у разных полов предпочтительный способ оплаты?

— Есть ли тенденция увеличения продолжительности фильмов с годами?

11 Контекстуализация Учитывая набор кейсов данных, найдите контекстную релевантность данных для пользователей. Какие кейсы данных в наборе S кейсов данных релевантны контексту текущего пользователя? — Существуют ли группы ресторанов, в которых есть продукты, основанные на моем текущем потреблении калорий?

Препятствия на пути к эффективному анализу

Препятствия на пути к эффективному анализу могут существовать среди аналитиков, выполняющих анализ данных, или среди аудитории. Отличить факты от мнения, когнитивные предубеждения и неумелость — все это проблемы для надежного анализа данных.

Сбивающие с толку факт и мнение

Эффективный анализ требует получения соответствующих фактов, чтобы ответить на вопросы, поддержать вывод или официальное мнение или проверить гипотезы . Факты по определению неопровержимы, а это означает, что любой человек, участвующий в анализе, должен иметь возможность согласиться с ними. Например, в августе 2010 года Бюджетное управление Конгресса (CBO) подсчитало, что продление налоговых сокращений Буша 2001 и 2003 годов на период 2011–2020 годов добавит к государственному долгу примерно 3,3 триллиона долларов. Каждый должен быть в состоянии согласиться с тем, что на самом деле это то, что сообщила CBO; они все могут изучить отчет. Это факт. Согласны или не согласны люди с CBO — их собственное мнение.

Другой пример: аудитор публичной компании должен прийти к официальному заключению о том, является ли финансовая отчетность публично торгуемых корпораций «достоверной во всех существенных отношениях». Это требует обширного анализа фактических данных и доказательств, подтверждающих их мнение. При переходе от фактов к мнениям всегда существует вероятность того, что мнение ошибочно .

Когнитивные предубеждения

Существует множество когнитивных искажений, которые могут отрицательно повлиять на анализ. Например, предвзятость подтверждения — это тенденция искать или интерпретировать информацию таким образом, чтобы подтвердить свои предубеждения. Кроме того, люди могут дискредитировать информацию, не подтверждающую их взгляды.

Аналитики могут быть специально обучены тому, чтобы знать об этих предубеждениях и способах их преодоления. В своей книге « Психология анализа интеллекта» бывший аналитик ЦРУ Ричардс Хойер написал, что аналитикам следует четко очерчивать свои предположения и цепочки умозаключений и указывать степень и источник неопределенности, связанной с выводами. Он сделал упор на процедуры, помогающие выявить и обсудить альтернативные точки зрения.

Безграмотность

Эффективные аналитики, как правило, владеют множеством численных методов. Однако аудитория может не обладать такой грамотностью с числами или счетом ; их называют бесчисленными. Лица, передающие данные, также могут пытаться ввести в заблуждение или дезинформировать, умышленно используя плохие числовые методы.

Например, рост или падение числа не может быть ключевым фактором. Более важным может быть число относительно другого числа, например, размер государственных доходов или расходов относительно размера экономики (ВВП) или сумма затрат относительно доходов в корпоративной финансовой отчетности. Этот численный метод называется нормализацией или стандартным размером. Аналитики используют множество таких методов, будь то поправка на инфляцию (т.е. сравнение реальных и номинальных данных) или с учетом прироста населения, демографии и т. Д. Аналитики применяют различные методы для решения различных количественных сообщений, описанных в разделе выше.

Аналитики также могут анализировать данные при различных предположениях или сценариях. Например, когда аналитики проводят анализ финансовой отчетности , они часто изменяют финансовую отчетность с учетом различных допущений, чтобы помочь прийти к оценке будущего денежного потока, которую они затем дисконтируют до приведенной стоимости на основе некоторой процентной ставки, чтобы определить оценку компания или ее акции. Точно так же CBO анализирует влияние различных вариантов политики на государственные доходы, расходы и дефицит, создавая альтернативные сценарии будущего для ключевых мер.

Другие темы

Умные здания

Подход с аналитикой данных можно использовать для прогнозирования энергопотребления в зданиях. Различные этапы процесса анализа данных выполняются для реализации интеллектуальных зданий, где операции по управлению и контролю здания, включая отопление, вентиляцию, кондиционирование, освещение и безопасность, выполняются автоматически, имитируя потребности пользователей здания и оптимизируя ресурсы. как энергия и время.

Аналитика и бизнес-аналитика

Аналитика — это «широкое использование данных, статистического и количественного анализа, объяснительных и прогнозных моделей и управления на основе фактов для принятия решений и действий». Это подмножество бизнес-аналитики , которая представляет собой набор технологий и процессов, использующих данные для понимания и анализа эффективности бизнеса.

Образование

В сфере образования большинство преподавателей имеют доступ к системе данных для анализа данных об учащихся. Эти системы данных представляют данные преподавателям в формате данных, отпускаемых без рецепта (встраивание этикеток, дополнительная документация и справочная система, а также принятие ключевых решений по упаковке / отображению и содержанию) для повышения точности анализа данных преподавателями.

Заметки для практикующих

Этот раздел содержит довольно технические объяснения, которые могут помочь практикам, но выходят за рамки типичной статьи в Википедии.

Анализ исходных данных

Наиболее важное различие между этапом анализа исходных данных и этапом основного анализа заключается в том, что во время анализа исходных данных человек воздерживается от любого анализа, который направлен на ответ на исходный вопрос исследования. На этапе анализа исходных данных мы руководствуемся следующими четырьмя вопросами:

Качество данных

Качество данных следует проверять как можно раньше. Качество данных можно оценить несколькими способами с использованием различных типов анализа: подсчет частоты, описательная статистика (среднее значение, стандартное отклонение, медиана), нормальность (асимметрия, эксцесс, частотные гистограммы), требуется нормальное вменение .

  • Анализ экстремальных наблюдений : отдельные наблюдения в данных анализируются, чтобы увидеть, не нарушают ли они распределение.
  • Сравнение и исправление различий в схемах кодирования: переменные сравниваются со схемами кодирования переменных, внешних по отношению к набору данных, и, возможно, исправляются, если схемы кодирования не сопоставимы.
  • Тест на дисперсию общепринятого метода .

Выбор анализов для оценки качества данных на этапе первоначального анализа данных зависит от анализа, который будет проводиться на этапе основного анализа.

Качество измерений

Качество измерительных инструментов следует проверять только на этапе анализа исходных данных, когда это не является предметом внимания или исследовательским вопросом исследования. Следует проверить, соответствует ли структура средств измерений структуре, указанной в литературе.

Есть два способа оценить качество измерения:

  • Подтверждающий факторный анализ
  • Анализ однородности ( внутренней согласованности ), который дает представление о надежности измерительного прибора. Во время этого анализа проверяются отклонения элементов и шкал, α Кронбаха шкал и изменение альфы Кронбаха, когда элемент будет удален из шкалы.

Начальные преобразования

После оценки качества данных и измерений можно принять решение о вменении недостающих данных или о выполнении начальных преобразований одной или нескольких переменных, хотя это также можно сделать на этапе основного анализа.
Возможные преобразования переменных:

  • Преобразование квадратного корня (если распределение умеренно отличается от нормального)
  • Лог-преобразование (если распределение существенно отличается от нормального)
  • Обратное преобразование (если распределение сильно отличается от нормального)
  • Сделать категориальным (порядковым / дихотомическим) (если распределение сильно отличается от нормального и никакие преобразования не помогают)

Выполнение исследования соответствовало намерениям дизайна исследования?

Следует проверить успешность процедуры рандомизации , например, проверив, одинаково ли распределены фоновые и основные переменные внутри и между группами.
Если в исследовании не требовалось или не использовалась процедура рандомизации, следует проверить успешность неслучайной выборки, например, проверив, все ли подгруппы представляющей интерес совокупности представлены в выборке.
Другие возможные искажения данных, которые следует проверить:

  • отсев (это должно быть выявлено на этапе анализа исходных данных)
  • Пункт неполучение (следует ли это случайное или не может быть оценен на начальном этапе анализа данных)
  • Качество лечения (с помощью манипуляционных проверок ).

Характеристики выборки данных

В любом отчете или статье должна быть точно описана структура выборки. Особенно важно точно определить структуру выборки (и, в частности, размер подгрупп), когда анализ подгрупп будет выполняться на этапе основного анализа.
Характеристики выборки данных можно оценить, посмотрев на:

  • Базовая статистика важных переменных
  • Диаграммы разброса
  • Корреляции и ассоциации
  • Перекрестные таблицы

Завершающий этап анализа исходных данных

На заключительном этапе результаты анализа исходных данных документируются, и принимаются необходимые, предпочтительные и возможные корректирующие действия.
Кроме того, исходный план анализа основных данных можно и нужно уточнить или переписать.
Для этого можно и нужно принять несколько решений по анализу основных данных:

  • В случае ненормальных : следует преобразовывать переменные; сделать переменные категориальными (порядковыми / дихотомическими); адаптировать метод анализа?
  • В случае отсутствия данных : следует пренебречь или вменять недостающие данные; какой метод вменения следует использовать?
  • В случае выбросов : следует ли использовать надежные методы анализа?
  • В случае, если элементы не соответствуют масштабу: следует ли адаптировать измерительный инструмент, исключив элементы, или, скорее, обеспечить сопоставимость с другими (видами использования) измерительным инструментом (ами)?
  • В случае (слишком) малых подгрупп: следует ли отказаться от гипотезы о межгрупповых различиях или использовать методы малых выборок, такие как точные тесты или бутстреппинг ?
  • В случае, если процедура рандомизации кажется несовершенной: можно и нужно ли рассчитывать оценки склонности и включать их в качестве ковариат в основной анализ?

Анализ

На этапе анализа исходных данных можно использовать несколько анализов:

  • Одномерная статистика (одна переменная)
  • Двумерные ассоциации (корреляции)
  • Графические методы (точечные диаграммы)

При анализе важно учитывать уровни измерения переменных, поскольку для каждого уровня доступны специальные статистические методы:

  • Номинальные и порядковые переменные
    • Подсчет частоты (числа и проценты)
    • Ассоциации
      • обходы (перекрестные таблицы)
      • иерархический логлинейный анализ (максимум 8 переменных)
      • логлинейный анализ (для выявления релевантных / важных переменных и возможных искажающих факторов)
    • Точные тесты или начальная загрузка (в случае небольших подгрупп)
    • Вычисление новых переменных
  • Непрерывные переменные
    • Распределение
      • Статистика (M, SD, дисперсия, асимметрия, эксцесс)
      • Стволовые и листовые дисплеи
      • Коробчатые диаграммы

Нелинейный анализ

Нелинейный анализ часто необходим, когда данные записываются из нелинейной системы . Нелинейные системы могут проявлять сложные динамические эффекты, включая бифуркации , хаос , гармоники и субгармоники, которые невозможно проанализировать с помощью простых линейных методов. Нелинейный анализ данных тесно связан с идентификацией нелинейных систем .

Анализ основных данных

На этапе основного анализа выполняются анализы, направленные на ответ на вопрос исследования, а также любой другой соответствующий анализ, необходимый для написания первого проекта отчета об исследовании.

Исследовательский и подтверждающий подходы

На этапе основного анализа может быть использован исследовательский или подтверждающий подход. Обычно подход определяется до сбора данных. В исследовательском анализе перед анализом данных не формулируется четкая гипотеза, и в данных проводится поиск моделей, которые хорошо описывают данные. В подтверждающем анализе проверяются четкие гипотезы о данных.

Исследовательский анализ данных следует интерпретировать осторожно. При одновременном тестировании нескольких моделей высока вероятность того, что хотя бы одна из них будет значимой, но это может быть связано с ошибкой 1-го типа . Важно всегда корректировать уровень значимости при тестировании нескольких моделей, например, с поправкой Бонферрони . Кроме того, после исследовательского анализа не следует проводить подтверждающий анализ в том же наборе данных. Исследовательский анализ используется для поиска идей для теории, но не для проверки этой теории. Если в наборе данных обнаруживается исследовательская модель, то последующий анализ с подтверждающим анализом в том же наборе данных может просто означать, что результаты подтверждающего анализа связаны с той же ошибкой 1-го типа, которая привела к исследовательской модели в первом наборе данных. место. Таким образом, подтверждающий анализ не будет более информативным, чем исходный исследовательский анализ.

Стабильность результатов

Важно получить некоторое представление о том, насколько обобщаемы результаты. Хотя это часто бывает трудно проверить, можно посмотреть на стабильность результатов. Являются ли результаты надежными и воспроизводимыми? Это можно сделать двумя основными способами.

  • Перекрестная проверка . Разделив данные на несколько частей, мы можем проверить, распространяется ли анализ (например, подобранная модель), основанный на одной части данных, на другую часть данных. Однако перекрестная проверка обычно неуместна, если есть корреляции в данных, например, с панельными данными . Следовательно, иногда необходимо использовать другие методы проверки. Для получения дополнительной информации по этой теме см. Проверка статистической модели .
  • Анализ чувствительности . Процедура для изучения поведения системы или модели при (систематическом) изменении глобальных параметров. Один из способов сделать это — использовать самозагрузку .

Бесплатное программное обеспечение для анализа данных

Среди известных бесплатных программ для анализа данных:

  • DevInfo — система баз данных, одобренная Группой развития Организации Объединенных Наций для мониторинга и анализа человеческого развития.
  • ELKI — фреймворк интеллектуального анализа данных на Java с функциями визуализации, ориентированными на интеллектуальный анализ данных.
  • KNIME — Konstanz Information Miner, удобный и комплексный фреймворк для анализа данных.
  • Orange — инструмент визуального программирования с интерактивной визуализацией данных и методами статистического анализа данных, интеллектуального анализа данных и машинного обучения .
  • Pandas — библиотека Python для анализа данных.
  • PAW — Фреймворк для анализа данных FORTRAN / C, разработанный в ЦЕРНе .
  • R — язык программирования и программная среда для статистических вычислений и графики.
  • ROOT — фреймворк для анализа данных C ++, разработанный в CERN .
  • SciPy — библиотека Python для анализа данных.
  • Джулия — язык программирования, хорошо подходящий для численного анализа и вычислений.

Международные конкурсы по анализу данных

Различные компании или организации проводят конкурсы по анализу данных, чтобы побудить исследователей использовать свои данные или решить конкретный вопрос с помощью анализа данных. Вот несколько примеров хорошо известных международных конкурсов по анализу данных.

Источник