...

Основы анализа данных: методы и инструменты

Введение в анализ данных

В мире, который столь сильно сосредоточен на информационных технологиях, огромные объемы информации и данных производятся и сохраняются каждый день.

Часто их источником являются системы автоматического обнаружения, сенсоры и инструменты ученых. Как вариант — вы создаете их самостоятельно, даже не осознавая: снимаете деньги с банковского счета, осуществляете покупку, делаете запись в блоге или социальной сети.

Но что такое данные?

Данные — это не информация, по крайне мере, по меркам их формы. В бесформенном потоке байтов на первый взгляд сложно понять их суть вне чисел, слов или времени, которое они представляют.

Информация — это результат обработки с учетом определенного набора данных.

Она предлагает определенные выводы, которые затем разными способами могут быть использованы. Этот процесс извлечения информации из сырых данных и называется анализом данных.

Цель анализа данных — извлекать информацию, которую не просто истолковать, но которая, если ее понять, поможет проводить исследования. Такие исследования в свою очередь дадут возможность понять системы, ответственные за создание данных и в будущем делать прогнозы относительно работы систем и их развития.

Будучи изначально простым методичным подходом к защите данных, анализ данных превратился в полноценную дисциплину, которая привела к появлению сложных методологий и полноценных моделей.

фотоМодели

Модель — это перевод изучаемой системы в математическую форму.

Когда есть математическая или логическая форма, которая может описывать реакции системы на разные уровни давления, появляется возможность делать предсказания о ее развитии или ответах на определенные вводные данные. Поэтому цель анализа данных — это не модель, а качество силы предсказания.

Сила предсказания модели зависит не только от качества техник создания моделей, но и от возможности выбрать хороший набор данных, на основе которого и будет построен процесс анализа.

Так, поиск данных, их извлечение и последующая обработка, которые являются подготовительными этапами анализа, также относятся к дисциплине. Причина тому — влияние результатов этих процессов на конечный результат.

Визуализация данных

Пока что речь шла только о данных, работе с ними и обработке с помощью математических операций. Параллельно этим этапам анализа данных развивались различные способы визуализации данных.

Чтобы понять данные — конкретно и то, какую роль они играют в общей картине — нет лучшего способа, чем разработка графического представления.

Такая репрезентация способна превращать информацию, иногда неявно скрытую, в схемы, которые помогают проще ее понять. В течение лет было разработано множество моделей отображения. Они получили название графиков.

Проверка модели

В конце процесса анализа данных у вас есть модель и набор графиков. На их основе можно делать прогнозы изучаемой системы, а после этого переходить к тестовой фазе. Модель будет проверена с помощью другого набора данных, для которого есть правильные ответы.

Эти данные не будут использованы для предсказательной модели. В зависимости от возможности модели повторять реальные ответы, у вас будут расчеты ошибок. Также знание о действительности модели и ее рабочих пределах.

Эти результаты можно сравнить с любыми другими моделями, чтобы понять, являются ли новые более эффективными.

Внедрение результатов анализа

После оценки нужно переходить к последней фазе анализа данных — развертыванию. Этот этап включает внедрение результатов анализа — фактически использованию решений, принятых на основе предсказаний модели и связанных рисков.

Анализ данных отлично вписывается в разные виды профессиональной деятельности. Поэтому знание этой дисциплины и умение использовать ее на практике является очень полезным. Она позволяет проверять гипотезы и лучше понимать анализируемые системы.

Источник

Предмет, методы, инструменты и сферы применения анализа данных (учебник).

Статистические исследования, связанные с обсчетом многомерной системы данных наблюдений, имеющей множество параметров. А.д. классифицируется:
1. Описанием одних параметров через другие и составлением новых параметров.
2. Языком представления информации по количественному анализу.
3. Качественным анализом.

АНАЛИЗ ДАННЫХ1. Совокупность действий, осуществляемых исследователем в процессе изучения полученных тем или иным образом данных с целью формирования определенных представлений о характере явления, описываемого этими данными. Исследователь пытается данные свернуть, сократить их количество, стремясь потерять при этом как можно меньше полезной информации, потенциально в них заложенной. Делается это обычно с помощью математических методов.
2. Процесс изучения статистических данных (поиска закономерностей статистических , закономерностей в среднем) с помощью математических методов, не предполагающих вероятностной модели изучаемого явления. Противостоит вероятностно-статистическому подходу к обработке данных, опирающемуся на их вероятностную интерпретацию (как случайной выборки из генеральной совокупности) и использование вероятностных моделей для построения и выбора наилучших методов обработки. Получаемые с помощью вероятностно-статистического подхода выводы опираются на строго доказанные математические положения. В частности, этот подход обеспечивает корректный перенос результатов с выборки на генеральную совокупность (оценивание статистическое и проверка статистических гипотез). В методах а.д. подобные возможности не заложены. Эти методы не удовлетворяют строгим математическим требованиям. Выбор наилучшего метода здесь почти всегда опирается на неформализуемые эвристические соображения. Поэтому проблема обоснования получаемых выводов здесь требует особого внимания. Особенно острой становится необходимость выделения точек соприкосновения содержания задачи и математического формализма (см. Адекватность математического метода, п.1), реализации человекомашинного диалога в процессе применения метода.
К методам а.д. относят и вероятностно-статистические методы в тех случаях, когда не удается проверить адекватность реальности предполагаемой методом вероятностной модели.
Выделение методов а.д. обусловлено потребностями ряда наук (в том числе социологии), в которых, с одной стороны, велика потребность поиска статистических закономерностей, а, с другой, — предположения, лежащие в основе вероятностно-статистических методов, разработанных специально для решения таких задач, часто не выполняются.
Существует мнение, что поскольку методы а.д. с точки зрения строгой математики не являются достаточно обоснованными, то имеет смысл использовать их лишь на предварительном этапе анализа для уточнении представлений исследователя об изучаемом явлении, корректировки понятийного аппарата, формулировки гипотез и т.д. Однако методы а.д. могут служить и средством получения фундаментального знания, выявления неизвестных ранее закономерностей, если перейти на новый уровень понимания самого математического формализма: считать, что адекватным решаемой задаче является не отдельный метод, а совокупность методов, применяемых в соответствии с определенными методологическими принципами (см. п.4).
3. Отождествляется с понятием прикладной статистики, понимаемой как научная дисциплина, разрабатывающая и систематизирующая понятия, приемы, математические методы и модели, предназначенные для организации сбора, стандартной записи, систематизации и обработки статистических данных с целью их удобного представления, интерпретации и получения научных и практических выводов.
4. Процедуры поиска статистических закономерностей (свертки информации), не сводящиеся к применению формальных алгоритмов. В основе лежит комплексное использование математико-статистических методов и методов а.д. в смысле п.2 с опорой на несколько методологических принципов. Первый принцип вариация предпосылок, лежащих в основе выбираемых методов (любой метод опирается на определенную модель изучаемого явления, т.е. определенную систему предпосылок и постулатов): изменение таких предпосылок, рассмотрение последствий этого изменения, сравнение использования разных предпосылок и т.д. Актуальность реализации этого принципа объясняется тем, что для большинства методов проверка состоятельности заложенных в них моделей в социологических задачах является весьма проблематичной.
Второй принцип системный подход. В процессе а.д. изыскиваются различные приемы для наиболее полного использования и эндогенной информации (т.е. данных, описывающих изучаемый объект), и экзогенной (т.е. данных, описывающих среду обитания объекта). Системный подход предъявляет к исследователю повышенные требования, поскольку носит принципиально междисциплинарный характер.
Третий принцип отказ от той точки зрения, что любое исследование имеет начало и конец. А.д. способ существования данных. Готовность к постоянному возврату к одним и тем же данным. В непрерывном процессе а.д. предусматриваются разрывы, позволяющие извлекать накопленную информацию и принимать решения, связанные с управлением обработкой данных, с выбором дальнейших шагов а.д. Формальные операции перемежаются с неформальными процедурами принятия решения. С появлением новых данных возникают новые идеи, подходы, методы, уточняется понимание происходящих процессов и т.д. В социологии реализация этого принципа актуальна, т.к. социолог обычно не имеет той априорной модели изучаемого явления, которая является необходимой и для выбора формального аппарата анализа данных и вообще для проведения исследования, начиная с формулировки гипотез и разработки способа сбора данных.

Механизм анализа данных и прогнозирования — это один из механизмов формирования экономической и аналитической отчетности. Он предоставляет пользователям (экономистам, аналитикам и т.д.) возможность осуществлять поиск неочевидных закономерностей в данных, накопленных в информационной базе. Этот механизм позволяет:

  • осуществлять поиск закономерностей в исходных данных информационной базы;
  • управлять параметрами выполняемого анализа как программно, так и интерактивно;
  • осуществлять программный доступ к результату анализа;
  • автоматически выводить результат анализа в табличный документ;
  • создавать модели прогноза, позволяющие автоматически прогнозировать последующие события или значения неких характеристик новых объектов.

Механизм анализа данных представляет собой набор взаимодействующих друг с другом объектов встроенного языка, что позволяет разработчику использовать его составные части в произвольной комбинации в любом прикладном решении. Встроенные объекты позволяют легко организовать интерактивную настройку параметров анализа пользователем, а также позволяют выводить результат анализа в удобной для отображения форме в табличный документ.

Механизм позволяет работать как с данными, полученными из информационной базы, так и с данными, полученными из внешнего источника, предварительно загруженными в таблицу значений или табличный документ:

Поможем написать любую работу на аналогичную тему

  • Реферат Предмет, методы, инструменты и сферы применения анализа данных (учебник). От 250 руб
  • Контрольная работа Предмет, методы, инструменты и сферы применения анализа данных (учебник). От 250 руб
  • Курсовая работа Предмет, методы, инструменты и сферы применения анализа данных (учебник). От 700 руб

Источник

Оцените статью