Тема: Технология Data Mining
1. Почему
растет популярность Data Mining?
3. Области применения Data Mining
3.5. Другие
приложения в бизнесе
3.8. Молекулярная
генетика и генная инженерия
3.10. Управление
производством
6. Десять мифов интеллектуального
анализа данных
7. Шесть шагов к успеху в
интеллектуальном анализе данных
8. Инструментарий технологии Data Mining
Мы живем в веке информации. В связи с совершенствованием технологий записи и хранения данных на людей обрушились колоссальные потоки информации в самых различных областях. Трудно переоценить значение данных, которые мы непрерывно собираем в процессе нашей деятельности, в управлении бизнесом или производством, в банковском деле, в решении научных, инженерных и медицинских задач.
Деятельность любого предприятия (коммерческого, производственного, медицинского, научного и т.д.) теперь сопровождается регистрацией и записью всех подробностей его деятельности. Мощные компьютерные системы, хранящие и управляющие огромными базами данных, стали неотъемлемым атрибутом жизнедеятельности, как крупных корпораций, так и даже небольших компаний.
Без продуктивной переработки потоки сырых данных образуют никому не нужную свалку. Наличие данных само по себе еще недостаточно для улучшения показателей работы. Нужно уметь трансформировать "сырые" данные в полезную для принятия важных бизнес решений информацию. В этом и состоит основное предназначение технологий Data Mining.
Необходимость автоматизированного интеллектуального анализа данных стала очевидной в первую очередь из-за огромных массивов исторической и вновь собираемой информации. Трудно даже приблизительно оценить объем ежедневных данных, накапливаемых различными компаниями, государственными, научными и медицинскими организациями. По мнению исследовательского центра компании GTE только научные институты собирают ежедневно около терабайта новых данных! А ведь академический мир далеко не самый главный поставщик информации. Человеческий ум, даже такой тренированный, как ум профессионального аналитика, просто не в состоянии своевременно анализировать столь огромные информационные потоки.
Другой причиной роста популярности Data Mining является объективность получаемых результатов. Человеку-аналитику, в отличие от машины, всегда присущ субъективизм, он в той или иной степени является заложником уже сложившихся представлений. Иногда это полезно, но чаще приносит большой вред.
И, наконец, Data Mining дешевле. Оказывается, что выгоднее инвестировать деньги в решения Data Mining, чем постоянно содержать целую армию высоко подготовленных и дорогих профессиональных статистиков. Data Mining вовсе не исключает полностью человеческую роль, но значительно упрощает процесс поиска знаний, делая его доступным для более широкого круга аналитиков, не являющихся специалистами в статистике, математике или программировании.
Итак, современная специфика такова, что:
· данные имеют неограниченные объем;
· данные являются разнородными (количественными, качественными, текстовыми);
· результаты должны быть конкретны и понятны;
· инструменты для обработки сырых данных должны быть просты в использовании.
Традиционная математическая статистика, долгое время претендовавшая на роль основного инструмента анализа данных, откровенно не справляется с возникшими проблемами. Главная причина – концепция усреднения по выборке, приводящая к операциям над фиктивными величинами (типа средней температуры пациентов в больнице, средней высоты дома на улице и т.п.).
В основу Data Mining (discovery-driven data mining) положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборки и виде распределений значений анализируемых показателей.
Примеры заданий на такой поиск при использовании Data Mining приведены в таблице.
Таблица. Примеры формулировок задач при использовании методов OLAP и Data Mining
OLAP |
Data
Mining |
Каковы средние показатели травматизма для курящих и некурящих |
Встречаются ли точные шаблоны в описаниях людей, подверженных повышенному травматизму |
Каковы средние размеры телефонных счетов существующих клиентов в сравнении со счетами бывших клиентов (отказавшихся от услуг телефонной компании) |
Имеются ли характерные портреты клиентов, которые, по всей вероятности, собираются отказаться от услуг телефонной компании |
Какова средняя величина ежегодных покупок по украденной и не украденной кредитной карточке |
Существуют ли стереотипные схемы покупок для случаев мошенничества с кредитными картами |
Сформулируем еще несколько вопросов, на которые способная дать ответ технология Data Mining:
· Какие товары предлагать данному покупателю?
· Какова вероятность того, что данный сектор потенциальных клиентов отреагирует на рекламную кампанию?
· Можно ли выработать оптимальную стратегию игры на бирже?
· Можно ли выдать кредит данному клиенту банка?
· Какой диагноз поставить данному пациенту?
· Как прогнозировать пиковые нагрузки в телефонных или энергетических сетях?
· В чем причины брака в производственной продукции?
Важное положение Data Mining – нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные (unexpected) регулярности в данных, составляющих так называемые скрытые знания (hidden knowledge). К обществу пришло понимание того, что сырые данные (raw data) содержат глубинные пласт знаний, при грамотной раскопке которого могут быть обнаружены настоящие самородки.
Существует множество определений Data Mining, но в целом они совпадают в выделении 4-х основных признаков. Вот определение, которое дал Григорий Пиатецкий-Шапиро (G. Piatetsky-Shapiro, GTE Labs.), один из ведущих мировых экспертов в области Data Mining:
Data Mining - это процесс обнаружения в сырых данных
· ранее неизвестных,
· нетривиальных,
· практически полезных,
· доступных интерпретации знаний (закономерностей), необходимых для принятия решений в различных сферах человеческой деятельности.
Нахождение скрытых закономерностей в данных, взаимосвязей между различными переменными в базах данных, моделирование и изучение сложных систем на основе истории их поведения - вот предмет и задачи Data Mining.
Результаты Data Mining - эмпирические модели, классификационные правила, выделенные кластеры и т.д. - можно затем инкорпорировать в существующие системы поддержки принятия решений и использовать их для прогноза будущих ситуаций.
Сферы применения Data Mining ничем не ограничены – она везде, где имеются какие-либо данные.
Data Mining представляет большую ценность для руководителей и аналитиков в их повседневной действительности. Деловые люди осознали, что с помощью методов Data Mining они могут получить ощутимые преимущества в конкурентной борьбе.
Анализ деятельности торговых точек, построение профиля покупателя, управление ресурсами.
Предприятия розничной торговли сегодня собирают подробную информацию о каждой отдельной покупке, используя кредитные карточки с маркой магазина и компьютеризованные системы контроля. Вот типичные задачи, которые можно решать с помощью Data Mining в сфере розничной торговли:
· Анализ потребительской корзины (анализ сходства) предназначен для выявления товаров, которые покупатели стремятся приобретать вместе. Знание покупательской корзины необходимо улучшения рекламы, выработки стратегии создания запасов товаров, способов их раскладки в торговых залах.
· Исследование временных шаблонов помогает торговым предприятиям принимать решения о создании товарных запасов. Оно дает ответы на вопросы типа: «Если сегодня покупатель приобрел видеокамеру, то через какое время он вероятнее всего купит новые батарейки и пленку?»
· Создание прогнозирующих моделей дает возможность торговым предприятиям узнавать характер потребностей различных категорий клиентов с определенным поведением, например, покупающих товары известных дизайнеров или посещающих распродажи. Эти знаний нужны для разработки точно направленных, экономичных мероприятий по продвижению товаров.
Анализ кредитных рисков, привлечение и удержание клиентов, управление ресурсами.
Достижения технологии Data Mining используются в банковском деле для решения следующих задач:
· Выявление мошенничества с кредитными карточками. Путем анализа прошлых транзакций, которые впоследствии оказались мошенническими, банк выявляет стереотипы такого мошенничества.
· Сегментация клиентов. Разбивая клиентов на различные категории, банки делают свою маркетинговую политики более целенаправленной и результативной, предлагая различные виды услуг разным группам клиентов.
· Прогнозирование изменений клиентуры. Data Mining помогает банкам строить прогнозные модели ценности своих клиентов и соответствующим образом обслуживать каждую категорию.
Привлечение клиентов, ценовая политика, анализ отказов, предсказание пиковых нагрузок, прогнозирование поступления средств.
В области телекоммуникации методы Data Mining помогают компаниям более энергично продвигать свои программы маркетинга и ценообрахования, чтобы удержать существующих клиентов и привлекать новых. Среди типичных мероприятий отметим следующие:
· Анализ записей о подробных характеристиках вызовов. Назначение такого анализа – выявление категорий клиентов с похожими стереотипами пользования их услугами и разработка привлекательных наборов цен и услуг.
· Выявление лояльности клиентов. Data Mining можно использовать для определения характеристик клиентов, которые один раз воспользовавшись услугами данной компании, с большой долей вероятности останутся ей верными (прогноз постоянства клиента). В итоге, средства, выделяемые на маркетинг, можно тратить там, где отдача больше всего.
Привлечение и удержание клиентов, прогнозирование финансовых показателей.
Страховые компании в течение ряда лет накапливают большие объемы данных. Здесь обширное поле деятельности для методов Data Mining:
· Выявление мошенничества. Страховые компании могут снизить уровень мошенничества, отыскивая определенные стереотипы в заявлениях о выплате страхового возмещения, характеризующих взаимоотношения между юристами, врачами и заявителями.
· Анализ риска. Путем выявления сочетаний факторов, связанных с оплаченными заявлениями, страховщики могут уменьшить свои потери по обязательствам. Известен случай, когда в США крупная страховая компания обнаружила, что суммы, выплаченные по заявлениям людей, состоящих в браке, вдвое превышают суммы по заявлениям одиноких людей. Компания отреагировала на это новое знание пересмотром своей общей политики предоставления скидок семейным клиентам.
Data Mining может применяться во множестве других областей:
· Развитие автомобильной промышленности. При сборке автомобилей производители должны учитывать требования каждого отдельного клиента, поэтому им нужны возможность прогнозирования популярности определенных характеристик и знание того, какие характеристики обычно заказываются вместе.
· Политика гарантий. Производителям нужно предсказывать число клиентов, которые подадут гарантийные заявки, и среднюю стоимость заявок.
· Поощрение часто летающих клиентов. Авиакомпании могут обнаружить группу клиентов, которые данными поощрительными мерами можно побудить летать больше. Например, одна авиакомпания обнаружила категорию клиентов, которые совершали много полетов на короткие расстояния, не накапливая достаточно миль для вступления в их клубы, поэтому она таким образом изменила правила приема в клуб, чтобы поощрять число полетов так же, как и мили.
· Прогноз популярности определенных характеристик товаров и услуг.
· Рыночная сегментация, идентификация целевых групп, построение профиля клиента (Database marketers)
· Детекция подлогов, формирование "типичного поведения" обладателя кредитки, анализ достоверности клиентских счетов ,cross-selling программы (кредитные компании).
· Выработка оптимальной торговой стратегии, контроль рисков (биржевые трейдеры).
· Детекция подлогов, прогнозирование поступлений в бюджет (налоговые службы и аудиторы).
Диагностика, выбор лечебных воздействий, прогнозирование исхода хирургического вмешательства.
Известно много экспертных систем для постановки медицинских диагнозов. Они построены на основе правил, описывающих сочетания различных симптомов различных заболеваний. С помощью таких правил узнают не только, чем болен пациент, но и как нужно его лечить. Правила помогают выбирать средства медикаментозного воздействия, определять показания (противопоказания), ориентироваться в лечебных процедурах, создавать условия наиболее эффективного лечения, предсказывать исходы назначенного курса лечения и т.п. Технологии Data Mining позволяют обнаруживать в медицинских данных шаблоны, составляющие основу указанных правил.
Предсказание результатов будущего тестирования препаратов, программы испытания.
Пожалуй, наиболее остро и вместе с тем четко задача обнаружения закономерностей в экспериментальных данных стоит в молекулярной генетике и генной инженерии. Здесь она формулируется как определение так называемых маркеров, под которыми понимаются генетические коды, контролирующие те или иные фенотипические признаки живого организма. Такие коды могут содержать сотни, тысячи и более связанных элементов.
На развитие генетических исследований выделяются большие средства. В последнее время в данной области возник особый интерес к применению методов Data Mining. Известно несколько крупных фирм, специализирующихся на применении Data Mining для расшифровки генома человека и растений.
Методы Data Mining находя широкое применение в прикладной химии (органической и неорганической). Здесь нередко возникает вопрос о выяснении особенностей химического строения тех или иных соединений, определяющих их основные свойства. Особенно актуальна такая задачи при анализе сложных химических соединений, описание которых включает сотни и тысячи структурных элементов и их связей.
Контроль качества, материально-техническое обеспечение, оптимизация технологического процесса.
Построение эмпирических моделей, основанных на анализе данных, решение научно-технических задач.
Выделяют пять стандартных типов закономерностей, которые позволяют выявлять методы Data Mining:
· ассоциация;
· последовательность;
· классификация;
· кластеризация;
· прогнозирование.
Ассоциация – имеет место в том случае, если несколько событий связаны друг с другом. Например, исследование, проведенное в супермаркете, может показать, что 65% купивших кукурузные чипсы берут также и кока-колу, а при наличии скидки за такой комплект колу приобретают в 85% случаев. Располагая сведениями о такой ассоциации, менеджерам легко оценить, насколько действенна предлагаемая скидка.
Последовательность – имеет место в том случае, если существует цепочка связанных во времени событий. Так, например, после покупки дома в 45% случаев в течение месяца приобретается кухонная плита, а в пределах двух недель 60% новоселов обзаводятся холодильником.
Классификация – выявление признаков, характеризующих группу, к которой принадлежит тот или иной объект, посредством обучения на уже классифицированных объектах, формулирование набора правил для каждой группы;
Кластеризация – отличается от классификации тем, что сами группы заранее не заданы. Средства Data Mining самостоятельно выявляют различные однородные группы данных.
Прогнозирование - создание (нахождение) шаблонов, адекватно отражающих динамику поведения целевых показателей по временным рядам базы данных. С их помощью можно предсказать поведение системы в будущем.
Data Mining является мультидисциплинарной областью, возникшей и развивающейся на базе достижений прикладной статистики, распознавания образов, методов искусственного интеллекта, теории баз данных и др. Отсюда обилие методов и алгоритмов, реализованных в различных действующих системах Data Mining. Многие их таких систем интегрируют в себе сразу несколько подходов.
Ниже превродится классификация указанных ключевых компонентов.
Статистические пакеты. Предметно-ориентированные аналитические системы. Нейронные сети. Системы рассуждений на основе аналогичных случаев. Деревья решений. Эволюционное программирование. Генетические алгоритмы. Алгоритмы ограниченного перебора. Системы для визуализации многомерных данных.
Предметно-ориентированные аналитические системы. Наиболее развиты системы в области исследования финансового рынка, так называемый "технический анализ": прогноз динамики цен, выбор оптимальной структуры инвестиционного портфеля, основанный на различных эмпирических моделях динамики рынка. Эти методы максимально учитывают специфику приложения (профессиональный язык, индексы и пр.).
Статистические
пакеты. Оказались полезными главным образом для проверки заранее
сформулированных гипотез (verification-driven data mining) и для "грубого"
разведочного анализа, составляющего основу оперативной аналитической обработки
данных (online analytical, OLAP). Большинство методов опираются на усредненные
характеристики выборки, которые при исследовании реальных сложных жизненных
феноменов часто являются фиктивными величинами. Хорошо описаны пакеты STATGRAPHICS, STATISTICA, STADIA.
Искусственные
нейронные сети. Здесь для предсказания значения целевого показателя
используются наборы входных переменных, математических функций активации и
весовых коэффициентов входных параметров. Выполняется итеративный обучающий
цикл, нейронная сеть модифицирует весовые коэффициенты до тех пор, пока
предсказываемый выходной параметр соответствует действительному значению. После
обучения нейронная сеть становится моделью, которую можно применить к новым
данным с целью прогнозирования. Основным недостатком в этом случае является
необходимость иметь очень большой объем обучающей выборки. Кроме того, любая
нейронная сеть представляет собой "черный ящик" и знания в виде
нескольких сотен весовых коэффициентов, полученных с ее помощью, не поддаются
анализу и интерпретации. Примеры
- BrainMaker, NeuroShell, OWL.
Системы рассуждений на основе аналогичных случаев. Вывод путем сопоставления (Memory-based Reasoning, MBR) или вывод, основанный на прецедентах (Case-based Reasoning, CBR). Эти алгоритмы основаны на обнаружении некоторых аналогий в прошлом, наиболее близких к текущей ситуации, с тем чтобы оценить неизвестное значение или предсказать возможные результаты (последствия). Эти методы называют еще методом "ближайшего соседа". В выборе решения они основываются на всем массиве доступных исторических данных, поэтому невозможно сказать, на основе каких конкретно факторов строятся ответы. Примеры: KATE tools (Франция), Pattern Recognition Workbench (США), КОРА (Россия).
Деревья
решений и Алгоритмы классификации. Создается иерархическая структура
классифицирующих правил типа "ЕСЛИ..., ТО...", имеющая вид дерева.
Для принятия решения, к какому классу отнести некоторый объект или ситуацию,
требуется ответить на вопросы, стоящие в узлах этого дерева, начиная с его
корня. Определяют естественные “разбивки” в данных, основанные на целевых
переменных. Сначала выполняется разбивка по наиболее важным переменным. Ветвь
дерева можно представить как условную часть правила. Наиболее часто
встречающимися примерами являются алгоритмы классификационных и регрессионных
деревьев (Classification and regression trees, CART) либо хи-квадрат индукция
(Chi-squared Automatic Induction, CHAID). Недостаток: деревья решений
принципиально не способны находить "лучшие" (наиболее полные и
точные) правила в данных. (IDIS,
KnowledgeSEEKER, See5/C5.0).
Эволюционное программирование. Искомая зависимость целевой переменной от других переменных моделируется несколькими вариантами алгоритмов, из которых отбирается тот, который воспроизводит зависимость более точно. Программы, совершенствуясь, конкурируют друг с другом как живые организмы при естественном отборе в борьбе за выживаемость. Примером такой системы является PolyAnalyst. Найденные зависимости представляются пользователю в виде математической формулы или таблицы. Иногда зависимость ищется в виде функции какого-то определенного вида, например в виде полинома. Так работает метод группового учета аргументов (МГУА).
Генетические алгоритмы. Исходно это было мощное средство решения разнообразных комбинаторных задач и задач оптимизации. Построение алгоритма начинается с кодировки логических закономерностей в базе данных (в виде так называемых, хромосом). Популяция таких хромосом обрабатывается при последовательных итерациях с проведением отбора, операции изменчивости (мутации), скрещивания, генетической композиции, как это происходит в природе с настоящими генами. Для отбора определенных особей и отклонения других используется “функция приспособленности” (fitness function). Генетические алгоритмы в первую очередь применяются для оптимизации топологии нейронных сетей и весов. Однако, их можно использовать и самостоятельно, для моделирования. Пример: GeneHunter.
Алгоритмы ограниченного перебора. Ассоциативные правила. Предложены М.М. Бонгардом для поиска логических закономерностей в данных. Выявляют причинно-следственные связи и определяют вероятности или коэффициенты достоверности, позволяя делать соответствующие выводы. Правила представлены в форме “если <условия>, то <вывод>”. Их можно использовать для прогнозирования или оценки неизвестных параметров (значений). На основе частоты встречаемости логических закономерностей делается вывод о полезности какой-либо их комбинации (конъюнкции) для установления ассоциации в данных, для классификации, прогнозирования и т.д. (Пример, WizWhy). Недостатки: максимальная длина комбинации в if-then-правиле равна 6; поиск простых логических событий в начале работы производится эвристически. Тем не менее данная система постоянно демонстрирует более высокие показатели при решении практических задач, чем все остальные алгоритмы.
Системы для визуализации многомерных данных. Средства графического отображения данных поддерживаются всеми системами Data Mining. Но некоторые предназначены исключительно для этой цели (например, Data Miner 3D). Их главной характеристикой является дружелюбный пользовательский интерфейс с удобными средствами масштабирования и вращения изображений.
Кластерный анализ. Подразделяет гетерогенные данные на гомогенные или полугомогенные группы. Метод позволяет классифицировать наблюдения по ряду общих признаков. Кластеризация расширяет возможности прогнозирования.
Конечно, для того, чтобы разобраться в достоинствах и недостатках приведенных здесь методов Data Mining, не достаточно столь краткого описания. Требуется гораздо больше информации и времени, чтобы сориентироваться в столь разнообразных и не всегда простых методах. Необходимы консультации профессионалов в области Data Mining, рекомендующих наилучший подход в той или иной ситуации. Но затраченные усилия не пропадут даром, т.к. методы Data Mining значительно расширяют возможности специалистов любой области знаний для выявления наиболее информативных показателей при обработке обширных баз данных и решении конкретных задач; позволяют обнаруживать порой принципиально новые факты, радикально меняющие известные взгляды. Благодаря быстрому прогрессу вычислительной техники и появлению программ с дружественным интерфейсом они становятся все более доступными для пользователя. Нужно грамотно использовать разные методы Data Mining при решении разных задач.
Вокруг технологии Data Mining ведутся активные дискуссии. Обширен спектр мнений по поводу этих технологий – от восторженных надежд на ожидаемые успехи до полного негативизма и отношения к ним как к преходящей моде. По-видимому, полезно сделать обзор указанных мнений и попытаться объективно разобраться, что здесь относится к областям фантазии и реальности.
Миф 1. Интеллектуальный анализ данных позволяет получить неожиданные результаты, на основании которых стратегия принятия решений в той или иной области может быть кардинально изменена.
Разоблачение мифа. Как правило, применение интеллектуального анализа данных позволяет лишь усовершенствовать действующую и приносящую успех организационную схему. Это происходит в основном за счет небольших и постепенных изменений, а не революционных преобразований.
Вместе с тем, применение современной технологии способно приводить и к существенным переменам. Небольшие достижения, накапливаясь в течение продолжительного периода, могут вылиться в значительный отрыв от конкурентов. Кроме того, интеллектуальный анализ данных позволяет обнаружить принципиально новые факты, радикально меняющие известные взгляды.
Миф 2. Технологии интеллектуального анализа данных настолько совершенны, что могут компенсировать недостаток знаний в предметной области или недостаток опыта по части построения моделей и их анализа.
Разоблачение мифа. Ни одна методика анализа не может заменить знание специалиста в своей области. Напротив, внедрение технологий интеллектуального анализа данных делает образование и опыт еще более важными факторами, чем раньше. В то время как опытным сотрудникам достаточно освоить одну-две новые аналитические методики, чтобы остаться на уровне требований дня и продолжить вносить свой вклад в повышение конкурентоспособности своего дела, от специалистов, не владеющим ничем, кроме техники анализа, нет абсолютно никакой пользы.
Чем меньше имеет знаний в предметной области специалист по интеллектуальному анализу, тем более он нуждается в тесном взаимодействии с людьми, которые такими знаниями обладают. В свою очередь, недостаток навыков и опыта в моделировании и применении соответствующих средств у экспертов в предметной области увеличивает их зависимость от поддержки специалистов по интеллектуальному анализу данных.
Например, предположим, что рассматривая возможности повышения доходности вложений своего клиента, эксперт-финансист обращается к специалисту по интеллектуальному анализу для обработки большой и сложной базы данных, содержащей информацию о деятельности других клиентов. Пусть этот специалист выявляет определенную связь некоторых переменных с прибыльностью инвестирования. Но только финансист способен сказать, в каких пределах допускается законом изменение этих переменных.
Миф 3. Средства интеллектуальной обработки данных автоматически обнаруживают различные закономерности.
Разоблачение мифа. Многие средства такой обработки действительно позволяют автоматически выявлять закономерности в исследуемых данных. Тем не менее, ставить конкретные цели им необходимо. Например, если подать на вход список адресов клиентов и попытаться получить на выходе набор «профилей» покупателей, применение которых позволило бы повысить эффективность адресной рекламы, особенно на многое рассчитывать не стоит. В постановке целей важна конкретность. Без такой конкретности информация бывает перегружена мелкими, ненужными, отвлекающими и даже вредными деталями.
Миф 4. Интеллектуальный анализ данных может с пользой применяться только в определенных областях.
Разоблачение мифа. Практически любой процесс – от фармакологического производства до обслуживания клиентов – можно изучить, понять, улучшить с помощью методов интеллектуального анализа. Это могут быть такие разнообразные области: управление производственными процессами, кадровая работа, менеджмент предприятий общепита, медицина, социология, геология и др.
Интеллектуальный анализ данных станет полезен везде, где собраны данные. Конечно, в некоторых случаях расчет окупаемости может показать, что «игра не стоит свеч».
Миф 5. Методы, используемые в средствах интеллектуального анализа данных, качественно отличаются от тех, которые применяются при традиционном построении количественных моделей.
Разоблачение мифа. Все методы, используемые в настоящее время для интеллектуального анализа данных, являются логическим развитием и обобщением аналитических подходов, известных уже на протяжении десятилетий. Все они предназначены для построения моделей зависимости между набором определяющих переменных и результатом.
Новизна интеллектуального анализ информации заключается в расширении сферы применения указанных методов, которое стало возможным благодаря возросшей доступности данных и удешевлению вычислений.
Кроме того, из-за слабой связи между деловым миром и специалистами по анализу данных, большинство из которых принадлежит к академической сфере, до недавнего времени не существовало программных реализаций указанных методик с дружественным интерфейсом пользователя. Наблюдающийся в последнее время рост интереса к средствам интеллектуального анализа данных объясняется отчасти именно усовершенствованиями в области интерфейса, которые сделали их доступными для использования различными прикладными специалистами.
Распространение мощных вычислительных методов интеллектуального анализа данных представляет собой значительный шаг вперед, однако не теряют своей ценности и применявшиеся ранее средства. Разнообразные регрессионные методы, дискриминантный анализ и даже простейшие графики также позволяют выявлять скрытые зависимости. Считается, что никакой один отдельно взятый метод не обеспечивает решение всех или хотя бы даже большинства задач. Чтобы преуспеть в интеллектуальном анализе данных, необходимо запастись достаточно широким набором инструментов, как старых, так и новых.
Миф 6. Интеллектуальный анализ данных представляет собой очень сложную процедуру.
Разоблачение мифа. Алгоритмы для интеллектуального анализа данных могут быть сложными, однако их применение, благодаря появлению новых программных средств, значительно упростилось. При этом часто не требуется обращаться к таким сложным алгоритмам, а достаточно использования относительно простых аналитических методов, табличных и графических представлений. Своей сложностью интеллектуальный анализ данных в значительной мере обязан тем же самым трудностям с организацией данных, которые характерны для любых методик моделирования. Это, в частности, работы по подготовке данных, такие как отбор переменных для включения в расчет и выбор способа их кодирования, а также интерпретация результата и принятия решения о путях его использования.
Миф 7. Применять интеллектуальный анализ имеет смысл только к базам данных больших объемов.
Разоблачение мифа. Действительно, некоторые из методов интеллектуального анализа данных были разработаны специально для применения к очень большим наборам данных, а многие использующие их приложения предназначены для обработки крупных массивов информации. Вместе с тем, полезные сведения можно извлекать и из наборов данных средних или малых размеров. Вообще, проблема необходимого и достаточного объема данных и по сей день остается открытой. Она решается отдельно для каждого конкретного случая.
Миф 8. Интеллектуальный анализ данных дает больший эффект, чем больше данных в него вовлечено, поэтому следует использовать в каждом случае все доступные данные.
Разоблачение мифа. Дополнительные данные приносят пользу, только если содержат новые сведения о рассматриваемых показателях или целях. В иных случаях их привлечение может оказаться не только бесполезным, но и вредным. Например, это происходит, если в данных содержится один из важных элементов информации, но нет других связанных с ним или не отражены взаимосвязи между такими элементами. Введение в процессе анализа данных, содержащих малую часть всей информации, может привести к снижению ценности получаемых решений, «зашумлять» информацию. Кроме того, эффективность применения средств интеллектуального анализа снижается в случае учета иррелевантной информации или дублирующих друг друга измерений одной и той же величины. Например, при использовании регрессионного анализа, если включить в число обрабатываемых признаков одновременно и возраст, и дату рождения, средство интеллектуального анализа обнаружит равную релевантность обоих факторов и понизит их вес.
Миф 9. Построение рабочей модели на основе выборки из базы неэффективно, так как информация, содержащаяся в базе данных, но не охваченная выборкой, оказывается потерянной для анализа.
Разоблачение мифа. Целью большинства усовершенствований методов формирования выборок является увеличение информационной эффективности по отношению к затраченным усилиям.
Любой набор данных уже представляет собой некую выборку из более мощной совокупности. Иногда просто не бывает иного выхода, как только обратиться к выборке. В некоторых случаях сбор полных данных оказывается невозможным. Но это ни в коей мере не снижает объективности грамотно проведенного анализа. В действительности даже относительно небольшая, но правильно составленная случайная выборка может дать великолепные результаты.
В выборах президента США принимают участие более 60 млн граждан, имеющих право голоса, но последний предвыборный опрос, охватывающий две тысячных процента этого числа голосующих, редко дает ошибку прогноза более 2%. Даже располагая базой данных обо всех 60 млн граждан с сотнями измерений по каждому их них, получить лучшую модель для предсказания исхода выборов было бы вряд ли возможно.
И в тех случаях, кода построение модели на основе полной БД вполне реально, часто бывает больше пользы от анализа нескольких моделей, основанных на выборках.
Миф 10. Интеллектуальный анализ данных – это еще одно веяние моды, которое уйдет так же скоро, как и пришло.
Разоблачение мифа. Название средств интеллектуального анализа данных может еще не раз измениться, но они сами навсегда останутся в числе важнейших инструментов. Внедрение методов интеллектуального анализа данных – очередной этап процесса, развивающегося с начала XX века. Бурный рост вычислительной мощности компьютеров в сочетании с появлением дешевых электронных методов сбора больших объемов данных логично вывели нас на этот этап.
Игнорировать интеллектуальный анализ данных невозможно. Применяемые для него методы многочисленны, а преимущества, открываемые в результате выявления новых знаний, – огромны. Предприятия, руководствующиеся в своих действиях в данной области «мифологией», окажутся в серьезном проигрыше по сравнению с организациями, использующими точно просчитанный рациональный подход, опирающийся на реальные факты.
1. Четкое представление цели.
2. Сбор релевантных данных.
3. Выбор методов анализа.
4. Выбор программных средств.
5. Выполнение анализа.
6. Принятие решения об использовании результатов.
Индустриальные
системы
В настоящее время большинство ведущих в мире производителей программного обеспечения предлагает свои продукты и решения в области Data Mining. Как правило - это масштабируемые системы, в которых реализованы различные математические алгоритмы анализа данных. Они имеют развитый графический интерфейс, богатые возможности в визуализации и манипулирования с данными, предоставляют доступ к различным источникам данных, функционирую в архитектуре клиент/сервер на Intel или UNIX платформах. Вот несколько примеров таких систем:
§ PolyAnalyst (Мегапьютер Интеллидженс);
§
Intelligent
Miner (IBM);
§
Interprise
Miner (SAS);
§
Clementine
(Integral Solutions);
§
MineSet
(Silicon Graphics);
§
Knowledge
Studio (Angoss Software).
Предметно-ориентированные
аналитические системы
Эти системы решают узкий класс специализированных задач. Хорошим примером являются программы технического анализа финансовых рынков:
§
MetaStock
(Equis International, USA);
§
SuperCharts
(Omega Research, USA);
§
Candlestick
Forecaster (IPTC, USA);
§
Wall Street
Money (Market Arts, USA).
Статистические
пакеты
Это
мощные математические системы, предназначенные для статистической обработки
данных любой природы. Они включают многочисленные инструменты статистического
анализа, имеют развитые графические средства. Примеры систем:
§
SAS
(SAS Institute, USA);
§
SPSS
(SPSS, USA);
§
Statgraphics
(Statistical Graphics, USA).
Нейроннoсетевые
пакеты
Это широкий класс разнообразных систем, представляющих собой иерархические сетевые структуры, в узлах которых находятся так называемые нейроны. Сети тренируются на примерах, и во многих случаях дают хорошие результаты предсказаний. Основным недостатком нейронных сетей являются трудности в интерпретации результатов. Тренированная нейронная сеть представляет собой "умный черный ящик", работу которого невозможно понять и контролировать. Примеры нейронно-сетевых пакетов:
§
BrainMaker
(CSS, USA);
§
NeuroShell
(Ward Systems Group, USA);
§
OWL
(Hyperlogic, USA).
Пакеты,
реализующие алгоритмы "Decision trees"
Этот
метод используется только для решения задач классификации. Это является его
серьезным ограничением. Результатом работы метода является иерархическая
древовидная структура классификационных правил типа "IF...THEN...".
Достоинством метода является естественная способность классификации на
множество классов. Примеры систем:
§
C5.0
(Rule Quest, Australia);
§
SIPINA
(University of Lyon, France);
§
IDIS
(Information Discovery, USA).