Начало… » Содержание » Учебник по датамайнингу » Том I » Пролог
A. Пролог.
Содержание
A.1. Информатика и датамайнинг.
A.2. Датамайнинг в историческом аспекте.
A.3. Психологические аспекты датамайнинга.
В этой части будет дано определение датамайнинга, рассмотрены соотношения дисциплин «Информатика» и «Датамайнинг», и развитие датамайнинга в историческом аспекте.
=== *** === *** ===
Термин «Датамайнинг» («Datamining») переводится с английского языка следующим образом:
- data – по-английски «данные, сведения»;
- mining – по-английски «добыча руды в шахте».
Иначе говоря, датамайнинг – рутинный процесс поиска необходимых сведений в полноводных источниках информации, которые обрушиваются на человека в немыслимых количествах. Это почти как у Маяковского: необходимо переработать «тонну словесной руды», чтобы получить золотник нужной информации [В.В. Маяковский. Разговор с фининспектором.]
Современные печатные издания, средства радио- и телевещания, Интернет ежедневно выплескивают на человека гигабайты информации. Однако, если проанализировать эти потки информации, получится что эти источники передают:
- лишнюю информацию (многочисленные повторы, комментарии людей, на владеющей всей информацией и т.п.);
- неполную информацию (освещенную только с одной стороны, подвергнутую авторской или государственной цензуре, в худшем случае – тенденциозную информацию);
- противоречивую информацию (когда, наоборот, дается информация из разных источников без предварительной сортировки и анализа);
- ненужную, «шумовую» информацию (когда даются собственные комментарии репортера, автора статьи и слова очевидцев события). Не зря говорят: «Врет, как очевидец!»
Для серьезной работы необходимо отделить «зерна от плевел», выделить именно ту информацию, которая необходима для написания работы, информирования начальства и, наконец, для принятия решения. Для этого и предназначен датамайнинг.
Датамайнингом профессионально занимается все возрастающая группа людей. Прежде всего, это клерки, получающие свою зарплату за подготовку аналитических материалов, сверок и сводок для своего начальства. Однако в настоящее время датамайнингом занимаются и инженеры, и научные сотрудники, преподаватели, и экономисты, коммерсанты – все те, которым по долгу службы необходимо следить за новыми тенденциями в своей области деятельности, за рынком и за новыми перспективами, открывающимися только осведомленному человеку. И эта книга – посвящение людям, занятым нелегким трудом «фильтрации» информации и установлением истины.
A.1. Информатика и датамайнинг.
В этой части будет рассмотрены общность и различия дисциплин «Информатика» и «Датамайнинг».
Термин «датамайнинг» появился в конце XX века, хотя поиском информации люди занимались давно (см. следующий раздел). В основном появление этого термина способствовало развитие такой научной дисциплины, как «Информатика». У датамайнинга и информатики много общего. Предметом изучения и информатики, и датамайнинга является информация – единое и неделимое понятие современности. Однако информация в этих дисциплинах подается по-разному. Об отличиях датамайнинга и информатики смотри интеллект-карту № 1. Прокомментируем ее.
Рис. A.001. Интеллект-карта: «Датамайнинг и Информатика». Общие черты и отличия.
Основным понятием и той, и иной дисциплины является понятие информации. Однако если в информатике информация формально определяется как: «двоичный логарифм от числа возможных вариантов выбора (степеней свободы) в системе», то в датамайнинге информация определяется как «сведения, выбранные из источника и необходимые для принятия правильного решения в любой ситуации, с которой сталкивается человек».
В определении, данной информатикой, нет деление информации на «нужную» и «ненужную», «значимую» и «незначимую», «полезную» и «бесполезную». В информатике информация – это просто набор знаков. В электронно-вычислительной машине информация – это обезличенный набор двоичных единиц и нулей, которые обрабатывает ЭВМ по специальным алгоритмам. Типы данных определяются не тем, ЧТО они в себе содержат, а то, КАК они будут обрабатываться ЭВМ. Имеют ли обрабатываемые данные смысл или нет – это для информатики не важно.
В датамайнинге же основным свойством информации является ее смысл. В терминологии датамайнинга «сведения» – это некоторая «осмысленная», «обработанная» информация (в терминах информатики – примечание автора), с помощью которой человек становится «компетентным» в области (к которой относится данная информация), и может принимать решения. Отметим, что решение, принятое по «сведениям», не обязательно будут правильными. Правильным оно будет только в случае «достоверности» информации.
По «достоверности» сведения можно разделить на:
- «отрицательные» и «неопределенные» сведения – когда информация или отсутствует, или позволяет принять не лучшие решения. Эти варианты сведений различаются в информатике, но практически неразличимы в датамайнинге;
- «недостоверные» сведения – это те сведения, на основе которых может быть принято неверное решение (при существовании других, более лучших решений);
- «достоверные» сведения – это сведения, на основании которых можно принять лучшие из возможных решений. С точки зрения информатики, объем достоверной и недостоверной информации может быть одинаковым. Разным будет только результат: «пан или пропал».
По полноте информацию можно разделить на:
- полную информацию, на основании которой можно принять какое-либо решение. Если информация достоверная, то это – достаточное условие принятия правильного решения;
- неполную информацию – т.е. на основании собранных сведений можно принять решение, но оценить его правильность не представляется возможным (до возникновения последствий).
Объем полной информации всегда больше неполной.
Остальные характеристики информации (ее «нужность», «значимость», «полезность») можно описать в терминах достоверности и полноты сведений.
Как видно, понятие информации в датамайнинге определяется через понятие «сведения» и его свойств. Но этим не исчерпываются различие в основных понятий в информатике и датамайнинге. Так, для информатики важными понятиями является понятие «алгоритма» (последовательности действий над данными, приводящие к заранее данной ситуации – «решению») и «вычислителя» – исполнителя (не важно, человек это, ЭВМ или механический автомат), который способен воспринять и исполнить данный алгоритм. Результат работы алгоритма может быть положительным (решение найдено) или отрицательным (решение не найдено или неопределенно). В датамайнинге «отрицательный» результат работы (с точки зрения алгоритмики) неприемлем – необходимо найти по максимуму данные, необходимые для принятия решения, или обосновать невозможность получения этих данных на текущем этапе датамайнинга. Вместо этого датамайнинг оперирует понятием «документ» (источник информации, содержащий какие-либо сведения), «совокупность документов» (все доступные к изучению документы на данном этапе датамайнинга) и «выборка документов» (документы, полученные из источника информации, из которых производится на данном этапе «выемка» сведений). Кроме того, основными понятиями датамайнинга являются:
- «Источник информации» – источники доступных и достоверных сведений. Ими могут быть: СМИ, специальная литература, внутренние документы, прежние и аналогичные решения судебных и административных органов. Источником информации не могут быть циркулирующие в обществе «слухи» (поскольку невозможно проверить их достоверность) и приватные (конфиденциальные) сведения (которые не удовлетворяют условию доступности сведений).
- «Ссылка на источник информации» – определенным образом оформленная запись (адрес) источника информации, по которому его можно легко найти в общедоступных архивах;
- «Литературный источник» – ссылка в документе на источник информации, по которому можно сверить текст и оригинальную информацию;
- «Связь» – аналог «гиперссылки» и «тега» в информатике Объект, с помощью которого можно найти оригинальное сообщение, взятое из источника информации.
A.1.01. Предметы изучения.
Предметом изучения информатики является:
- получение информации;
- представление информации;
- накопление (хранение) информации;
- передача информации;
- обработка информации по различным алгоритмам.
Подробнее эти предметы изучаются в школьном курсе информатики (см. [1]-[7]).
Предметами изучения датамайнинга является следующее.
- Сбор информации. В отличие от получения информации в информатике сбор информации характеризуется:
- предварительным выбором и анализом источников информации (документов);
- всеми видами получения не «первичной информации», а «достоверных сведений»;
- результатом сбора информации является не конкретное число (набор бит), а выборка документов, которую затем можно систематизировать и обрабатывать;
- все документы при сборе дополняются дополнительными сведениями: временем получения сведений, ссылка на источник информации и т.д.
- Систематизация информации. На этом этапе собранная информация классифицируется по следующим признакам (одному или нескольким):
- источнику информации (указывается время получения, достоверность и т.д.);
- по количеству встречаемых в источнике ключевых слов (например, слова «маркетинг» в экономических учебниках, «углеродные трубки» в статьях по нанотехнологиям и т.п.);
- по расстоянию между ключевыми словами;
- ... по другим принципам.
- Осмысление информации. С момента окончания классификации полученных материалов появляется возможность «окинуть проблему общим взглядом», выделить важные моменты, которые затем отразятся в конечной работе. На этом этапе нужно рисовать интеллект-карты (см. третий раздел данного выпуска). Этот этап тесно связан с усвоением информации – приемами ее запоминания и воспроизведения по требованию.
- Творческая переработка. В школе такой этап работы с произведением назывался «изложением». На этом этапе необходимо будет своими словами, как Вы запомнили материал, изложить собранный и систематизированный материал на бумаге (в компьютере) в виде текста, таблицы, графика, рисунка и т.п. Обычно этим этапом и заканчивается датамайнинг. Однако многие работы требуют более сложного действия, чем просто переработкой информации, а именно.
- Рождение новой информации. Часто бывает, что собрав необходимый для принятия объем информации, можно, если это не противоречит целям ее сбора, дополнить найденные сведения своими замечаниями, расчетами, обобщениями. Например, изучая зависимость прочности резиновых изделий от температуры вулканизации, не поленитесь построить график и аппроксимировать полученную кривую подходящей функцией. Вы получите сразу информацию о коэффициентах, которые потом можно анализировать уже вне данной работы. Анализируя колебания цен на товары, не забудьте построить линию тренда – она позволит Вам экстраполировать данные и осуществить прогноз изменения цен. Просмотрев по медицинским анкетам рост детей, не забудьте просчитать среднее арифметическое по выборке – это может помочь Вам подобрать для них мебель. Примеров, где можно получить новую информацию, не счесть, а начальство всегда оценит Ваше рвение.
- Подтверждение или опровержение первоначальной гипотезы.
При поиске информации методом датамайнинга Вы обычно задаются целью либо подтвердить (опровергнуть) какую-нибудь из существующих моделей проблемной ситуации (или физического явления), либо оптимизировать целевую функцию, опирающуюся на заранее выбранную модель. В результате датамайнинга Вы можете обнаружить, что модель или целевая функция не в полной мере соответствует первоначальному выбору. Методами креативного датамайнинга можно «скорректировать» модель или целевую функцию (см. часть B этого выпуска). Возможность корректировки целевой функции при сборе информации без участия ее заказчика (человека, принимающего решение) – очень полезная и востребованная функция датамайнинга.
A.1.02. Методы изучения информатики и датамайнинга.
В информатики основными методами изучения информации являются:
- Математические методы. Математические методы исследования информации основываются на методах следующих дисциплин:
- Математическая логика. Изучает отношения истинности/ложности логических выражений, оценивает достоверность вывода экспертных систем и т.п.;
- Теория групп. Ищет сложные взаимодействия систем, симметрии в объектах, имеющие сложные операции отношения между собой;
- Теория автоматов. Изучает представление (в виде графов) элементов теории групп, касающиеся работы автоматов, работающих по различным алгоритмам;
- Формальная грамматика. С ее помощью ищутся различия в текстах, строятся алгоритмы поиска данных в тексте и грамматического разбора текста, конструируются программные компиляторы и интерпретаторы с языков программирования и т.д. Формальная грамматика также основана на теории групп.
- Алгоритмические методы (изучает наука алгоритмика). С помощью этой науки определяется принципиальная возможность существования алгоритма для решения данной задачи, и, если такие существуют, ищется наиболее эффективный из них. Алгоритмика рассматривает:
- Выполнимость алгоритма. Рассматривается как принципиальная возможность алгоритмического решения задачи, так и возможность осуществления этого алгоритма (по трудозатратам, времени счета, потребляемым ресурсам);
- Эффективность алгоритма. Рассматриваются вопросы построения или оптимизации алгоритма по скорости счета, объема потребляемых ресурсов (прежде всего оперативной памяти компьютера), глубины перебора вариантов, точности выдаваемого результата и т.п.;
- Трудоемкость алгоритма. Здесь решаются вопросы с количеством привлекаемых для написания алгоритма программистов, количеством людей, принимающих участие в отладке проекта, сроками их работы, временем выхода продукта с указанной функциональностью. Это определяет прежде всего экономические аспекты программирования;
- Методы отладки. Рассматриваются вопросы выбора средств отладки программных продуктов: применение программ-отладчиков, вставка в код «закладок», выдачей промежуточных результатов счета (например, с помощью «заглушек») и другие вопросы методов отладки и поиска ошибок «багов» в алгоритме, синтаксисе и семантике программы.
- Моделирование процессов.
- Математическими. С помощью математических моделей решается вопрос с аналитическим описанием исследуемого объекта и предсказанием его свойств и его эволюции во времени;
- Компьютерная (цифровая) модель. С помощью этой модели прогнозируются свойства объекта и его поведение во времени. Также с помощью компьютерной модели возможна аппроксимация (приближенное описание) модели простыми функциями;
- Аналоговыми (физическими) моделями. При этом способе моделирования моделируемое физическое явление изучается с помощью уже известных физических систем, ведущих себя аналогично моделируемым системам. При этом не возможны ни аналитическое описание модели, ни ее аппроксимация, а возможно только описание свойств модели и ее поведение во времени.
После постановки физической задачи происходит этап моделирования и исследования свойств системы. Правила составления моделей является одним из приоритетных задач информатики. Модели могут быть:
Методы изучения датамайнинга совершенно отличаются от методов изучения информатики Методами изучения проблем датамайнинга является:
- Просмотр документов. С помощью этого нехитрого действия осуществляется поиск и сбор информации, а также ее усвоение. Просмотр может осуществлять как человек («просмотрщик по-умолчанию»), так и компьютерный робот, осуществляющий обработку текстовой и визуальной информации. Человеку для развития навыка просмотра информации необходимы навыки быстрого чтения и быстрого запоминания. С помощью этих навыков человек, во-первых, может просмотреть и анализировать большее количество документов, а во-вторых, лучше их осмыслить, запомнить и воспроизвести. Навыки быстрого чтения и запоминания тренируются на соответствующих психологических курсах (см. диск [8]).
- Поиск документов. Этот метода датамайнинга имеет следующие разновидности:
- поиск в реляционной базе данных. Этот способ поиска ничем не отличается от поиска, которым занимается информатика. За исключением одного – базу данных предварительно должен создать человек;
- полнотекстовый поиск. В этом способе поиска анализируются все слова текста, ищутся связи между ними, определяется частота вхождения целевого слова в тексте и на основе этого рассчитывается «релевантность» поиска – соответствие результатов поиска искомому запросу. Математический аппарат полнотекстового поиска сейчас активно развивается и совершенствуется;
- поиск источников. Этот способ поиска совмещает просмотр документов и полнотекстовый поиск по ключевым словам. С помощью правильно организованного поиска источников можно «извлечь» представительную и достоверную выборку документов;
- поиск ссылок. Этот способ поиска аналогичен поиску источников, но в отличие от него происходит поиск только определенным образом оформленных ссылок на документы. Поиск ссылок значительно облегчает поиск источников документов.
- Интеллект-карты. Интеллект-карты позволяют в значительной мере «разукрасить» поиск и осмысление документов, придать ему ассоциативность и эмоциональный оттенок.
- Реферирование. С помощью этого метода можно сделать «выжимку» полезных сведений из документов и подготовить его текст к творческой переработке. Правильное реферирование помогает создать каталог ссылок на выборку документов.
- Составление таблицы (базы данных). Если данные, собранные в результате датамайнинга, могут быть оформлены в виде таблицы, необходимо сделать это! Полученная таблица во много раз облегчит Вам поиск и восстановление утраченной/забытой информации.
- Классификация. Перед тем, как начать обработку информации, не мешает классифицировать ее по внешним признакам и содержащимся сведениям. Это поможет Вам в ее усвоении и в правильном построении базы данных.
A.1.03. Применение на практике информатики и датамайнинга.
Информатика применяется на практике в следующих дисциплинах:
- Микроэлектроники – как основа конструирования электронных автоматов и вычислителей;
- Производстве компьютеров – универсальных вычислителей;
- Программировании – для правильного написания программ (инструкций) для универсальных вычислителей;
- В финансовом анализе – с помощью разработки алгоритмов подсчета денег, моделей анализа и поведения рынка, эвристических правил оценки коммерческих ситуаций;
- В планировании – составлении (на основе эвристических правил) прогноза поведения финансовой (рыночной, экологической, погодной и т.п.) ситуации, анализе фактов и принятие решения на основе прогнозов.
Примечание. Для применения информатики в областях, обозначенных пунктами 4 и 5, необходима информация, полученная в результате датамайнинга.
Датамайнинг же в основном используется для написания различных документов на основе данных, собранных с его помощью (см. интеллект-карту на рис. A.001.). Целями датамайнинга не являются механизмы принятия решения, – они ограничиваются только сбором достоверной информации (сведений), их оценки, классификации, выработке на его основе итогового документа и представлении данных на суд начальства (аудитории, группы лиц). Понятно, что человек, занимающийся датамайнингом, в идеале не должен принимать решения. Иначе у него может возникнуть искушение действовать, опираясь на неполные данные. Только собрав все сведения, обосновав их полноту и достоверность, этот человек может рекомендовать принять то или иное решение.
Отступление N 1.
Особо следует отметить необходимость правильного написания документации. Современные стандарты, рассчитанные на массового потребителя, полностью «выметают» искорки творчества технического писателя. Ведь, не смотря на все стандарты, технический писатель должен писать документацию:
- Понятными большинству потребителей словами. Описывать долго, как отправлять SMS-сообщения без объяснения, что это такое, по мнению автора, является дурным тоном.
- Информативной. Длинное описание «ни о чем» не меньше раздражает читателя, как и отсутствие нужной информации.
- Легким и красивым языком. Понятные вещи просто не могут быть написаны сложным, косноязычным стилем.
- Краткой. Если есть возможность сократить поясняющий текст без потери содержания и стиля, необходимо сделать это – технические редакторы и верстальщики скажут Вам за это большое спасибо.
- Соответствие ГОСТ, ТУ и внутрифирменным стандартам. Безусловно, все документы должны быть правильно и единообразно оформленными. Не надо только ставить «форму перед содержанием» и уродовать текст, подгоняя его под фирменные стандарты.
A.2. Датамайнинг в историческом аспекте.
Несмотря на то, что человек стал собирать и потреблять информацию о внешнем мире более 4 тыс. лет, достоверных сведений о том, когда все же возник датамайнинг, у исследователей не существует.
Сбор данных о трудовой деятельности крестьян, об учете и контроле над их деятельностью, о возникновении профессии «чиновник» в древнем Египте начался примерно во втором тысячелетии до нашей эры. Профессия «чиновник» присутствовала также у шумеров, ассирийцев, финикийцев, а также в древней Греции и Риме. До «открытия» Америки конквистадорами, в империи Ацтеков и Инков, не имеющих письменности, также существовала профессия «чиновник». История умалчивает о социальном статусе и обязанностях чиновника в то время. Он, безусловно, был грамотным человеком, знающий письменность или «узелковую запись» (в Новом свете). Помимо подготовки документов, он также имел возможность «власть употребить», поскольку занятие только письменной работой в ту пору было непозволительной роскошью. Кроме государственной службы, грамотные люди были нужны и в ремесле и торговле. Постепенно, с развитием производства, появлялась возможность «отчуждения» все большего числа работников из сферы производства в сферу управления. Увеличивалась также объем работы по учету и контролю над трудовой деятельностью крестьян и ремесленников.
Развитие класса чиновников было приостановлено после распада Римской империи.
В феодальной Европе грамотными были в основном монахи. Однако, в процессе развития торговли, грамотные люди были нужны и в торговле. В эпоху Возрождения, во время расцвета путешественников, торговли, зарождения новой науки, искусств, произошло также «возрождение» класса чиновников. Именно тогда появились профессии «писарь», «подьячий», «конторский работник». Те, кого в настоящее время называют «клерками». Однако они занимались «неквалифицированным умственным трудом» – переписыванием документов, написанием протоколов, ведения бухгалтерских записей. Собирал и обрабатывал информацию «начальник»: купец, вельможа, дьяк и т.д.
Параллельно с развитием торговли развивалась и наука. Уже в то время стали появляться научные и даже реферативные журналы. Говорить о «специализации» умственного труда не приходилось. Образованный человек в то время был разносторонним, «энциклопедистом», как говорили позднее, в эпоху Просвещения. Примерами такого рода энциклопедического склада ума могут служить Парацельс, Леонардо да Винчи, Агрикола, Ньютон, Лейбниц, Дидро, Лавуазье и т.д. Это были ученые с большой буквы, оставивший весомый вклад в развитие Новой науки. Тем не менее, и «простые клерки» участвовали в становлении науки, торговли и бухгалтерского учета, делопроизводства.
Однако в Новое время процесс развития индустриального и сельскохозяйственного производства, торговли, науки и культуры резко ускорился. Требование специализации «разделило» некогда единые науки, такие как философия, математика, физика и т.п. Возникла «специализация» умственного труда, которая шла бок о бок со «специализацией» промышленного труда. Ученые-энциклопедисты остались на «задворках» истории, а им на смену пришли теоретики, экспериментаторы, организаторы науки, в том числе и «научные клерки». У них была задача «поиска» в научной и патентной литературе новых сведений, с помощью которых начинались новые исследования или проводилась экспертиза существующих. Такие же отделы открывались в государственных, правительственных, торговых и промышленных организациях. В принципе, появление таких отделов в организациях в широких масштабах и может служить датой рождения датамайнинга как профессии. По информации автора, это произошло во второй половине XIX века. [9][10.]
Постепенно датамайнинг стал основной делом клерков в различных государственных, научных и коммерческих организациях. Среди чиновников произошло «разделение труда»: меньшая часть из них принимает решения, а большая часть – собирает информацию, анализирует ее, преобразует в удобный для неспециалиста вид и передает ее на решение первой части чиновников. Эта часть чиновников стала «пролетариями умственного труда». Их загруженность работой редко компенсируется адекватной зарплатой. Но это – их плата за то, что они не принимают решения. К такой категории этих работников относит себя автор.
История датамайнинга не заканчивается современным состоянием дел. Датамайнинг – развивающаяся область человеческой деятельности. Грядет новая революция в датамайнинге – автоматический поиск информации, отбор ценной информации, «понимание» и «воспроизведение» сведений и информации текстовыми роботами («ботами», как их иногда называют). С их помощью можно, например, во всем объеме текста найти статьи по персоналиям, например, «В.В. Путин», «наш президент», отсортировать эти статьи по негативному и позитивному отношению к нему автора и выдать текст только этих статей для дальнейшего изучения. На подходе системы распознавания графического изображения, аудио- и видео записей, позволяющие по «ключевым» образам обработать эти записи и предоставить результат «распознавания» в текстовой форме [11]. В этом случае «боту» не нужен никакой «подстрочник» – компьютер сам обнаружит нужные записи во всей «сетке» телевещания, отберет нужные передачи и выдаст их описание в текстовом виде. В отличие систем «речевого» перевода текстов эта система более «адекватно» обрабатывает информацию об окружающем мире. Проблема во внедрении таких систем – цена таких программных продуктов и поставляемой вместе с ними «базой данных» ключевых объектов.
В некоторых научно-технических прогнозах указывается, что к 2040 году роботы могут создать серьезную конкуренцию «живому» человеку при приеме на работу на должность клерков. Но беспокоится не стоит: по тем же прогнозам к 2070 году все население планеты должно превратиться в чиновников [Ричард Паркинсон. Законы Паркинсона. Пер. с англ.].
A.3. Психологические аспекты датамайнинга.
Перед началом процесса сбора данных необходимо уточнить две целевые составляющие поиска:
- Модель описываемого явления или ситуации;
- Выбор целевой функции с целью ее оптимизации в результате датамайнинга.
О мотивации к выбору целевой функции, собственно выбор этой функции и способах её оптимизации будет подробно рассказано в части B данного выпуска. Далее автор остановится на вопросах выбора модели и мотивации этого выбора.
Выбор модели изучаемого явления/ситуации зависит от следующих обстоятельств:
- Опыта (профессионального и жизненного) команды – разработчика модели;
- «Модные» и господствующие в обществе теории явления или ситуации, накладывающие методические ограничения на выбор модели;
- Соотношение между факторами модели: сложностью модели, ее ресурсоемкостью и принципиальной возможностью работы с моделью.
В любом случае модель, в отличие от реальной ситуации:
- оперирует ограниченным числом данных;
- рассматривает три вида параметров, воздействующих на модель: выходные параметры, входные параметры и параметры «возмущения» модели, учитываемые отдельно от других («важных») параметров;
- для определения соответствия явления модели и дальнейшей оптимизации действий требуется построение целевой функции модели.
Правила подбора моделей под реальную ситуацию – очень непростое дело. Моделированию (математическому моделированию, правилам составления и использования моделей-макетов, инструментам моделирования и визуализации эксперимента или результатов расчета) человек обучается всю жизнь, сначала в школе, потом в институте, затем на рабочем месте. Далее автор не будет касаться вопросов выбора моделей. Этому Вы должны научиться, обучаясь и работая по специальности.
В отличие от количества возможных моделей, количество целевых функций для моделей ограничено. Если модель характеризуется двумя вариантами: «соответствует» или «не соответствует» модель изучаемому явлению, то о «степени соответствия» модели как количественной величине может сказать только целевая функция. Её «подтверждение» и «оптимизация» является прерогативой датамайнинга, как классического, так и креативного.
Классический датамайнинг предполагает пассивный сбор данных для подтверждения или опровержения модели данных и оптимизации целевой функции, которая была «спущена свыше» руководителем проекта или непосредственным начальником. Для того чтобы активно вмешиваться в процесс подгонки модели и уточнения целевой функции необходимо использовать методы креативного датамайнинга (см. ниже).
Отметим, что если результатом работы бизнесмена является прибыль, результат работы ученого – отчет, статья, инженера – прототип, то результатом датамайнинга в любой области деятельности является документ в любой его форме, на основании которого можно принять решение.
При датамайнинге возникает множество особенностей, которые должны быть «освещены» при подготовке конечного документа. Проблемы с данными могут быть следующими:
- неполнота получаемых данных (информации);
- противоречивость информации;
- тенденциозность информации;
- конфиденциальность информации;
- невозможность определения источника информации («слухи»);
- наличие «сорной» информации в источнике;
- невозможность отсева «сорной» информации современными техническими средствами.
Эти проблемы должны решаться человеком, ответственным за сбор этой информации. При наличии у исследователя опыта в проведения датамайнинга, он может определить проблемы с предоставляемой информации, как говорится, «на лету», на этапе ее первичного получения. Полезным опытом в этом случае может служить:
- понимание основ исследуемого явления;
- навыки устного счета;
- навыки скорого чтения и быстрого кратковременного запоминания;
- мнемотехника;
- хорошая «мгновенная» и «среднесрочная» (до 30 мин.) память;
- «цепкое» и одновременно «распределенное» внимание;
- устойчивость к стрессам.
Все эти навыки могут тренироваться в любом возрасте.
A.4. Предыстория креативного датамайнинга.
Классический датамайнинг имеет недостаток: в случае обнаружения несоответствия данных модели разрешить эту коллизию и принять меры к изменению модели и целевой функции перекладывается на вышестоящее руководство. Но руководство обладает одной особенностью: оно не любит разбираться в «сырых» данных, собранных неизвестно кем и обработанным неизвестным способом. Поэтому должен существовать механизм, который позволял команде оперативно собирать сведения, представлять их в графической форме, вносить необходимые изменения в модель и целевую функцию. Кроме того, эта технология должна намного «упростить» процесс согласования общего решения и его «презентации» руководству. К тому же она должна быть максимально «прозрачной» как для специалиста, эксперта, так и лица, принимающего решение.
История креативного датамайнинга начинается с того момента, когда один из научных сотрудников и, одновременно, бизнесмен Тони Бьюзан не обратил внимание на то, что собранные в конспект записи, собранные в результате датамайнинга, мало помогают при составлении аналитических записок, справок и презентаций. Во-первых, эти конспекты плохо запоминаются. Конспекты предполагают логическую структуру, которая часто не получается выявить в результате классического датамайнинга. Во-вторых, система записи конспектов полностью не подходит к таким элементам сбора информации, как «мозговой штурм», «ассоциативный поиск» новых идей. Проблема конспекта – превалирование логики над гештальтом, целостным восприятием. [12]-[15].
Решение проблемы «противопоставления» логики и гештальта у Тони Бьюзана решено оригинальным образом: он предложил использовать вместо текста графические изображения, вместо конспекта – карту, вместо «чисто логического» – «ассоциативный» подход к записи данных. Его идеи кажутся необычными, а для части академических кругов – просто «вздорными». Ведь, как утверждает Тони Бьюзан, его карты помогают не просто собрать и запомнить данные сложной структуры, а «выявлять закономерности», «производить анализ» и даже позволяют авторам интеллект карт стать «творцом данных» и «мастером текста и презентаций». Чтобы развеять все сомнения относительно этого метода, Тони Бьюзан с листами ватмана и цветными мелками путешествует по всему свету, выступая с лекциями перед сторонниками и критиками его методов. И те, и другие попадают под очарование этой личности и его идей, и число сторонников его партнерской программы растет во всем мире. Подробнее о партнерской программе Тони Бьюзана смотри на его официальном сайте: http://www.buzanworld.com/[16].
В своей «чистой» идее интеллект карт Бьюзан предлагает для рисования интеллект карт использовать лист ватмана и цветные фломастеры. Однако программисты из числа его поклонников придумали другие средства для рисования и визуализации интеллект карт. К ним относят как общие программы для рисования схем (программы flow chart, такие как MS Visio, Autodesk AutoScetch и др.), так и специальные программы для мозгового штурма, рисования интеллект карт и интеллектуальных диаграмм. Не смотря на «общий результат рисования», все они служат различным целям, а, следовательно, обладают разной функциональностью, интерфейсом и методами работы с ними.
В настоящее время умение читать интеллект-карты в западных компаниях приравнивается к умению работы на компьютере. Это является обязательным условием на прием на должность менеджера в корпорацию Boeing, и в корпорации проводятся соответствующие экзамены. Скорее всего, умение читать интеллект-карты скоро будет цениться и в России.
A.5. Резюме.
Итак, Вы познакомились с основным понятием современного поиска информации – датамайнингом. Было приведено его сравнение с другим важным понятием – информатикой, проведено сравнение предметов и методов их исследований. Приведены «исторические корни» датамайнинга, его психологические аспекты. Был приведен пример развития современного датамайнинга – идея Тони Бьюзана об интеллект-картах.
В следующей части будет описана мотивация на датамайнинг, выбор целевой функции, ее «увязка» с исследованиями методами датамайнинга.
Вопросы и упражнения.
- Объясните разницу в определении понятия: «информация» в датамайнинге и информатике.
- Чем характеризуется понятие «информация» в датамайнинге?
- Определите предмет и методы исследования в датамайнинге.
- Покажите взаимодействие «модели явления» и «целевой функции».
- В чем заключается новизна идей Тони Бьюзана?
- Приведены примеры отличий конспекта и интеллект-карты.