CopyLeft (L) Юрий А. Денисов  
(yudenisov)  
Все права защищены  

 

К содержанию выпуска   Далее...

 

«Учебник по датамайнингу»

D. Сбор информации

Содержание

Человечество давно поняло необходимость постоянного сбора информации. Чтобы как-то упорядочить и облегчить себе этот сбор, человечество придумало:

  1. справочники;
  2. каталоги;
  3. специализированные издания;
  4. реферативные журналы;
  5. обзоры и тематические монографии;
  6. стенограммы и протоколы собраний;
  7. конспекты, наконец.

Человеку, жившему до второй половины XX века, информации из этих источников было вполне достаточно. Ситуация стала меняться с 60-х годов XX века. Благодаря глобализации общества и появлению новых средств доставки информации выяснилось, что как традиционные, так и новые средства доставки информации:

  • дают неполную (в худшем случае – тенденциозную) информацию;
  • дают устаревшую информацию;
  • в любом сообщении будет содержаться лишняя (иногда даже противоречивая) информация.

Поэтому человечество совершенствует технику отбора, сортировки, анализа и представления информации.

D.1. Сбор информации и датамайнинг.

Технология сбора информации традиционными методами сложилась к началу XIX века, и была тесно связана с обучением. Она включала коллективную и индивидуальную составляющую.

Коллективная составляющая сбора информации состоит в следующем:

  1. Посещение лекций, мастер-классов, симпозиумов и конференций;
  2. Работа на семинарах, тренингах, деловое общение (как в аудитории, так и личные общения).
  3. Переписка (почтовая и электронная, по E-mail), телефонные переговоры, общение в чатах, видеоконференциях и т.п.
  4. Визиты (личные или через курьера) к экспертам, профильным фирмам, агентствам – носителям важной информации

Важность коллективного обмена информацией трудно переоценить. Именно в этом общении участники повышают свой профессиональный уровень (даже с нуля), приобретают необходимые навыки работы, создают круг общения, приобретают друзей и единомышленников. Но у этого способа обмена информации есть недостатки:

  • ограниченный круг общения;
  • трудности (финансовые, временные, организационные) собрать людей в одном месте;
  • психологические особенности личностей.

Вследствие этого большое внимание уделялось и уделяется индивидуальному, самостоятельному сбору информации. К этим методам сбора информации следует отнести:

  1. Чтение специализируемой литературы в библиотеке (с копированием и конспектированием).
  2. Просмотр традиционных СМИ, теле- и радиопередач на вопрос актуальности тем и поднимаемых вопросов.
  3. Чтение статей, монографий, и других первоисточников.
  4. Поиск статей на данную тему в реферативных журналах, в списке первоисточников и т.п.
  5. Поиск литературы в каталогах (библиотечных, онлайновых и т.п.).
  6. Сбор информации в Интернете.

Именно индивидуальный подход к сбору информации, а также личные визиты и переписка, и составляет то, что в настоящее время называется датамайнингом (от слов Data – данные и Mining – добыча руды в шахте). Принцип Data Mining – собрать как можно больше информации по данной теме, чтобы впоследствии, в результате анализа, добыть полезную информацию и подготовить нужный материал.

Правила классического сбора информации (датамайнинг без Интернета) будут обсуждаться в следующем разделе.

D.2. Правили сбора оффлайновой информации.

Прежде, чем приступить к сбору информации, необходимо определиться с целями этого сбора. Правило: "иди туда, не знаю куда, принеси то, не зная что", – не работает как в жизни, так и в датамайнинге. Обычно информация ищется с какой-либо целью, связанной либо с профессиональными, либо с личными интересами человека. Поэтому первым этапом для сбора является определение целей.

Вторым, не менее важным этапом для сбора информации является составление примерного плана работы. Большими ошибками всех тех, кто подходит к составлению планов по-дилетантски, являются:

  • глубокая детализация плана на ранних этапах;
  • (Пример: многие пишут в распорядке дня: подъем в 7:00, завтрак в 7:22, на работу в 7:35 и т.п. Ясно, что точное выполнение этого плана нереально);

  • слишком напряженный план;
  • (Один из законов подлости гласит: "Плохо продуманный план требует для своей реализации в три раза больше времени, чем запланировано, а хорошо продуманный – всего в два раза". Проверенно – работает!)

  • завышенное ожидание от плана.

(Важно! Планировать надо, прежде всего то, что нужно сделать и что Вы можете дать, а не то, что Вы хотите получить в результате работы).

Как следует из вышесказанного, такой план проваливается. И тут у человека возникает соблазн: "А ну их, эти планы. Буду делать, как получится", – и в результате приходит к поражению. Поэтому, в случае неудачи одного плана, его следует заменить другим, с учетом уже сделанных ошибок.

Для написания речи, выступления, работы план также необходим. Нужно всегда представлять, что Вы хотите сказать, и именно под это "что" Вы и будете собирать материал.

D.2.1. Замечания по подбору материалов.

Все сказанное в этой работе относится только к датамайнингу, и не затрагивает творческий процесс написания работы. На самом деле датамайнинг – это рутинная операция по сбору и сортировке данных, которую можно поручить и работнику со средней квалификации. Самая же главная часть – творчество, сильно персонифицирована, и идет по пути: "разум – чувство – разум". Собирать материал достаточно легко. Гораздо труднее "прочувствовать" тему, наполнить ее собственными мыслями, найти примеры из своей жизни. Поэтому процесс написания работы должен укладываться примерно в следующую схему (см. рисунок D.01.)

Этапы творческого процесса

Рис. D.01. Этапы творческого процесса.

Обдумывание произведения – очень сложный процесс. Многие для обдумывания уединяются от семей. Другие курят, употребляют алкоголь и наркотики. Это, конечно же, не лучшие способы реализации этого процесса с точки зрения физического и психического здоровья. Но любое произведение должно "вызреть", чтобы появились оригинальные, не похожие ни на что мысли. Это и отличает произведение от изложения. Мало пересказать чужие мысли – их надо прочувствовать и переварить.

Не пытайтесь сесть и приготовить произведение (речь, выступление, статью) за 30 минут. Никогда не беритесь за работу, требующую напряженный график. В то же время осуществляйте правильное планирование и учет сроков. В сроках (явно не указывая) предусмотрите время каждодневной работы, включите туда "черные полосы" (когда не бывает никаких идей), – неизбежные спутники любого творческого человека.

Что касается датамайнинга, то соберите в десять раз больше материала, чем напишете. Это придаст Вам уверенности и любви к предмету, без чего не может быть написана ни одна статья, не подготовлено ни одно произведение.

При обдумывании главное – не оставлять тему без внимания ни днем, ни ночью. Тему надо обдумывать в рабочее время, вынашивать ее. Обсуждайте ее с друзьями. Делайте ее предметом бесед. Задавайте себе самому (и обязательно записывайте) всевозможные вопросы на данную тему. Записывайте в ежедневник, на клочках бумаги, все мысли и примеры, сортируйте их по папкам, и продолжайте искать. Идеи, соображения, примеры, которые приходят к Вам в голову в любое время (при поездке в общественном транспорте, когда Вы обедаете, ложитесь спать, принимаете ванну, когда Вы проснулись среди ночи) постарайтесь фиксировать. Хотя, как говорил Альберт Эйнштейн: "Гениальные мысли приходят слишком редко, так что не грех их запомнить", – но все время возникает множество мелких, но оригинальных мыслей, которые легко забываются. Именно для них Эйнштейн (и не только он) вел свои записные книжки.

Для написания произведения соберите как можно больший объем материала. Вы, может быть, и не профессионал в данной области, но Вы должны "владеть" темой не хуже профессионала. У Вас с ним общая задача – выгоднее продать собственные знания. И здесь ошибки быть не должно.

D.2.2. "Папки" для сбора материалов.

В соответствии с теми пунктами, которые Вы хотите отразить в своих работах, заведите несколько папок, в которые Вы будете вкладывать найденные материалы. "Папки", конечно же, названы так условно. Их могут представлять:

  1. Реальные папки-скоросшиватели.
  2. Папки для бумаг картонные.
  3. Использованные конверты (желательно формата A4).
  4. Общая тетрадь (для каждой темы нужно заводить отдельную тетрадь).
  5. Каталоги на компьютере.
  6. Файлы-контейнеры и файлы баз данных.

Вполне вероятно, что Вы будете использовать не один вариант хранения информации, а несколько. Это понятно: разному материалу требуется свое место хранения. Главное, чтобы в одной паке не хранился материал для двух разных тем.

Следует также разделять материал для ежедневного использования (которые заносятся в ежедневники и записные книжки); материал датамайнинга (хранящийся в папках) и материал уже осуществленных проектов (который хранится в папках или на CD/DVD-ROM на стеллажах в гараже). Не забудьте только выкинуть лишние материалы.

Материалы для датамайнинга храните в одном, легко доступном для просмотра месте. Автор настоятельно рекомендует разделять материалы для датамайнинга и другие архивные материалы.

В папки-скоросшиватели лучше всего помещать:

  1. Ксерокопии статей.
  2. Ксерокопии избранных глав из монографий.
  3. Другие ксерокопии.

Ксерокопии обязательно должны быть читаемыми. Если у Вас слишком светлые или, наоборот, слишком темные ксерокопии, наблюдаются искажения литер, то такие ксерокопии лучше переснять.

Особо следует рассказать о ксерокопиях фотографий. Фотографии могут нести дополнительную к тексту статьи смысловую нагрузку. Но часто бывает, что при снятии ксерокопии фотография как бы "затемняется", лишается той выразительности и прорисовки деталей, как в оригинале. Чаще всего это связано с различиями в формировании изображения печатающим устройством и ксероксом (из-за разного соотношения разрешающих способностей lpi и dpi). Этот недостаток неустранимый – обычно приходится делать несколько ксерокопий, отдельно для текста, отдельно – для изображений.

О правилах копирования документов смотри здесь.

Если у Вас в папке накопилось большое количество многостраничных статей, лучше каждую статью поместить в отдельный файл ("прозрачку"), а уже файлы поместить в папку. В файле на видном месте необходимо указать реквизиты и происхождение статьи.

В картонных папках для бумаг либо в конвертах формата A4 лучше хранить вырезки статей из газет и журналов. Хранение вырезок в использованных конвертах предпочтительнее – это придает хранению менее строгое и формальное отношение. Вырезки из газет, журналов, относящиеся к одной публикации, лучше скреплять степлером.

Хотя хранить вырезки из газет и журналов считается плохим тоном, часто без этого не обойтись. Вырезки хороши в следующих случаях:

  • Вам надо сохранить статью из рекламного журнала. В этом случае ксерокопирование ненужного Вам пространства, занятого рекламой, является, мягко говоря, не уместным;
  • Вы выбрасываете архив газет и журналов, но Вам нужно оставить несколько статей. Конечно же, уместнее вырезать нужные статьи из архива, чем их ксерокопировать. У Вас потом будет больше возможностей по их обработки.

Замечание автора. Преимущества вырезок над ксерокопиями ярче всего проявляется при сканировании материалов. Они заключаются в следующем:

  1. Вырезки из газет и журналов могут обладать цветом. Если отсканировать ксерокопию, информация о цвете пропадает;
  2. В процессе ксерокопирования в копируемое изображение неизбежно вводятся искажения. Исправить их при сканировании невозможно;
  3. При сканировании вырезок можно менять параметры гораздо шире, чем при сканировании ксерокопии;
  4. Вырезки проще размещать на стекле планшетного сканера.

Конверты с вырезками могут храниться на полке отдельно, а могут вкладываться в файлы и подшиваться вместе с ксерокопиями в папке-скоросшивателе.

В конверты, кроме вырезок, можно также класть:

  • приобщенную к делу переписку;
  • Ваши собственные эссе и разработки.

В общих тетрадях лучше всего хранить:

  1. Конспекты лекций, семинаров.
  2. Конспекты монографий и статей.
  3. Ваши собственные эссе и наброски.
  4. Список используемой литературы, Интернет-ссылок и т.п.
  5. Скопированные из Ваших ежедневников, записных книжек материалы.
  6. Переписанные с диктофона записи.

Общий совет: "не надо держать все яйца в одной корзине". Надо заводить отдельные тетради для каждой темы, а внутри одной темы – конспекты лекций, конспекты семинаров, конспекты монографий и статей, Ваши личные наброски.

Хранить папки, конверты и тетради лучше всего рядом, сгруппировав их по темам.

D.2.3. Заполнение папок.

После того, как Вы завели папки, начинается этап их заполнения. Для заполнения папки используйте абсолютно любой материал, добытый Вами из открытых источников. Этими материалами могут быть:

  • ксерокопии из монографий и статей;
  • конспекты (из них же);
  • материалы из ежедневников, записных книжек (скопированные на лист бумаги);
  • Ваши собственные эссе и наброски;
  • ксерокопии отчетов, аналитических записок, диссертаций Ваших коллег, взятых из открытых источников;
  • приобщенная к делу переписка;
  • распечатанные материалы из форумов, записанные с голоса (радио, телевидения) на магнитофон (или диктофон) выступления и т.п.
  • Примечание: такие материалы лучше долго не хранить, а сразу законспектировать и положить в нужную папку.

  • веб-страницы Интернет;
  • данные из Вашего архива прежних работ

Материал надо собирать везде и всегда. Анализировать и подвергать материал переработке можно лишь в том случае, когда у Вас будет представительная подборка.

Если собранный Вами материал по теме подходит к двум разным тематическим папкам, лучше положить в эти папки две копии (по одной в каждую папку). Материал, собранный в результате датамайнинга, быстро забывается, и лучше иметь несколько копий, чем собрать неполный материал по папкам.

Обязательно записывайте источник полученного материала. Иначе Вас могут обвинить в плагиате и нарушении авторских прав.

D.3. Классический Data mining в Интернете.

См. далее…

 

К содержанию выпуска   Далее...

 

Версия сайта 1.1.1 beta
от 20 июня 2011 г.

Гостевая книга Обсуждение датамайнинга в блоге. Отправить E-mail Автору проекта.

Hosted by uCoz