Начало… » Содержание » Учебник по датамайнингу » Приложение №I
П Р О Е К Т
Приложение № I
Правила ксерокопирования документов для датамайнинга.
Содержание
App01.1. Правила копирования не расшиваемых документов.
App01.1.2. Изменение "светлости" копии.
App01.1.3. Изменение масштаба копий.
App01.1.4. Изменение числа копий.
App01.2. Особенности копирования документов для датамайнинга.
App01.2.1. Учет "баланса белого" при копировании газетных вырезок.
App01.2.2. Учет соотношения lpi и dpi при копировании типографских материалов.
App01.3. Требования к ксерокопиям для последующего сканирования.
App01.1. Правила копирования не расшиваемых документов.
App01.1.1. Общие положения.
При копировании не расшиваемых материалов (книг, брошюр, буклетов и других материалов, из которых невозможно удалить скрепки или переплет) необходимо придерживаться следующего алгоритма:
- Открыть верхнюю крышку копира или МФУ (у его основания, а не у подающего механизма!).
- Как можно ровнее положить документ, с которого необходимо сделать копию изображения, на стекло копира копируемой стороной вниз.
- Осторожно закрыть верхнюю крышку копира или МФУ, так чтобы копируемый документ плотнее прижался к нижнему стеклу.
- Выставить нужные режимы копирования.
- Проверить, вставлена ли в лоток подачи бумага (и правильно ли она вставлена).
- Нажать кнопку "Copy".
- После окончания копирования откройте верхнюю крышку и уберите документ со стекла.
- Повторить пункты 1.-7. для других страниц документов.
Далее приведены рекомендации, которые следует соблюдать при копировании любых документов:
- Держите стекло копира (а также стекла сканера и МФУ) в чистоте. Грязь, пыль, влага, скопившаяся на стекле, необратимо ухудшает качество копий. Некоторые специалисты советуют перед началом копирования протереть стекло бязью или батистом (или другой не мохрящейся тканью).
- Внимательно следите за качеством сканируемого документа. Если на документе есть исправления, внесенные в него при помощи штриха, необходимо либо минимально уменьшить толщину слоя штриха, либо вообще отказаться от копирования документа. Дело в том, что под действием лампы стекло нагревается, а штрих плавится, что приводит к засорению стекла и порче копира.
- Документы, распечатанные на термобумаге, следует копировать в самом начале работы,когда стекло копире еще не нагрелось. Иначе под действием тепла на термобумаге останутся черные пятна.
- Не ленитесь подбирать индивидуальные параметры при съемке копий документа. Хотя выбранные по-умолчанию параметры годятся для большинства случаев, некоторые нарушения "тональности" копий могут сделать его плохо читаемым и распознаваемым.
- Старайтесь делать копии формата A4 (выходной лист), если они будут читаемыми. Для этого измените масштаб копирования.
- При съемке старайтесь плотнее прижимать верхнюю крышку к документу, а сам документ плотнее (желательно по всей площади листа) прижимать к стеклу копира. В этом случае на стекло не попадает лишний свет, и в документ не вносятся искажения от сгиба и переплета. Это положительно влияет на качество копий.
- При черно-белом копировании учтите, что красный цвет получается на копии значительно темнее, а синий – значительно светлее, чем на оригинале. Похожий эффект наблюдается в несенсибилизированной пленке.
App01.1.2. Изменение "светлости" копии.
Рис. APP001.01. Примерный вид панели стандартного копира.
У любого копира, примерно на середине его панели управления находится инструмент "яркость копии". Он может представлять собой ползунок, который перемещается вправо и влево, а может иметь две кнопки("вправо" и "влево") и световой индикатор. Назначение этого элемента – регулировать заряд на барабане копира, чтобы сделать копию темнее (ползунок - влево) или светлее (ползунок - вправо). Обычно ползунок стоит на отметке "0" (значение по-умолчанию).
Светлота копии (которую автор иногда называет экспозицией) обычно может изменяться на 4 ступени, от +2 ev до -2 ev. На практике это означает, что ползунок может уходить вправо на 2 штриха и влево на 2 штриха, но возможно перемещение ползунка на пол штриха. Каждые 0,5 штриха соответствуют экспозиции 0,5 ev. Встречаются копиры, в которых экспозицию можно изменять в промежутке +3 ev до -3 ev с шагом 0,25 ev, но это встречается редко и обычно не требуется.
В копире также существует система автоматического определения светлоты копии (аналог автоматической экспозиции у цифрового фотоаппарата). Переход в ручной режим задания светлоты снимка может понадобиться:
- Когда копируется слишком темный или, наоборот, слишком светлый документ, на котором автоматическая коррекция работает неправильно. В этом случае необходимо осуществить "тоновую коррекцию" вручную, при помощи ползунка.
- Вы копируете текст, напечатанный на пишущей машинке, для последующего его распознавания. Как правило, пишущая машинка при печати "обрезает", не пропечатывает засечки литер, что делает текст нераспознаваемым. Поэтому текст, отпечатанный на пишущей машинке, следует "затемнять" (то есть копировать с экспозицией на 0,5 - 1 ev ниже, чем обычный текст).
- Вы копируете текст с пожелтевшей от времени бумаги. Здесь нужно вручную отрегулировать баланс белого цвета (обычно в сторону увеличения экспозиции).
- Вы копируете фотографию, напечатанную типографским способом. Поскольку оттенки на типографской печати (как и на копире) передаются растром из черных и белых точек. Поскольку размер растра у копира и типографской печати разные, передача тонов при ксерокопировании может измениться до неузнаваемости. Поэтому при сканировании фотографий экспозицию приходится подбирать самостоятельно, путем проб и ошибок в ручном режиме.
- Если Вы копируете текст на не прогретом копире с только что засыпанным тонером, необходимо добавлять к нужной экспозиции +0,5 ev (то есть на 1 ступень ярче), а при печати на старом тонере – -0,5 ev (на одну ступень темнее), чем обычно.
- Осуществляйте тоновую коррекцию копии изображения непосредственно пре ее снятии (в копире). Не полагайтесь на последующую обработку изображения на компьютере.
Примечание: по-хорошему для правильной тональной передачи изображения копир должен после каждой засыпке свежего тонера подвергаться "юстировке", с правильным выставлением автоматической и ручной экспозиции. На практике этого не делается, чем и объясняется низкое качество копий, сделанных на копире.
Примечание: следует отметить, что при сканировании документов для последующего распознавания следует использовать режим "Черно-белый" ("Line Art"). Особенность этого режима состоит в том, что при сканировании в нем цветовая и тоновая коррекция в нем невозможна. Конечно, можно отсканировать текст в режиме "Оттенки серого" ("Gray"), произвести тоновую коррекцию, а потом преобразовать изображение в режим "Line Art". Но при таком преобразовании форма букв искажается, и текст становится нераспознаваемым. Отсюда следует следующее правило.
Замечания об экспозиции и экспозиционных числах.
Понятие экспозиции было введено в оборот благодаря распространению фотографии. В фотографическом процессе "светлота" фотоснимка зависит как от времени засветки фотопленки (так называемой выдержки, измеряемой в секундах и долях секунды), так и от относительного размера диафрагмы. В связи с тем, что эта "светлота" определяется этими двумя величинами, был построен некоторый искусственный ряд, в котором увеличение на одну ступень выдержки и уменьшение на одну ступень диафрагмы, результирующая "светлота" снимка (которую назвали экспозицией) не изменяется. Осталось ввести величину измерения экспозиции. Эта величина стала называться экспозиционной величиной (ev). Изменение экспозиционной величины на единицу вызывает изменение выдержки или диафрагмы на 1 ступень, или изменение амплитуды отраженного или пропущенного цвета в два раза. Иначе говоря, если обозначить интенсивность пропущенного света в первом измерении I1, а интенсивность пропущенного света во втором замере как I2, тогда изменение экспозиции Dev будет равно:
Dev = ln(I2/I1)/ln2
Аналогично рассуждение об экспозиционных числах и экспозиции применим и для ксерокопий, только формула экспозиции будет другая:
Dev = – ln(I2/I1)/ln2,
где I1 – начальная интенсивность отраженного света, а I2 – конечная интенсивность отраженного цвета.
App01.1.3. Изменение масштаба копий.
Документы, собранные в процессе датамайнинга, могут иметь различный формат бумаги. Но для хранения документов в папке требуется единый формат – A4. При сканировании копий также лучше выбирать один из стандартных форматов: A3, A4, A5, B4, B5, Letter, Legal и т.п. Целями хранения документов и их дальнейшего преобразования (сканирования, распознавания, набора текста) и объясняется важность приведение документов при копировании к одному формату.
Масштаб копии задается переключателями в правой части панели управления копиром. Как правило, на переключателе находятся следующие позиции выбора масштаба документов:
- 141% – для преобразования документов из формата A4 в A3, A5 в A4, B5 в B4;
- 122% – для преобразования документов из формата A5 в B5, A4 в B4 и т.п.;
- 116% – для преобразования документов из формата B5 в A4, B4 в A3 и т.п.;
- 100% – копия делается без масштабирования;
- 86% – для преобразования документов из формата A4 в B5, A3 в B4 и т.п.
- 82% – для преобразования документов из формата B5 в A5, B4 в A4 и т.п.;
- 71% – для преобразования документов из формата A3 в A4, A4 в A5, B4 в B5 и т.п.;
- другое – масштаб задается оператором вручную на клавиатуре.
Чтобы Вы ориентировались при установке масштаба копий вручную для разных форматов бумаги, автор приводит сводную таблицу APP01.I. В таблице APP01.II автор указывает размеры часто встречающихся форматов бумаги.
Для выбора масштаба копии нажмите несколько раз кнопку для установки нужного масштаба копии (он будет указываться на светодиодном индикаторе). Если Вы выбрали режим "другой масштаб копии", наберите на клавиатуре нужный масштаб (в процентах).
Примечание: иногда масштабирование копии может повлиять на его светлоту. Не поленитесь, сделайте лишние копии, но настройте правильно Ваш копир!
App01.1.4. Изменение числа копий.
Число копий, которое должен сделать копир, задается на числовой клавиатуре, расположенной рядом с дисплеем.
Примечание. Число копий должно быть последней настройкой, которую делает оператор копировальной техники. Дело в том, что изменение других параметров копирования сбрасывает это число (будет сделана лишь одна копия).
App01.2. Особенности копирования документов для датамайнинга.
Копирование документов для датамайнинга имеет ряд особенностей:
- В документах для датамайнинга обычно не ясно, какую именно часть информации (текст, рисунки, фотографии) и в каком объеме будет задействована в конечном продукте (речи, статье, презентации). В связи с этим желательно всю информацию получить в максимально полном и четком виде. Поэтому, вполне возможно, нужно будет сделать несколько копий с одной страницы, каждая из которых хорошо копирует часть информации (основной текст, сноски, вставки, фотографии и т.п.);
- Количество копий увеличивается также в том случае, если Вы собираетесь ручкой или карандашом править скопированный текст. Дело в том, что этот "исправленный" текст будет невозможно распознать программами OCR, а это может потребоваться на более поздних этапах обработки материала. На этот случай лучше иметь дополнительную копию материала.
App01.2.1. Учет "баланса белого" при копировании газетных вырезок.
Копирование газетных и журнальных вырезок – один из важных навыков в датамайнинге. Проблема заключается в том, что текст редко печатается на белой бумаге. Цвет фона газетных вырезок обычно имеет оттенки от светло-серого до грязно коричневого (на старых газетах). Цвет фона журнальных вырезок, сносок вообще может принимать разные значения, в том числе быть инверсным (когда белыми буквами печатается текст на черном фоне). Это сильно затрудняет подбор оптимальных параметров для ксерокопирования.
Задача усложняется еще тем, что копир делает копии в режиме "Line Art", в котором возможны только два цвета – белый и черный. Соответственно регулируется только преобладание черного и белого цветов, но не их оттенки. Это значит, что в "затемненном" документе в объеме белого цвета полей будут появляться какие-нибудь черные точки ("мусор"), штрихи литер будут сливаться между собой. Наоборот, в "засветленном" документе внутри штрихов и на контуре букв появится пустое белое пространство, что делает текст не читаемым.
Что рекомендует делать автор в подобных случаях?
- Перейти в ручной режим коррекции "светлоты" копий;
- Постарайтесь "на глаз" определить "белизну" текста;
- Сделайте пробную копию;
- Оцените на глаз ее качество. При этом можно пользоваться увеличительными стеклами;
- Если надо, подкорректируйте параметры копирования и сделайте копию вновь.
2.a. Если черный текст напечатан на желтой бумаге, попробуйте увеличить светлость копии на 1 ev;
2.b. Если белый или черный текст напечатан на серой врезке, уменьшите светлоту копии на 1 ev;
Из сказанного следует, что участки с врезками нужно копировать, по крайней мере, дважды: чтобы был различим текст и чтобы была различима врезка.
Только копии, в которых ярко, четко, без мусора прорисованы литеры, можно сканировать и распознавать на компьютере.
App01.2.2. Учет соотношения lpi и dpi при копировании типографских материалов.
Как уже отмечалось выше, копирование на ксероксе, в отличие от сканера, осуществляется только в режиме "Line Art" (копируются только черно-белые штрихи). Вследствие этого разрешение в линиях (линий на дюйм, lpi) равно разрешению в точках на дюйм (dpi). Иначе говоря, отношение dpi/lpi равно единице, а количество передаваемых оттенков = 1 + (1)^2 = 2 оттенка. Разрешение в линиях на дюйм, достигаемое популярными моделями ксероксов, равно 75 – 200 lpi.
В то же время типографская печать имеет разрешение в линиях на дюйм 100 - 300 lpi и в точках на дюйм 600 - 4800 dpi. Таким образом, число передаваемых оттенков при типографской печати будет равно от 21 до 256 оттенков. При этом точка изображения при типографской печати будет по площади от 9 до 4096 раз меньше, чем при ксерокопировании.
Отсюда следует, что копирование типографских изображений на копире один в один не получится. Будет необходима интерполяция значений яркости точек, их усреднение по квадрату 3x3 (в лучшем случае) или 64х64 (в худшем случае). Единых алгоритмов усреднения этих точек нет – каждый копир каждого конкретного производителя делает это по-своему. Вот почему при копировании изображений (даже черно-белых) в копире могут возникать следующие искажения:
- вместо светло-серого изображения печатается белое;
- вместо темно-серого изображения печатается черное;
- изображение становится менее резким и более зернистым;
- исчезают или искажаются линии контура;
- исчезают линии штриховки;
- неожиданно на фотографии появляется муар;
- в результате действия этих факторов нарушается тональная и линейная композиция фотографии при ее копировании.
Вот почему при копировании фотографий автор дает совет:
При копировании фотографии экспериментируйте, смелее меняйте настройки копира, светлоты копий и т.п. Бывает, что только один поворот фотографии на 90 градусов значительно улучшает ее качество. Если же фотографии при копировании все равно получаются низкого качества – воспользуйтесь цифровым фотоаппаратом или сканером (с включенной опцией descreen – обратного растрирования). Только после этого можно обрабатывать фотографию графическим редактором.
App01.3. Требования к ксерокопиям для последующего сканирования.
Часто копирование документов производится только для их последующего сканирования. Конечно же, лучше сканировать оригиналы (см. все предыдущие советы). Однако иногда все-таки приходится копировать материалы для последующего сканирования по следующим причинам:
- Сканирование с оригинала невозможно. Например, если Вы используете только протяжный сканер, то Вы не можете копировать не расшиваемые материалы (книги, фолианты, брошюры и т.п.). В этом случае придется либо скопировать текст из фолианта на обычном копире, либо воспользоваться цифровым фотоаппаратом или сканером другого вида (ручным или планшетным);
- Сканирование материала экономически не эффективно. Например, в библиотеках часто предоставляются обе услуги (сканирование и ксерокопирование документов), но суммарные затраты на сканирование материалов обходятся в 5 - 10 раз дороже, чем на ксерокопирование такого же объема материала. Чисто экономически лучше выбрать второй вариант (сканирование копии);
- Иногда при ксерокопировании можно внести в копию изменения, которые положительно сказываются на качестве сканирования. Например, при ксерокопировании можно увеличить размер копии, заметно увеличив размеры литер и подогнав материал под стандартный формат бумаги. Это с троицей окупится при создании копий для распознавания текста!
Обычно сканирование копии производится с целью ее дальнейшего распознавания в OCR системах (например, программы Fine Reader). Для этих целей необходимо использовать следующие копии:
- Обычно хорошо распознаются материалы, отсканированные в режиме Line Art (черно-белые изображения и штрихи). Как раз такие копии получаются при ксерокопировании документов. Поэтому желательно копировать параметры один в один, если соблюдаются другие условия, приведенные ниже;
- Обычно хорошо распознается текст, сканированный с разрешением 300 dpi. Поэтому нет соображений, по которым надо сканировать текст копии с меньшим или большим разрешением;
- Текст распознается, в основном, по следующему правилу: "черные штрихи на белом фоне". Поэтому, после сканирования вывороток и врезок (белый текст на черном фоне) необходимо произвести обработку отсканированного текста в графическом редакторе (фильтр "инверсия");
- (следствие из вышеназванного правила). При распознавании отсканированной копии сканер постоянно "спотыкается" о паразитные элементы изображения: черные точки на бумаге, следы от ластика, "штриха", исправлений, следы выбеленного фона, исправления, внесенные в текст карандашом и ручкой, и прочий "мусор". Необходимо избегать появления этого мусора при сканировании копии, появления этого мусора при ксерокопировании. Если от мусора избавиться не удается, хотя бы уберите этот "мусор" на полях отсканированного документа в текстовом редакторе.
- Избегайте появления черных полос при сканировании сгибов и разворотов фолиантов. Удаляйте эти полосы либо на ксерокопиях (путем их вырезания или заклеивания), либо путем удаления их в отсканированном документе (с помощью инструмента "выделить" и "удалить в графическом редакторе).
- Очень плохо распознается текст, шрифт которого или искажен (например, была выбрана "фигурная" гарнитура), или потеряны засечки шрифта (как это бывает у текста, отпечатанного на пишущей машинке), или не пропечатаны штрихи у литер (у "засветленных" копий). Если Вы видите эти искажения на ксерокопии, ее лучше переделать – такие недостатки при сканировании не устраняются;
- При сканировании ксерокопий можно (и даже нужно!) в некоторых пределах регулировать светлоту отсканированного изображения с помощью элемента управления "яркость". Это позволяет улучшить качество распознавания на ксерокопиях с плохих оригиналов. Также можно регулировать и другие доступные параметры сканирования (инструменты "Кривые", "Уровни", "Каналы"). Регулировка при сканировании фотографий, как правило, не требуется.
- При сканировании фотографий лучше, наоборот, выбирать при сканировании либо цветной режим (16 или 8 бит на канал), либо изображения с градациями серого (до 256-ти оттенков). Необходимо при этом сканировании использовать режим "descreen" (обратное растрирование). Использовать при сканировании фотографий разрешения более 600 dpi не имеет смысла (кроме специальных случаев, например, увеличения изображения, разложения цвета по каналам и т.п.);
Примечание: "обратное растрирование" – это режим, при котором изображение с высоким разрешением (более 600 – 2400 dpi) и пятью цветами (CMYK-палитра), приводится к изображению с меньшим разрешением (100 - 300 dpi) и с 16 млн. цветами. При этом происходит интерполяция цветов. При обратном растрировании необходимо хотя бы приблизительно знать размеры точки растра полиграфического изображения. При сканировании аналоговых фотографий обратное растрирование не требуется.