О переводе бумажного архива в цифровой вид (вопросы, оч.много)

Двс

Всем привет!

Предлагаю уважаемым форумчанам обсудить тему топика и поделиться опытом. Если подобное уже было - киньте ссылкой плз и простите невнимательного 😊.

В доме накопилось достаточно большое количество оружейной и околооружейной литературы. В бумажном, ессно, виде. Тут и отдельные книги, и периодика.

Хотелось бы:

а) Закупиться "железом" для перевода всего этого хозяйства в цифру.
б) Мало-помалу, урывками и неторопясь - но мигрировать с бумаги (оставив, ессно, бумажные экземпляры в чуть менее доступном 😊 для оперативного доступа месте).

Есть подозрение, что выполнение таких работ интересно не только мне 😊.

Имхо, в процессе оцифровки видятся два этапа:
1) Перевод в графический вид (картинки) - самое реалистичное.
2) Частичное распознавание текста - это из области фантастики.... но мало ли... когда-нибудь 😊...

И тут встают вопросы (пока по этапу 1):

1) Прав ли я, полагая, что все должно храниться в двух экземплярах: минимально удобоваримые характеристики изображения для быстрого просмотра и максимально качественные образы как основной кладезь информации (по аналогии с превьюшками в онлайновом фотоальбоме)?
2) Чем оцифровывать? ЦФК или планшетным сканером? (мое личное мнение, впрочем - надо комбинировать, делая превьюшки цифровиком на штативе с хор.освещением, а основные образы - сканируя 😊).
3) В каком графическом формате и с какими характеристиками (разрешение, глубина цвета, степень сжатия для форматов с компрессией и т.п.) сохранять превьюшки и основные образы)?
4) Как классифицировать сохраняемые графические файлы по содержимому? Понятно ведь, что полноцветную фотографию надо оцифровывать с иными, нежели газетный текст, характеристиками... Как вам, например, такая примитивная классификация:
- цветное фото/рисунок
- ч/б фото
- ч/б рисунок/чертеж
- печатный текст
Соответственно, если принимать такую модель, то надо продумывать параметры сохраняемых изображений для каждого вида...
5) Как сподручнее выполнять навигацию по немеряному кол-ву изображений? Есть ли что-нибудь поинтереснее чем просто назаводить тучу директорий? Как вообще быть в случае, если хочется, скажем, и целиком подшивку журнала Х хранить, и в то же время быстро получить доступ ко всем материалам, скажем, по винтовкам Лебеля? Ну наверняка же есть средства!

Прекрасно отдаю себе отчет, что каждый, гм, сканит, как он хочет. Но давайте попробуем сочинить рекомендации для тех, кто только в начале пути! Опять-таки, имхо - если удастся собрать краткую инструкцию - все это можно подвесить в список важных тем раздела.

ЗЫ: прошу прощения у модераторов за полуоффтопичный топик. Но, кмк, если это поместить в "свободное общение" или "компьютеры и программы", оно там затеряется. Здесь же результаты сканирования каждый день выкладываются.

ЗЗЫ: уже написав, натолкнулся на такой вот источник: http://militera.lib.ru/ocr/01.html и далее весь раздел.
Но вопросы для обсуждения все равно остаются 😊

Mike Brick

ИМХО:
В идеале для лучшнго сканирования литературу необходимо расшить по листам (предвижу бурные возражения). Но это в идеале.
Есть такая замечательная программа DjVu (Дежавю). Представляет собой кодировщик на основе алгоритма JPEG, навигацию и многостраничность, интерфейс к модулю сканирования. Живет в двух вариантах - как плугин к броузеру (только просмотрщик) и так называемая Solo - где документ как создается, так и смотрится. Чем же замечательна сия прога? Прога анализирует сканированную картинку и автоматически разбивает ее на передний и задний план , причем всё это и кодируется по отдельности, но в одном файле. Если документ текстовый (или схемы-чертежи), задник (это как правило структура бумаги и грязь печати) кодируется в низком качестве, на переднике кодируется только содержательная часть. То есть сканируем, для текстовых-рисуночных документов выбираем режим 300 dpi Clean. А потом сводим все в один файл. В принципе, очень похоже на PDF. Но размер меньше при том же качестве. Без всякого там распознавания.
А теперь главное и не очень приятное. Прога имеет довольно грубые настройки через свой интерфейс. Мне так и не удалось добиться того качества текста и тех размеров файлов, которые я видел на рекламных образцах. Тот же режим Clean дает огрубленные очертания букв. Можно ли с этим бороться? Можно, если удасться "раскусить" текстовые шаблоны настроек.
Там как раз есть настройки кодирования передника, задника и некая МАСКА для того и другого. Я в свое время сильно порылся в Инете, но никого из спецов по этой проге не нашел. Пытался эксперименировать с параметрами вручную - кое что получалось.
Итак, заходим в поисковик и набираем djvu download. Скачиваем сами проги (есть и на русском), в версиях - непонятки. Скачиваем кучу томов в этом весьма популярном формате. Если кто найдет внятный фак на русском по настройкам - плиз сюда сообщите.

------------------
...как Сади некогда сказал...

Mike Brick

Да, забыл, цветные иллюстрации сканируются в режиме "фото" и свободно интегрируются с другими страницами. Предусмотрена возможность гиперссылок и сброса страниц в BMP.

------------------
...как Сади некогда сказал...

Букинист

пользовал DjVu Solo 3.1, сжимал обычно либо в режиме "Photo", либо "Scanned", в других режимах качество больно паршивое получается.

Mike Brick

В режиме Фото - это обычный JPEG. Размер файла здоровый получается.
У меня та же версия. Только что сжал JPEG-овский чертеж 150 кбайт. В режимах Scanned и Clean. В обоих случаях получилось по 35 кбайт, но Clean чуть почетче. Разрешение поставил 300. Надо ковырять профили documenttodjvu.conf, там всё расписано, я в своё время на это сутки угробил. Я же в сети видел очень хорошо сделанные книжки с приемлемыми размерами, но явно жали не "по умолчанию". По умолчанию - сильное пережатие, что б его...

------------------
...как Сади некогда сказал...

Букинист

разрешение попробуйте увеличить, или у м е н ь ш и т ь.

Mike Brick

Да, как ни странно, установка "неродного" разрешения (сканировалось допустим 300, а ставилось 200) иногда приводит к улучшению картинки (следуя тому же конфигу меняются параметры сжатия). А иногда наоборот.
Я всё это уже проходил в своё время.

------------------
...как Сади некогда сказал...

stg400

вношу предложение по форматам данныыхх

есть популярный формат "Книжка комиксов".
это когда jpg или png файлы засунутые в *.rar или *.zip архив
и потом архивы переименованные соответственно в *.cbr *.cbz
для просмотра содержимого можно пользоваццо например программой CDisplay www.cdisplay.net

софтина намного быстрее чем тормозное адобе_акробат,
который грузиццо пол часа.. опять же можно просто переименовать, разархивировать и смотреть чем захочеццо..


в качестве примеров
цветной жюрнал про рыбу на 200 страниц - 50мег http://rapidshare.com/files/22815432/SportFising_apr2007.cbr
внутри цветные жпеги 800х1040..
весь текст читабельный

вот ещщо пример размером поменьше..
жюрнал про фото на 98 страниц - примерно 22 мег http://rapidshare.com/files/22461277/american_photo_mar_apr_07.cbr
качество фотографий вполне смотрибельно

Mike Brick

Чтож, буду качать про рыбу. Но не верю в чудеса.
Есть алгоритмы, а есть оболочки с рекламой.

Mike Brick

Да что-то не хочет оно. Может прямую ссылку на закачку дадите?
Нажимаю Free download, а оно ещё экран вываливает и куда давить - непонятно.

alex_kerby

Надо подождать около минуты, заетм ввести проверочный код, и нажать "Download from..."

vlad2654

Уважаемые коллеги!
Есть еще проблема вот какого сорта.
Сами знаете, что в 70-х - начале 80-х получить какую-либо информацию можно было только из иностранных источников. И сейчас, разбирая старые "залежи" иногда стоишь перед выбором, махнуть на все рукой и выбросить все эти старые записи, сделанные от руки, к чертовой матери или все-таки провести ревизию и оставить наиболее интересные.
Но вся проблема в том, что материалы рукописные. Заносить их в комп конечно можно, но занимает страшно много времени. Попытался надиктовывать на цифровой диктофон. Получается очень неплохо, но...
К сожалению не знаю, существуют ли программы, способные переводить цифровую запись в тект. О программах типа Горыныч не идет речь?
Хотелось бы услышать мнение

Mike Brick

Да проще выбросить. Я вот хранил кучу барахла, пока не обнаружил, что в Сети почти всё появилось.
Горыныч - туфта, ИМХО.

------------------
...как Сади некогда сказал...