Некоторое время назад от своего друга узнал о новом высокоэффективном формате хранения текстовой информации - DJVU (дежа-вю).
Иногда возникают две задачи. Первая - с наименьшими трудозатратами и компактно сохранить в электронном виде текст со сложным оформлением, например журналы, в которых только один текст непросто оформлен - с колонками, отдельно стоящими подписями к рисункам, схемам, сами рисунки и схемы, и т.п.
Читать далее, скачивать софт, смотреть ссылкиВторая задача - сохранить в электронном виде оригинал документа с максимальным качеством и, желательно для передачи через интернет.
Первую задачу конечно можно решить путем сканирования, раздельной обработки текста (распознавание, проверка) и картинок, а затем путем сборки в html-формате, однако создание документа, даже отдаленно напоминающего оригинал требует массы времени, знания web-дизайна и сохранения даже одной страницы в нескольких файлах разного формата (например html, jpeg).
Вторую задачу можно было бы решить сохраняя графический образ документа в jpeg-формате, однако многостраничный документ всё равно займет немалый объем, а сильное сжатие графики в рамках jpeg-формата приводит к видимым искажениям документа.
Все эти задачи, как оказалось, прекрасно решает формат djvu! Можно конечно обратиться к pdf-формату (для Adobe Acrobat), однако, для сравнения, номер журнала «Техника — Молодежи» времен СССР (со сложным оформлением) в pdf-формате займет порядка 10-12М, а в формате djvu - всего 3-4М! То есть, примерно одна песня в mp3-формате! При этом, если документ правильно отсканирован, то заметных глазу искажений нет! А для скачивания такого файла средствами современного интернета времени нужно совсем немного.
Работа с софтом для подготовки djvu-файлов максимально проста. Нужно всего-лишь отсканировать страницы журнала (газеты), почистить их в программе типа PhotoShop или FineReader, а потом по очереди загрузить в DJVU-редактор и сохранить готовый файл. Всё!
А теперь собственно некоторые ссылки:
Коротко о DJVU и ссылки на софт - По рекомендации друга, который уже активно переводит в этот формат журналы наиболее удобен редактор DjVu Solo 3.1 и просмотрщик WinDjView-0.4.3;
Некоторые рекомендации по работе с DjVu Solo 3.1, а также сканирование, обработка изображений и печать файлов djvu - Говорит само за себя;
DjVu - все уже было - познавательная статья для тех, кого заинтересует - каким же образом достигается такая степень сжатия с минимальными потерями.
На конец подчеркну, что этот софт и формат пригодны лишь для архивного электронного хранения и выкладывания в интернет журналов, документов и вообще текстов со сложным оформлением в оригинале, а вовсе не для создания сайтов.