- Конвертирую djvu > pdf. Как уменьшить tiff\pdf ?
- Всё просто решилось
- Конвертер DJVU в TIFF
- Сконвертируйте ваши djvu-файлы в tiff онлайн и бесплатно
- Deja Vu
- Теговый формат графических файлов
- Как сконвертировать DJVU в TIFF
- Загрузите djvu-файл(ы)
- Выберите «в tiff»
- Загрузите ваш tiff-файл
- Создание электронной копии книги в формате DjVu в Linux
- Содержание
- Программное обеспечение [ править ]
- Сканирование [ править ]
- Обработка обложки [ править ]
- Ускоренное создание книги [ править ]
- Обработка сканов в Scan Tailor’е [ править ]
- Контроль [ править ]
- Конвертирование в DjVu [ править ]
- Без img2djvu [ править ]
- С img2djvu [ править ]
- Оглавление [ править ]
- Принцип работы img2djvu [ править ]
- Команды DjVuLibre [ править ]
- Добавление, удаление, извлечение страниц DjVu [ править ]
- Конвертирование DjVu в TIFF [ править ]
- Команды ImageMagick [ править ]
Конвертирую djvu > pdf. Как уменьшить tiff\pdf ?
ddjvu -format=tiff ./2008.djvu 2008.tiff tiff2pdf -z -o 2008.pdf 2008.tiff
djvu 12.1mb, tiff 904.7mb, pdf 298,2mb
Возможно надо как то преобразовать многостраничный tiff, уменьшить количество цветов или преобразовать в оттенки серого .. ??
А зачем через tiff.
как научен ) Цель уменьшить итоговый pdf
djvu2pdf (Free — Linux, BSD and MacOS and Windows)
DJVU to PDF eBook converter (Free — Unix/Linux/Win/Mac)
.
Free DjVu to PDF Online Converter (Free)
Я не спорю, твой вариант тоже имеет право на жизнь
djvu2pdf в убунах нету, проблема )
Free DjVu to PDF Online Converter — работает!
Но если найдутся мудрые люди которые подскажут как мне способ улучшить способ которым я до этого пользовался, готов поумнеть .
Не знаю, получится ли уменьшить. Сравни с прямой конвертацией.
ddjvu -format=pdf book.
djvu2pdf это скрипт. Проверяю одно решение, отпишусь.
Всё просто решилось
Открываешь djvu с помощью djview4, в настройках экспорт в pdf. Играешься с настройками. Выставив серый цвет, сжатие 75% и 300 dpi из djvu 16мб получил pdf 25 мб.
//Открываешь djvu с помощью djview4
djvu2pdf — скрипт на баш — 4 килобайта. Здесь alldeb для дебианподобных систем.
Источник
Конвертер DJVU в TIFF
Сконвертируйте ваши djvu-файлы в tiff онлайн и бесплатно
- Image
- Document
- Ebook
- Audio
- Archive
- Video
- Presentation
- Font
- Vector
- CAD
- abc
- abw
- csv
- dbk
- djvu
- dng
- doc
- docm
- docx
- erf
- ebm
- ewm
- emw
- gzip
- kwd
- odt
- oxps
- ppt
- pptx
- rtf
- rar
- txt
- wps
- xls
- xlsx
- zip
- Image
- Document
- Ebook
- Audio
- Archive
- Video
- Presentation
- Font
- Vector
- CAD
- abc
- abw
- csv
- dbk
- djvu
- dng
- doc
- docm
- docx
- erf
- ebm
- ewm
- emw
- gzip
- kwd
- odt
- oxps
- ppt
- pptx
- rtf
- rar
- txt
- wps
- xls
- xlsx
- zip
Deja Vu
Теговый формат графических файлов
Как сконвертировать DJVU в TIFF
Загрузите djvu-файл(ы)
Выберите файлы с компьютера, Google Диска, Dropbox, по ссылке или перетащив их на страницу.
Выберите «в tiff»
Выберите tiff или любой другой формат, который вам нужен (более 200 поддерживаемых форматов)
Загрузите ваш tiff-файл
Позвольте файлу сконвертироваться и вы сразу сможете скачать ваш tiff-файл
Источник
Создание электронной копии книги в формате DjVu в Linux
Этот учебник посвящён описанию примера создания электронной копии книги в формате DjVu (дежавю) в операционной системе GNU/Linux.
Содержание
Программное обеспечение [ править ]
- Linux Mint 17.1 Xfce — дистрибутив GNU/Linux.
- Драйвер вашего сканера.
- XSane — получение сканов, изображений страниц книги со сканера.
- Geeqie — просмотр сканов.
- Viewnior — просмотр и кадрирование изображений.
- Scan Tailor 0.9.11.1 — обработка сканов. Вариант Scantailor-Advanced (портативная версия, PPA-репозиторий для Ubuntu) обладает двумя важными особенностями: 1) возможностью полуавтоматической корректировки границ полезной области при помощи двойного клика рядом с полезным содержимым; 2) автоматическое прямоугольное выделение иллюстраций в режиме «смешанный».
- GIMP — редактирование скана обложки.
- DjVuLibre (пакет djvulibre-bin) — создание и чтение файлов DjVu.
- img2djvu (скрипт) — конвертирование страниц, обработанных в Scan Tailor в режиме «Смешанный». Скрипт выполняет разделение страниц на слой текста и слой иллюстраций для их раздельного конвертирования в формат DjVu с целью экономии размера файла готовой книги и ускорения её обработки при просмотре. См. Принцип работы img2djvu. Если в проекте нет страниц, обработанных в режиме «Смешанный», то можно обойтись без использования этого скрипта.
- ImageMagick — работа с изображениями (необходима для img2djvu).
- Tesseract (+ tesseract-ocr-rus) — оптическое распознавание текста оглавления.
- YAGF или OCRFeeder — графический интерфейс для Tesseract.
- DjVuSmooth — добавление интерактивного оглавления в документ DjVu.
- QpdfView (+ qpdfview-djvu-plugin) — просмотр документов DjVu и PDF.
- LibreOffice Writer, текстовый процессор — для проверки орфографии результата распознавания текста оглавления.
- DjView4 — извлечение страниц DjVu из документа, а также конвертирование документа и его отдельных страниц в другие форматы: PDF, PNG и др. По сравнению с QpdfView, программа быстрее отображает страницы файла.
Сканирование [ править ]
Выбор параметров в XSane
- Число страниц: 999 (примерное)
- Цель: Файл
- Путь сохранения: (создать и выбрать папку); название первого файла: 0001.jpeg
- Шаг: +1 (нумерация файлов будет такой: 0001.jpeg, 0002.jpeg, 0003.jpeg…)
- Формат: JPEG
- Профиль цветности (режим сканирования): — Цветной.
- Тип изображения: Полная палитра цветов (фото).
- Разрешение сканирования (по осям X, Y): 200 DPI (точек на дюйм) — оптимальное соотношение качества получаемых изображений и времени сканирования.
- В строке меню главного окна выбрать «Окна» —> «Показывать дополнительные параметры». В окне дополнительных параметров выбрать «Ожидать нажатия кнопки».
Последовательно сканируем страницы книги по одной или по две сразу (разворотом). Сохраняем одну ориентацию страниц при сканировании. Качество сканирования контролируем программой Geeqie. Обращаем внимание на место соединения страницы с переплётом — в нём могут образовываться затемнённые области, которые при обработке превращаются в чёрные полосы, закрывающие текст, чтобы избежать их, необходимо хорошо прижимать книгу к стеклу сканера в месте переплёта. Для начала сканирования каждой страницы используем кнопку на корпусе сканера. Изображения будут автоматически сохраняться в указанной папке. Все страницы будут иметь порядковые названия 0001.jpeg, 0002.jpeg, 0003.jpeg… — это важно, так как при конвертировании в DjVu программа-обработчик будет собирать их в книгу в той же последовательности.
Улучшение резкости сканов
Для улучшения резкости сканов используем нерезкую маску. Открываем терминал в папке со сканами и вводим команду-цикл, обрабатывающую все файлы JPEG
Значения параметра -unsharp выбраны по умолчанию: radius 0 , sigma 1.0, gain 1.0, threshold 0.05.
Примеры соотношения размера скана в пикселях с его разрешением для сканеров формата A4:
- 1272 × 1754 — 150 dpi.
- 1696 × 2339 — 200 dpi.
- 2544 × 3509 — 300 dpi.
Обработка обложки [ править ]
Обложка всегда сканируется и обрабатывается первой, так как при сканировании книги она может потрепаться (особенно это актуально для мягких обложек старых книг). Скан обложки выравнивается и обрезается в программе GIMP или любом другом подходящем растровом редакторе. В GIMP:
- Поворот на 90 или 180 градусов: меню «Изображение» → «Преобразования» → «Повернуть «. Поворот на произвольную величину: «Инструменты» → «Преобразование» → «Вращение».
- Кадрирование: Shift+C или «Инструменты» → «Преобразование» → «Кадрирование».
- Сохранение результата: «Файл» → «Экспортировать как…» → дать имя «000.jpg»
Конвертация в DjVu:
- Если img2djvu не используется, то djvu-файл обложки разместить в папке out, создаваемую Scan Tailor’ом.
- Если для конвертирования страниц будет использоваться img2djvu, то djvu-файл обложки необходимо присоединить к готовому djvu-файлу книги: поместить их в одну папку и дать команду
Ускоренное создание книги [ править ]
— Это создание книги без обработки сканов в Scan Tailor’е. Обрезка пустых областей вокруг страниц производится во время сканирования при предварительной настройке программы сканирования (ограничении области сканирования), либо вручную после сканирования. Основные особенности:
- Во время сканирования страницы должны располагаться на сканере таким образом, чтобы соблюдалась максимально возможная горизонтальная ориентация строчек текста (или вертикальная ориентация, которая потом легко исправляется).
- Перед редактированием сканов обязательно сделать их резервную копию для быстрого исправления возможных ошибок.
- Поворот сканов делается пакетной командой ImageMagick (см. ниже).
- Обрезать лишние поля можно двумя способами:
- Пакетными командами ImageMagick (см. ниже).
- Вручную программой Viewnior (меню «Изображение» → «Обрезать»).
- Обрезка разворотов на отдельные страницы производится командами ImageMagick. В конце имени файлов с левыми страницами добавить «-1», с правыми «-2» (пакетным переименованием). Затем объединить левые и правые страницы в одной папке, сконвертировать и собрать их.
- Проверить результат обрезки. Это быстро делается во Viewnior’е или Geeqie’е.
Повернутые и обрезанные сканы конвертируются и собираются в книгу:
Обработка сканов в Scan Tailor’е [ править ]
Обработка сканов в Scan Tailor состоит из 6 основных операций:
- Исправление ориентации — поворот страниц на угол, кратный 90 градусов.
- Разрезка страниц — разделение разворота книги на две отдельных страницы или обрезка лишней части при постраничном сканировании.
- Компенсация наклона — горизонтальное выравнивание строк текста на странице. Образовавшиеся после обрезки пустые страницы в начале и конце книги удаляем.
- Полезная область — определение границ области с печатными данными (обрезка пустых полей).
- Поля — добавление пустых полей с подгонкой страниц к одному общему размеру, выравнивание полезной области. Примерные размеры полей (мм): нижнее 5, слева и справа по 6, верхнее 7. Выравнивание по середине нижнего края (при нумерации страниц снизу).
- Вывод — итоговая обработка: фон страницы очищается до чисто белого, шрифт становится чисто чёрным с чётким начертанием букв. Страница готова к конвертированию в формат DjVu.
На выводе есть дополнительные вкладки с двумя часто используемыми функциями:
- Зоны картинок — активна при выборе режима вывода «Смешанный». Здесь можно вручную исправить автоматическое определение границ иллюстраций на странице. Возможны 3 свойства выделяемых областей:
- «Вычесть из всех слоёв» — область будет обработана в режиме «Чёрно-белый».
- «Добавить к авто-слою» — область будет обработана в режиме «Цветной / Серый».
- «Вычесть из авто-слоя» — область будет обработана в режиме «Чёрно-белый», но внутри этой области можно создавать зоны со свойством «Добавить к авто-слою».
- Зоны заливки — выделение областей для удаления случайных посторонних элементов на странице.
Для обработки страниц, содержащих только текст и графические изображения (не фото, без полутонов) выбираем режим вывода «Чёрно-белый», для страниц с текстом и фотографиями — «Смешанный». Scan Tailor сохраняет обработанные страницы в папку «out», которая автоматически создаётся в папке со сканами.
Контроль [ править ]
Практически весь процесс обработки сканов необходимо проверять визуально:
- Исправление ориентации — задаётся вручную.
- Разрезка страниц — можно проконтролировать прямо во время обрезки.
- Компенсация наклона — ошибка встречается при отсутствии на странице строчек текста (нет прямолинейных ориентиров).
- Полезная область — основной этап проверки. В полезную область могут попадать посторонние элементы или наоборот, пропускаться часть полезной информации. Пропуски чаще всего возможны вверху и внизу страницы (например номера страниц), реже слева и справа. Для ускорения поиска дефектов можно отсортировать страницы «Сортировка по возрастающей ширине или высоте» (переход по страницам клавишами «Pg Up/Down»).
- Поля — их размер устанавливается вручную.
- Вывод — ошибки возможны в режиме «Смешанный» при определении границ иллюстраций. Исправляется ручной расстановкой границ на боковой вкладке «Зоны картинок».
Конвертирование в DjVu [ править ]
Перед конвертированием проверяем отсутствие пропусков, повторов страниц, правильность их последовательности и отсутствие на них посторонних объектов.
Без img2djvu [ править ]
Если в папке Out все файлы tif обработаны в режиме «Чёрно-белый», то в ней необходимо открыть терминал и последовательно дать две команды, первая из которых конвертирует tif в djvu, а вторая — собирает отдельные страницы в книгу:
С img2djvu [ править ]
Если в папке Out есть файлы tif, созданные в режиме «Смешанный», то необходимо использовать программу img2djvu:
- Помещаем файл скрипта img2djvu в папку с jpeg-сканами, где находится папка Out.
- Открываем терминал в этой же папке и даём команду
, где -l 1 — разделение текста и иллюстраций с наилучшим качеством кодирования последних,
-d 600 — разрешение обработанных сканов,
out — название папки.
По умолчанию img2djvu применяет к изображениям параметры «-contrast -blur 0x1»: -contrast увеличивает контраст, а -blur размывает полиграфический растр. Чтобы отключить это, необходимо запускать img2djvu с параметром -p «»:
После конвертирования всех страниц создаётся файл электронной книги out.djvu (по названию имени папки, в которой находятся обработанные сканы). Осталось присоединить djvu-файл обложки.
Примечание: Если при выставленном масштабе 100 % в программе для просмотра книга выглядит меньше или больше своего истинного размера, значит было неправильно указано разрешение сканов в программе Scan Tailor (что очень влияет на качество обработки), либо неправильно указано разрешение при кодировании в DjVu.
Оглавление [ править ]
Интерактивное оглавление позволяет быстро переходить к нужному разделу электронной книги, поэтому его желательно добавлять. Однако, если оглавление достаточно объёмное, что вызовет значительные трудовые и временные затраты по его добавлению, то можно обойтись без него, добавив только одну ссылку на страницу оглавления в книге. В этом случае читатель сможет перейти на нужную ему страницу, набрав её номер в программе-просмотрщике DjVu-файлов.
При необходимости предварительно программой YAGF + Tesseract распознаём текст с обработанных в Scan Tailor страниц оглавления книги и проверяем его орфографию (например в LibreOffice Writer). Открываем созданный DjVu-файл книги программой DjVuSmooth и добавляем в него оглавление: переходим по страницам клавишами «Pg Up/Down», нажимаем на нужной странице «Ctrl+B» и вносим название пункта оглавления.
Для исправления структуры оглавления, при возможных ошибках визуального редактирования, используем команды:
Извлечение оглавления DjVu-книги с его записью в текстовый файл:
Добавление оглавления в DjVu-книгу из текстового файла:
, где Oglavlenie — имя текстового файла.
Пример оформления оглавления
Принцип работы img2djvu [ править ]
Скрипт img2djvu разделяет и по отдельности конвертирует текстовое изображение и иллюстрации с обработанных в Scan Tailor сканов в режиме вывода «Смешанный». Страницы, обработанные в режиме вывода «Чёрно-белый», сразу конвертируются в DjVu.
Отделение текстового изображения (чёрного цвета) с записью результата в fore.pbm :
Отделение иллюстраций (оттенков серого и цветных) с записью результата в back.ppm . Параметр -contrast увеличивает контраст, а -blur — размывает полиграфический растр:
Конвертирование слоя текстового изображения fore.pbm в sjbz.djvu :
Конвертирование слоя иллюстраций back.ppm в back.djvu :
Создание чанка слоя текстового изображения sjbz.cnk из sjbz.djvu :
Создание чанка слоя иллюстраций bg44.cnk из back.djvu :
Объединение чанков слоя текстового изображения и слоя иллюстраций с созданием файла страницы page.djvu :
Удаление промежуточных файлов:
Команды DjVuLibre [ править ]
Добавление, удаление, извлечение страниц DjVu [ править ]
, где 3.djvu — имя файла третьей страницы,
3 — порядковый номер страницы в документе.
, где 3 — порядковый номер удаляемой из документа страницы.
, где Kniga.djvu — документ,
select 5 — пятая страница в документе,
5.djvu — имя файла сохраняемой пятой страницы.
Конвертирование DjVu в TIFF [ править ]
Конвертирование отдельных страниц документа DjVu в многостраничный TIFF:
, где -page=3-5,7 — номера страниц 3, 4, 5, 7.
Конвертирование всех страниц документа DjVu в многостраничный TIFF:
Конвертирование всех страниц документа DjVu в отдельные файлы-страницы TIFF:
Конвертирование также можно сделать программой DjView.
Команды ImageMagick [ править ]
Вместо 90/180/270 оставить нужное значение 90, 180 или 270.
Источник