From djvu to pdf linux

Конвертирование djvu в pdf

Я вообще с трудом понимаю, нафига нужен djvu «/

Абсолютно неудобный формат, с кривыми ридерами.

В принципе есть програмы, чтобы его сконвертировать в pdf. Но хотелось-бы еще заодно сделать распознавание символов. Так и места будет меньше занимать и, что гораздо важнее на ebook-ридере будет гораздо удобнее читать.

Хотел спросить нету ли какой программы для таких целей. Я же с трудом нашел, для простого конвертирования.

> Я вообще с трудом понимаю, нафига нужен djvu «/

Чтобы скан книги занимал 5 Мб а не 500

Абсолютно неудобный формат, с кривыми ридерами.

Пользуйтесь нормальными DE. В evince смотрятся что pdf, что djvu

В принципе есть програмы, чтобы его сконвертировать в pdf

1. Печать в файл pdf. 2. Поставить Djvu и пользовать внутренний конвертер.

>нафига нужен djvu
Для сканов с опциональным текстовым слоем. Занимает заметно меньше места, чем PDF. Распознавание не везде нужно.

В смысле до конца? Это в сторону FineReader, но под линукс он жутко дорогой. В свободных распознавалках с форматированием беда.

Evince — лучший среди djvu. Но ИМХО не самый удобный. Мне Foxit Reader больше нравится.

1. Печать в файл pdf. 2. Поставить Djvu и пользовать внутренний конвертер.

Это все понятно. Я хочу одним махом всю библиотеку сконвертировать.

Юзаю утитлиты djvu2pdf, но она принимает списком файлы.

Я пробовал сделать так «ls -1R

/Books | grep .djvu | sed -e ‘s/^/»/’ | sed -e ‘s/$/«/’ | xargs -t djvu2pdf». Но во первых мой sed убивает переносы строки, а во вторых ls выдает относительные пути а нужны абсолютные.

открой для себя рекурсивный глоббинг (zsh и bash4.0). вместо
ls -1R

/Books | grep .djvu
будет так
ls

не знаю чем вы там конвертируете, совсем уж в идеальном идеале прокатит просто
djvu2pdf **/*.djvu

Я и забыл, что баш еще и ЯП 🙂

Вопрос, тем не менее остается открытым.

Попробую заюзать какой нибудь OCR

Все предложенное не работает.

/Books/**/*.djvu возвращает такие-же обычные строки. Без кавычек. А в названиях пробелы.

/Books -name ‘*.djvu’ -exec djvu2pdf ‘<>‘ \;

find /path/to/lib -name *.djvu -exec ‘djvue2pdf <>‘ \; уже совсем не катит?

по теме, купи нормальную читалку и спокойно пользуй отличный формат djvu.

Извинте, а что Amazon Kindle уже стал не нормальным?

Спасибо. Теперь работает.

Но он все складывает в домашнюю директорию, что не хорошо. Как я понял второй аргумент файл вывода, хотя в доке ни слова об этом.

Скажу еще пару слов про djvu.

по теме, купи нормальную читалку и спокойно пользуй отличный формат djvu.

Читать книгу картинками это конечно очень круто. У каждой книги свой формат страницы. И у ридера тоже. Текстовый формат можно нормально адаптировать. А картинку только туда сюда маштабировать.

Вы же не стали бы конвертить нормальный pdf (с текстом) в djvu ?

Почти столько же iPad стоит.

>Пользуйтесь нормальными DE
правильно — в кедах есть Okular

[quote]Почти столько же iPad стоит.[/quote]
Не надо путать теплое с мягким, Вы просто не понимаеете разницы между ЖК и е-инк. Погуглите, будет интересно.
По ценам Amazon Kindle пока вне конкуренции:
Kindle Wi-Fi — 139$
Kindle 3G (Free 3G + Wi-Fi, 6″) is available for $189.
Kindle DX (Free 3G, 9.7″) is available for $379.
Плюс 20$ доставка в Украину. Предложите мне что нибудь дешевле такого же качества и начинки.

если не умеет djvue, то в момент создания

Читайте также:  Как создать профиль с правами администратора windows 10

>Я вообще с трудом понимаю, нафига нужен djvu

Я вообще с трудом понимаю, нафига паковать сканированные книги в pdf

>Evince — лучший среди djvu.

Открой для себя Okular

evince удобнее, не считая некоторых моментов выделения и копирования текста. Вобще можно держать djview, libpoppler-based читалку pdf и жить спокойно

>Абсолютно неудобный формат, с кривыми ридерами.
Не более неудобный, чем PDF. Только места занимает в разы меньше.


Но хотелось-бы еще заодно сделать распознавание символов.

Сделай. Cuneiform с некоторого времени стал открытым, а работы там на всех хватит.

В любом случае всё упирается в отсутствие доделанных OCR-систем для этих наших Линуксов.

> Читать книгу картинками это конечно очень круто. У каждой книги свой формат страницы. И у ридера тоже. Текстовый формат можно нормально адаптировать. А картинку только туда сюда маштабировать.

отмасштабировать каждую книгу 1 раз займёт 15 секунд (максимум) времени. В общем-то не очень большая цена. Хотя встречаются иногда умельцы делающие разные форматы страницы в рамках одной книги, но это уже им нужно руки отрывать.

Кстати в djvu есть возможность добавление текстовой подложки, для выделения, поиска, доставания текста.

Насчёт адаптации текстового формата, при наличии блоков кода, таблиц, картинок (особенно сделанных средствами pdf), при изменении размера текста с соответствующими вставками переносов всё начинает безбожно плыть.

Вы же не стали бы конвертить нормальный pdf (с текстом) в djvu ?

если он не занимает >50Мб, то не стал бы.

Я вообще с трудом понимаю, нафига паковать сканированные книги в pdf

Я вообще с трудом понимаю, нафига выкладывать сканированные книги. Тем более под виндой с файнридером, где сидят большинство пиратов.

отмасштабировать каждую книгу 1 раз займёт 15 секунд (максимум) времени. В общем-то не очень большая цена. Хотя встречаются иногда умельцы делающие разные форматы страницы в рамках одной книги, но это уже им нужно руки отрывать.

Ну, во первых такое что начало книги по одному листу а дальше разворотами повсеместно бывает.

А у масштабирования есть адская проблема. Получается что надо, при чтении каждой строки перематывать влево-вправо. Это ад. Да еще на еинке так зарядка будет раз в 10 быстрее тратится. Но даже без этого неюзабельно.

Насчёт адаптации текстового формата, при наличии блоков кода, таблиц, картинок (особенно сделанных средствами pdf), при изменении размера текста с соответствующими вставками переносов всё начинает безбожно плыть.

Нифига. Ну, пдф не пробовал конечно, но читал уже несколько английских книг в амазоновском формате, с кодом и т.п. Смотрится отлично. А если код написан на моем любимом питоне то там и с переносами отлично смотрится. Тем более, что по питоновским Style Guide каждыая строка по 80 символов максимум => обычно не переносится.

Сделай. Cuneiform с некоторого времени стал открытым, а работы там на всех хватит.

О, да. Почему, почти на любой вопрос нужно написать о что надо это напрогать ?

Какое-то общее мнение, что что-бы что-то написать нужно лишь захотеть. А OCR это весьма специфическая область.

И есть множество намного более интересных опенсурс проектов.

Позиция чего-то нет => напрогать приводит либо к заброшенному, глючному проекту, либо к задротичному его допиливанию аля линус торвальдс.

Вот на таких последнем типе и держится опенсурс. Но ИМХО далеко не лучшая жизненная позиция.

> Вы просто не понимаеете разницы между ЖК и е-инк. Погуглите, будет интересно

Игрался с Sony PRS950 во время перелёта USA -> Russia

eink — говно, рефреш медленный, со спец-эффектами, от которых вытекают глаза, нормально скролить диаграммы/текст нельзя, быстро пролистывать и просматривать книги — так же нельзя. Вывод — для чтения худ. лит подходит, но не более. Игрушка-с.

Кто не понимает — попробуйте посмотреть, к примеру, схемы электрические принципиальные на eink и оцень удобства скроллинга и зума.

Источник

Читайте также:  Английская локализация для windows 10

From djvu to pdf linux

PDF и DJVU вполне широко распространенные форматы электронных документов. Казалось бы, каждое современное устройство, будь то планшет, электронная книга или смартфон, должны поддерживать оба формата. Но на практике оказывается, что это далеко не так.

Конечно, для большинства устройств можно найти необходимое приложение. Но что делать, если его нет? Что, если устройство поддерживает всего один из выше указанных форматов, а документ в другом? Для этого придется конвертировать документ из одного формата в другой на ПК. И как это сделать в Linux Ubuntu я сейчас вам расскажу.

Для этого нам понадобиться приложение pdf2djvu. Установим его следующей командой:

sudo apt-get install pdf2djvu

Отлично. Теперь, когда у нас уже имеется это приложение, приступим к самой конвертации. Для этого нам необходимо выполнить всего одну команду:

pdf2djvu -o document2 document1

Где, document1 — полное наименование исходного файла, document2 — имя выходного файла. Помимо имен файлов вам необходимо указывать и расширения файлов.

Для лучшего понимания рассмотрим пример. У вас имеется документ «книга» в формате PDF и конвертировать его необходимо в DJVU. Тогда команда будет иметь такой вид:

pdf2djvu -o книга.djvu книга.pdf

Напомню, что данную команду мы выполняем в директории, где находится сам документ. Для этого необходимо воспользоваться командой cd для перехода или переместить документ в вашу домашнюю папку.

Вот и все. Всего одна команда и конвертация с одного формата документа в другой выполнена.

Источник

Полезные заметки

Что делать если вас полностью поглотил python, с чем едят огненную птицу Firebird и как Oracle всех обскакал — все это и другие полезные булочки ищите в моем блоге.

вторник, 9 ноября 2010 г.

Как сконвертировать djvu в pdf в linux? или «Делаем из мухи слона»

Расскажу один из известных способов на примере (ос — ubuntu).

Имеем файл book.djvu в каталоге

/books.
Для начала необходимо наличие установленных пакетов djvulibre-bin и libtiff-tools.
Если их нет, устанавливаем:
sudo apt-get install djvulibre-bin libtiff-tools
Переходим в каталог с файлом:
cd

/books

Выполняем поочередно:
ddjvu -format=tiff book.djvu tmpfile.tiff
tiff2pdf -z -o book.pdf tmpfile.tiff
Дополнительно пришлось предварительно создать пустые файлы
book.pdf и tmpfile.tiff (команда touch)
Результаты:
конвертировал файл ubuntu.djvu размером 6,6Мб
получил файл ubuntu.pdf размером 235,2 Мб..

Есть еще простой и очевидный способ перегона djvu в pdf: установить в системе виртуальный принтер, способный печатать в файлы PDF, открыть djvu-файл в любом djvu-просмотрщике и пустить на печать через обозначенный выше виртуальный принтер.

Послеscriptum: Сам я абсолютно не вижу смысла в подобной нелепой трансформации, поскольку при любом способе выполнения, в размере файла будет очень значительный проигрыш (по причине различия самих форматов), но вдруг кому понадобится..
. так что, решайте сами, не удобнее ли оставить в формате djvu 🙂

Источник

How do I convert a DjVu document to PDF in Linux using only command line tools?

I’ve got some documents in DjVu which I’ll like convert to PDF. Is there a way to do this using command line OSS tools?

7 Answers 7

djvu2pdf should fit the bill, it’s a small script that makes use of the djvulibre toolset. If not, there are other methods that require multiple command-line tools.

The ddjvu program (which is part of the standard djvulibre package) will do this:

Warning: this produces large files (but PDF files made by Christoph Sieghart’s script are of the same size).

I also wrote the following small shell script some years ago. It does the same automatically. (Save this as djvu2pdf.sh .)

The djvu2pdf script by Christoph Sieghart does essentially the same.

What about simply using DJView and export as PDF?

  1. Goto Synaptic Package Manager (System — Administration — Synaptic Package Manager)
  2. Install DJview4
  3. Run DJview (Applications — Graphics — DJView4)
  4. Open your .djvu document
  5. Menu — Export As: PDF
Читайте также:  Setting domain in linux

In my case the output file was 10x smaller than with ddjvu. Both djvups and ps2pdf present in ubuntu repository.

I’ve found this method in man ddjvu , so always read manuals 😉

An alternate way to produce PDF file consists in first using djvups(1) and convert the resulting PostScript file to PDF. Which method gives better results depends on the contents of the DJVU file and on the capabilities of the PS to PDF converter.

Источник

Converting DJVU to PDF

I want to convert a DJVU document into a PDF document, separating and preserving the text layer and the images while also keeping the structure from the DJVU. How can I do this in Ubuntu?

(I will then be using Calibre to convert to ePub/Mobi, so if there were a Calibre plug-in for this entire process that would be perfect for me!)

Note1: Printing from Evince, exporting from DJview, or anything using the package ddjvu, are not adequate solutions as they discard the text layer, saving only images.

Note2: Using DJVULibre seems to only extract the text layer and pictures are not extracted. Similarly, copying the text «manually» loses the both document structure and the pictures.

7 Answers 7

Method 1

Simply use DJView and export as PDF

  1. Goto Synaptic Package Manager
  2. Install DJview4
  3. Run DJview (Applications — Graphics — DJView4)
  4. Open your .djvu document
  5. : Menu — Export As: PDF

Method 2

Open the djvu file in evince
Select print —-> print to file
change .ps to .pdf and click print

Method 3

djvulibre-bin libdjvulibre21 okular-extra-backends evince libevdocument3 libevview3

Goto terminal and write

Goto the directory where the djvu file is present. Click the right mouse button. Goto “Open In Terminal” option. Click on it. A terminal will open.

In that terminal write

Method 4

There is also an online converter DjVu to PDF converter

Here is one way, which would require some not so common tools:

  1. ocrodjvu
  2. pdfbeads, that has it’s own requirements which can be found by Google

We can use djvu2hocr command (from ocrodjvu package) to extract hidden text layer from DjVu file (it doesn’t do any OCR or similar, it just extracts text layer with geometry), i.e.:

djvu2hocr -p 10 sample.djvu | sed ‘s/ocrx/ocr/g’ > pg10.html

sed intervention corrects class names in output hOCR (which is just simple HTML file)

Now we extract DjVu page to TIFF format with:

ddjvu -format=tiff -page=10 sample.djvu pg10.tif

so that we end with these file in out work folder:

This is where pdfbeads comes in play, and we simple execute:

pdfbeads -o pg10.pdf

then this nifty program takes care of everything that’s inside this folder (HTML and TIFF files with same base name) and produces output PDF file with some by-products:

which is identical to input DjVu file and has text layer inside:

Comments summary:

Lengthy comments below discuss representing smaller images from DjVu document page as separate objects, which is not easily possible because DjVu document page is itself just a single image with optional text layer, with no «information» about smaller images as separate objects. If DjVu document has color images, then they’ll be usually placed on background layer; in this case user can take advantage of tools like ddjvu (extract only background layer) and imagemagick (auto-crop) to output just images instead whole canvas, but it can’t be automated for creating PDF output

Another saner, but slower approach is use of regular OCR GUI tools. gscan2pdf (> 1.0) is suggested as possible candidate for Linux PC

Источник

Оцените статью