- Разрезание и слияние файлов PDF в Linux с помощью PDF-Shuffler
- Работа с программой
- Проблемы при работе с программой
- Как разделить PDF на Linux
- Разделение PDF в Linux с помощью Ghostscript
- Доступные инструменты PDF для разделения PDF в Linux
- 1. PDFtk
- 2. PDF-Shuffler
- Лучший способ разделения PDF в Windows
- Лучший инструмент для разделения PDF на Mac
- Разбираем PDF документ на отдельные PDF страницы.
- Кунг-фу стиля Linux: PDF для пингвинов
- Графические инструменты
- Маскировка текста
- Волшебство командной строки
- Путешествие из текста в PDF и обратно
- Инструменты для решения особых задач печати документов и другие инструменты
- Итоги
Разрезание и слияние файлов PDF в Linux с помощью PDF-Shuffler
Если у вас есть два или больше файлов в формате doc или odt, вы легко можете открыть их в тестовом процессоре и вырезать/вставлять содержимое, чтобы разделить или слить вместе эти файлы. А что делать с документами в формате PDF? Если у вас есть несколько файлов PDF, из которых необходимо создать один документ, как это можно сделать без сложных манипуляций? В Linux для решения такой задачи имеется программа PDF-Shuffler.
PDF-Shuffler — это фронтенд к pyPdf — набору инструментов для работы с PDF, созданному с использованием библиотеки pure-python. Он способен извлекать метаданные документа, разрезать и склеивать документы, кадрировать страницы, дешифровывать и зашифровывать содержимое файлов PDF. PDF-Shuffler просто использует возможности pyPdf по разрезанию и склеиванию документов и позволяет делать это с использованием простого и удобного графического интерфейса.
В дистрибутивах на базе Debian, чтобы установить PDF-Shuffler, достаточно выполнить в терминале следующую команду:
В Ubuntu это можно сделать еще проще, так как программа имеется в Центре приложений. Кроме того, вы можете просто загрузить deb-файл из Sourceforge и установить его в своей системе.
Работа с программой
Программа проста в использовании. Запустите PDF-Shuffler. Кликните на кнопку «Import pdf» для загрузки своего файла (файлов) PDF.
После загрузки в программу файла PDF вы можете перетаскивать страницы, чтобы изменить порядок их следования в документе, а также выделить любую страницу и удалить ее из файла, нажав кнопку «Delete page(s)». Вы также можете импортировать другие файлы PDF, чтобы объединить их с текущим документом.
Закончив редактирование, просто нажмите кнопку «Export pdf», чтобы сохранить результаты своей работы. На этом все. Не правда ли все просто?
Проблемы при работе с программой
При использовании функции «export» у меня наблюдались некоторые трудности. При нажатии на соответствующую кнопку просто ничего непроисходило. В результате потребовалось несколько попыток, прежде чем мне удалось сохранить результаты работы. Быстрый поиск в интернете показал, что имеются некоторые проблемы с функциональностью pyPdf при экспорте, однако они встречаются очень редко и у небольшого числа пользователей, так что, может быть мне просто не повезло.
Источник
Как разделить PDF на Linux
Audrey Goodwin
2021-05-20 14:31:58 • Опубликовано : Знание PDF-файлов • Проверенные решения
Для разделения PDF на несколько файлов в Windows, доступны различные программы и онлайн разделители PDF. Лучший способ разделить PDF файлы — использовать надежную программу, например PDFelement, или аналогичные онлайн инструменты. Ниже в статье представлены различные инструменты для разделения PDF файлов и их основные функции.
Разделение PDF в Linux с помощью Ghostscript
Вы можете разделять PDF файлы с помощью Ghostscript. У пользователей Linux Ghostscript уже установлен в системе. Если это действительно так, Вы можете использовать этот простой способ в следующем порядке.
Шаг 1: #!/bin/bash # Использование ./PDFsplitr.sh inputfile.PDF outputfile.PDF pagenumber # Пример: ./PDFsplitr.sh myfile.PDF myotherfile.PDF 2 GS=$(which gs) # Убедитесь, что Ghostscript установлен if [[ $GS = «» ]] then echo «Ghostscript is not installed» exit fi # Запустите преобразование. $GS -sDEVICE=PDFwrite -q -dNOPAUSE -dBATCH -sOutputFile=$2 -dFirstPage=$3 -dLastPage=$3 $1
Шаг 2: Укажите файл, который хотите разделить, выходной файл и номер страницы в следующем формате: ./PDFsplitr.sh myoriginal.PDF mysplittedfile.PDF 2
Шаг 3: Сохраните Ваш скрипт в ‘PDFsplitr.sh’ .
Доступные инструменты PDF для разделения PDF в Linux
1. PDFtk
PDFtk — это набор инструментов для объединения, разделения и прикрепления файлов к PDF документам в Linux. Например, если Вы хотите удалить страницы с 20 по 25 из документа PDF, все, что Вам нужно сделать, это ввести команду «PDFtk myDocument.PDF cat 1-9 26-end output removedPages.PDF «.
- В нем есть опция «Пакетная печать», которая дает пользователям возможность разделить PDF файл на несколько файлов, сделав один файл для каждой страницы.
- Имеет возможность легко удалять определенные страницы PDF из файла.
- Гибкий и довольно простой в использовании.
2. PDF-Shuffler
PDF Shuffler — это небольшое приложение Python-GTK, способное разделять и объединять файлы PDF в Linux. Вы можете установить его вручную, ведь это очень просто. Вы также можете использовать команду sudo apt-get install PDFshuffler.
- При использовании нескольких файлов PDF, Вы можете открыть каждый файл отдельно, повторно нажав кнопку «Импорт».
- Обратите внимание, что эти страницы будут добавлены в окно просмотра в виде серии эскизов.
Лучший способ разделения PDF в Windows
PDFelement — это универсальный инструмент для работы с PDF, который можно использовать для выполнения большого количества различных задач PDF на Windows. Одна из таких задач — разделение документов PDF. Он может разделять файлы PDF с высоким уровнем настройки.
Советы по разделению PDF файла в Windows
- Для начала перейдите в меню «Страницы» на правой панели «Инструменты» и нажмите кнопку «Разделить документ». Появится всплывающее окно, в котором можно изменить настройки. Например, Вы можете разделить документ по определенным номерам страниц, нечетным или четным и т.д. Вы также можете настроить страницу, которую хотите разделить, ввести номера и выбрать диапазон страниц.
- Вы также можете использовать функцию кадрирования для извлечения определенных страниц PDF или изображений. Сохраните их в своей локальной папке для использования в будущем.
- Обратите внимание, что есть ограничения на пробную версию этого программного обеспечения. Рекомендуется использовать платную версию, если хотите получить доступ ко всем функциям.
Лучший инструмент для разделения PDF на Mac
PDFelement — это высокопроизводительное программное обеспечение, которое может разделять документы PDF на Mac. Фактически, оно считается лучшим инструментом для разделения PDF документов для пользователей Mac. Оно простое в использовании и предлагает пользователям высококачественные выходные файлы. Этот инструмент также позволяет настраивать параметры в процессе разделения.
Советы по разделению PDF на Mac
- Обратите внимание, что в PDFelement для Mac пользователи могут обрезать, вставлять, объединять или извлекать страницы из меню «Страница». Вы можете разделить или вырезать PDF файлы или страницы с помощью функции разделения документа или обрезки страницы.
- Обратите внимание, что существуют ограничения на пробную версию этого программного обеспечения, и Вам необходимо купить платную версию, чтобы получить доступ к полным функциям.
Источник
Разбираем PDF документ на отдельные PDF страницы.
В сегодняшней заметке я покажу, как исходный PDF документ разбить на страницы каждая, из которых, будет представлена PDF страницей. Нам понадобится консольная утилита, не раз применяемая в моих заметках – это pdftk.
И так у нас есть система:
$ lsb_release -a && uname -a
Description: Ubuntu 10.10
Linux vkeiz 2.6.35-22-generic #33-Ubuntu SMP Sun Sep 19 20:34:50 UTC 2010 i686 GNU/Linux
Для наших целей я создал в домашней каталоге папку и назвал её “pdf_on_output_pdf”, перейдем в неё:
В нём лежит PDF’ый документ (а именно купленный журнал Linux Format, выпуск – 154.pdf).
Теперь установим в нашу систему пакет pdftk из репозитариев Ubuntu 10.10 :
“в моем случае устанавливает такое большое число пакетов, у вас же может быть либо больше, либо меньше”
/pdf_on_output_pdf$ sudo apt-get install pdftk
Reading package lists… Done
Building dependency tree
Reading state information… Done
The following packages were automatically installed and are no longer required:
esound-common libesd0 libaudiofile0 esound-clients libaudio2
Use ‘apt-get autoremove’ to remove them.
The following extra packages will be installed:
ca-certificates-java default-jre default-jre-headless gcj-4.4-base
gcj-4.4-jre-lib icedtea-6-jre-cacao java-common libaccess-bridge-java
libaccess-bridge-java-jni libbcmail-java libbcmail-java-gcj libbcprov-java
libgcj-bc libgcj-common libgcj10 libgif4 libgnuinet-java libgnujaf-java
libgnumail-java libitext-java libitext-java-gcj openjdk-6-jre
openjdk-6-jre-headless openjdk-6-jre-lib ttf-dejavu-extra tzdata tzdata-java
equivs java-virtual-machine libbcmail-java-doc libbcprov-java-gcj
libbcprov-java-doc libgcj10-dbg libgcj10-awt libgnumail-java-doc
icedtea6-plugin sun-java6-fonts ttf-sazanami-gothic ttf-kochi-gothic
ttf-sazanami-mincho ttf-kochi-mincho ttf-telugu-fonts ttf-oriya-fonts
The following NEW packages will be installed:
ca-certificates-java default-jre default-jre-headless gcj-4.4-base
gcj-4.4-jre-lib icedtea-6-jre-cacao java-common libaccess-bridge-java
libaccess-bridge-java-jni libbcmail-java libbcmail-java-gcj libbcprov-java
libgcj-bc libgcj-common libgcj10 libgif4 libgnuinet-java libgnujaf-java
libgnumail-java libitext-java libitext-java-gcj openjdk-6-jre
openjdk-6-jre-headless openjdk-6-jre-lib pdftk ttf-dejavu-extra tzdata-java
The following packages will be upgraded:
1 upgraded, 27 newly installed, 0 to remove and 375 not upgraded.
Need to get 66.4MB of archives.
After this operation, 166MB of additional disk space will be used.
Do you want to continue [Y/n]? y – соглашаемся.
Теперь отобразим информацию по нашему PDF документу :
/pdf_on_output_pdf$ pdfinfo 154.pdf
Creator: Adobe InDesign CS3 (5.0)
Producer: Adobe PDF Library 8.0
CreationDate: Mon Jan 30 23:51:23 2012 – дата подготовки документа
ModDate: Fri Mar 2 13:08:57 2012
Pages: 116 – Количество страниц в документе
Encrypted: no – Документ не зашифрован
Page size: 595.276 x 841.89 pts (A4) – Формат страниц
File size: 29301782 bytes – Размер документа в байтах
Либо вот через такую строчку:
/pdf_on_output_pdf$ pdftk 154.pdf dump_data output | grep Pages | grep -o ‘6*’
116 – Количество страниц в PDF документе.
Для нас здесь наиболее ценную информацию играет значение — “Pages”, где указано количество страниц в документе. С подготовительными действиями разобрались и инструментами: документ и утилита.
Вытащим из PDF документа, определённые страницы (к примеру, 5’ую) и сохраним их в PDF :
/pdf_on_output_pdf$ pdftk 154.pdf cat 5 output 5.pdf
, если нужно указать диапазон извлекаемых страниц ( c 5’ую по 10’ую) :
/pdf_on_output_pdf$ pdftk 154.pdf cat 5-10 output 5.pdf
, если нужно извлечь все страницы каждая в отдельный pdf документ:
/pdf_on_output_pdf$ pdftk 154.pdf burst
В итоге мы получили файл содержащий метаинформацию по исходному PDF документу и каждую страницу представленную в формате PDF. Что нам собственно и требовалось. На этом всё, удачи.
Используйте прокси ((заблокировано роскомнадзором, используйте vpn или proxy)) при использовании Telegram клиента:
Поблагодари автора и новые статьи
будут появляться чаще 🙂
Карта МКБ: 4432-7300-2472-8059
Большое спасибо тем кто благодарит автора за практические заметки небольшими пожертвованиями. С уважением, Олло Александр aka ekzorchik.
Источник
Кунг-фу стиля Linux: PDF для пингвинов
Вначале PostScript представлял собой язык программирования для принтеров. И хотя PostScript-принтеры всё ещё не потеряли актуальности, существует и множество других форматов, в которых можно отправлять данные на печать. Но благодаря PostScript появился Portable Document Format — PDF, который стал невообразимо популярным. Пожалуй, не проходит и дня, чтобы каждый из нас не просмотрел бы какой-нибудь PDF-документ на своём компьютере. Конечно, есть и форматы, конкурирующие с PDF, но им, в сравнении с PDF, принадлежит лишь небольшая доля рынка. Просмотр PDF-файлов в Linux — это не проблема. А как насчёт их редактирования? Как оказалось, это тоже несложно, правда, только если знать о том, как именно это делается.
Графические инструменты
Существует множество инструментов для редактирования PDF-файлов в Linux. Главная проблема тут — качество получаемого результата. Для редактирования PDF-файлов можно воспользоваться, например, LibreOffice Draw, Inkscape или даже GIMP. Эти инструменты, как правило, отлично справляются с простыми задачами, например — когда нужно лишь убрать что-то из документа, перекрыв это белым прямоугольником, или когда надо сделать в документе какое-то примечание. А вот если речь идёт о более сложных изменениях, или о получении документов, элементы которых выверены до последнего пикселя, то эти инструменты для решения таких задач вполне могут и не подойти.
Редактирование PDF-документа в GIMP
Основная сложность тут в том, что большинство подобных инструментов работают с PDF-документами как с изображениями, или, как минимум, как с коллекциями объектов. Например, текстовые колонки, вероятно, будут преобразованы в наборы отдельных строк. Изменение чего-либо, что вызывает переход текста на новую строку, приведёт к необходимости ручного изменения других строк. А иногда то, что выглядит как текст, текстом, на самом деле, не является. Текст может быть представлен изображениями. Это сильно зависит в первую очередь от того, как именно был создан конкретный PDF-файл.
Если вы не против использования онлайн-инструментов, то вам, в деле работы с PDF, может пригодиться PDFEscape — бесплатный и весьма достойный редактор. Среди других вариантов можно отметить Scribus и Okular. Оба эти инструмента, на самом деле, не умеют редактировать файлы, но могут импортировать их в виде изображений, с которыми уже можно работать. Например, в Okular, в режиме предварительного просмотра документов, можно добавлять в документы аннотации, вроде тех, которыми отмечают самое интересное, и элементы, нарисованные от руки.
Неудивительно то, что emacs умеет выводить PDF-файлы при запуске под X. Можно использовать Control+C Control+C для переключения на просмотр текстового представления файла. В конце концов, большинство PDF-файлов представляют собой файлы, содержащие текст, а emacs поддерживает даже работу с бинарными файлами. Поэтому, если вы не против поработать с внутренним содержимым PDF-файлов, которое очень похоже на PostScript, вы можете редактировать PDF-файлы в emacs или в каком-нибудь другом текстовом редакторе.
Существует несколько специализированных платных PDF-редакторов и как минимум один опенсорсный редактор такого рода. Но, конечно, как и для решения большинства задач в Linux, для редактирования PDF-файлов можно пользоваться инструментами командной строки.
Маскировка текста
Проблема работы с PDF-файлами, представленными в виде обычного текста, заключается в том, что, даже при просмотре их emacs, текстовые данные в таких файлах часто сжаты и, в результате, нечитаемы. Например, буквы, из которых состоят слова, могут быть разделены кодом, форматирующим их, или другими данными. Поэтому поискать некий текст в подобных файлах, вполне возможно, не получится.
PDF-файлы можно конвертировать в формат, при использовании которого сжатие не слишком сильно портит текст, но это — тоже не панацея. Например, если открыть следующий фрагмент кода статьи про любительскую радиосвязь и задаться целью изменить слово «convention», то сложно будет понять даже то, где именно находится это слово. Но оно, тем не менее, где-то здесь:
3 0 obj > stream
Волшебство командной строки
Существует такой инструмент — qpdf , который умеет конвертировать PDF-файлы в другие PDF-файлы. Он может оптимизировать эти файлы в расчёте на их размещение в интернете или в расчёте на редактирование текста. Он умеет выполнять простые операции вроде удаления страниц или объединения фрагментов нескольких файлов. Вы можете взглянуть на документацию по нему. В вышеприведённом примере мы воспользовались режимом QDF для создания совершенно нормального PDF-файла, все объекты которого размещены в соответствии с их порядковыми номерами, в котором используется обычный для Unix способ завершения строк. Такие свойства выходных файлов упрощают их редактирование в обычных текстовых редакторах, но, как мы уже видели, это, всё равно, не такая уж и простая задача. Например, довольно-таки сложно удалить объект целиком, но если избавиться ото всех его упоминаний, то можно, воспользовавшись fix-qdf , воссоздать нормальный QDF-файл.
Ещё один способ выполнения простых правок PDF-документов предусматривает использование PDFtk Server (PDFtk, без «Server», это графический набор инструментов для Windows). С помощью PDFtk можно объединять или разделять документы, поворачивать страницы и решать много других распространённых задач. Например — вот как объединить все материалы двух файлов:
Можно сделать то же самое, но пропустив, скажем, страницу №9:
Ещё можно перемешивать страницы объединённых документов, располагая их в нужном порядке:
Путешествие из текста в PDF и обратно
Если нужно, пользуясь инструментами командной строки, преобразовать текст в PDF, решить эту задачу можно разными способами. Например, существует отличный инструмент Pandoc, который позволяет преобразовывать материалы, оформленные с помощью одних языков разметки, в материалы, оформленные с помощью других способов описания документов. В частности, речь идёт о возможности преобразования практически всего чего угодно в PDF.
Ещё можно использовать различные комбинации ps2pdf (вместе с инструментом для генерирования PostScript-данных), pdf2text (этот инструмент входит в состав пакета poppler-utils) или Ghostscript для создания PDF-файлов или для извлечения из них текстовых данных. Надо сказать, что Ghostscript — это весьма мощный инструмент, среди возможностей которого можно отметить преобразование PDF-файлов в различные графические форматы. Это может пригодиться, если нужно, например, выводить их на веб-страницах в виде изображений.
Инструменты для решения особых задач печати документов и другие инструменты
Иногда нужно модифицировать PDF-файл в расчёте на то, что он будет определённым образом выведен на печать. Мы уже говорили, например, о том, как совмещать нечётные и чётные страницы документов, но есть и другие способы подготовки документов к печати:
- pdfxup — инструмент, задействующий возможности pdflatex и Ghostscript для размещения нескольких PDF-страниц (например — двух) на одной печатной странице.
- pdfjam — использует LaTeX для размещения документов на страницах разных размеров или для вывода нескольких страниц документа на одной печатной странице.
- pdfposter — умеет создавать печатные изображения огромных размеров на нескольких страницах, беря за основу одну страницу.
Если вы предпочитаете инструменты с графическим интерфейсом — можете взглянуть на PDFsam Basic. А если вас интересует ПО для работы с PDF, написанное на Java — обратите внимание на Multivalent.
Итоги
В Linux существует множество способов решения одних и тех же повседневных задач. Это справедливо и для задач, связанных с PDF-документами. Но иногда самое сложное заключается не в том, чтобы решить задачу, а в том, чтобы найти инструмент, который идеально подходит под требования и стиль работы пользователя.
Чем вы пользуетесь для редактирования PDF-файлов в Linux?
Источник