Linux как разделить pdf

Разрезание и слияние файлов PDF в Linux с помощью PDF-Shuffler

Если у вас есть два или больше файлов в формате doc или odt, вы легко можете открыть их в тестовом процессоре и вырезать/вставлять содержимое, чтобы разделить или слить вместе эти файлы. А что делать с документами в формате PDF? Если у вас есть несколько файлов PDF, из которых необходимо создать один документ, как это можно сделать без сложных манипуляций? В Linux для решения такой задачи имеется программа PDF-Shuffler.
PDF-Shuffler — это фронтенд к pyPdf — набору инструментов для работы с PDF, созданному с использованием библиотеки pure-python. Он способен извлекать метаданные документа, разрезать и склеивать документы, кадрировать страницы, дешифровывать и зашифровывать содержимое файлов PDF. PDF-Shuffler просто использует возможности pyPdf по разрезанию и склеиванию документов и позволяет делать это с использованием простого и удобного графического интерфейса.

В дистрибутивах на базе Debian, чтобы установить PDF-Shuffler, достаточно выполнить в терминале следующую команду:

В Ubuntu это можно сделать еще проще, так как программа имеется в Центре приложений. Кроме того, вы можете просто загрузить deb-файл из Sourceforge и установить его в своей системе.

Работа с программой

Программа проста в использовании. Запустите PDF-Shuffler. Кликните на кнопку «Import pdf» для загрузки своего файла (файлов) PDF.

После загрузки в программу файла PDF вы можете перетаскивать страницы, чтобы изменить порядок их следования в документе, а также выделить любую страницу и удалить ее из файла, нажав кнопку «Delete page(s)». Вы также можете импортировать другие файлы PDF, чтобы объединить их с текущим документом.

Закончив редактирование, просто нажмите кнопку «Export pdf», чтобы сохранить результаты своей работы. На этом все. Не правда ли все просто?

Проблемы при работе с программой

При использовании функции «export» у меня наблюдались некоторые трудности. При нажатии на соответствующую кнопку просто ничего непроисходило. В результате потребовалось несколько попыток, прежде чем мне удалось сохранить результаты работы. Быстрый поиск в интернете показал, что имеются некоторые проблемы с функциональностью pyPdf при экспорте, однако они встречаются очень редко и у небольшого числа пользователей, так что, может быть мне просто не повезло.

Источник

Как разделить PDF на Linux

Audrey Goodwin

2021-05-20 14:31:58 • Опубликовано : Знание PDF-файлов • Проверенные решения

Для разделения PDF на несколько файлов в Windows, доступны различные программы и онлайн разделители PDF. Лучший способ разделить PDF файлы — использовать надежную программу, например PDFelement, или аналогичные онлайн инструменты. Ниже в статье представлены различные инструменты для разделения PDF файлов и их основные функции.

Разделение PDF в Linux с помощью Ghostscript

Вы можете разделять PDF файлы с помощью Ghostscript. У пользователей Linux Ghostscript уже установлен в системе. Если это действительно так, Вы можете использовать этот простой способ в следующем порядке.

Шаг 1: #!/bin/bash # Использование ./PDFsplitr.sh inputfile.PDF outputfile.PDF pagenumber # Пример: ./PDFsplitr.sh myfile.PDF myotherfile.PDF 2 GS=$(which gs) # Убедитесь, что Ghostscript установлен if [[ $GS = «» ]] then echo «Ghostscript is not installed» exit fi # Запустите преобразование. $GS -sDEVICE=PDFwrite -q -dNOPAUSE -dBATCH -sOutputFile=$2 -dFirstPage=$3 -dLastPage=$3 $1

Шаг 2: Укажите файл, который хотите разделить, выходной файл и номер страницы в следующем формате: ./PDFsplitr.sh myoriginal.PDF mysplittedfile.PDF 2

Шаг 3: Сохраните Ваш скрипт в ‘PDFsplitr.sh’ .

Доступные инструменты PDF для разделения PDF в Linux

1. PDFtk

PDFtk — это набор инструментов для объединения, разделения и прикрепления файлов к PDF документам в Linux. Например, если Вы хотите удалить страницы с 20 по 25 из документа PDF, все, что Вам нужно сделать, это ввести команду «PDFtk myDocument.PDF cat 1-9 26-end output removedPages.PDF «.

  • В нем есть опция «Пакетная печать», которая дает пользователям возможность разделить PDF файл на несколько файлов, сделав один файл для каждой страницы.
  • Имеет возможность легко удалять определенные страницы PDF из файла.
  • Гибкий и довольно простой в использовании.
Читайте также:  Aladdin etoken driver windows

2. PDF-Shuffler

PDF Shuffler — это небольшое приложение Python-GTK, способное разделять и объединять файлы PDF в Linux. Вы можете установить его вручную, ведь это очень просто. Вы также можете использовать команду sudo apt-get install PDFshuffler.

  • При использовании нескольких файлов PDF, Вы можете открыть каждый файл отдельно, повторно нажав кнопку «Импорт».
  • Обратите внимание, что эти страницы будут добавлены в окно просмотра в виде серии эскизов.

Лучший способ разделения PDF в Windows

PDFelement — это универсальный инструмент для работы с PDF, который можно использовать для выполнения большого количества различных задач PDF на Windows. Одна из таких задач — разделение документов PDF. Он может разделять файлы PDF с высоким уровнем настройки.

Советы по разделению PDF файла в Windows

  • Для начала перейдите в меню «Страницы» на правой панели «Инструменты» и нажмите кнопку «Разделить документ». Появится всплывающее окно, в котором можно изменить настройки. Например, Вы можете разделить документ по определенным номерам страниц, нечетным или четным и т.д. Вы также можете настроить страницу, которую хотите разделить, ввести номера и выбрать диапазон страниц.
  • Вы также можете использовать функцию кадрирования для извлечения определенных страниц PDF или изображений. Сохраните их в своей локальной папке для использования в будущем.
  • Обратите внимание, что есть ограничения на пробную версию этого программного обеспечения. Рекомендуется использовать платную версию, если хотите получить доступ ко всем функциям.

Лучший инструмент для разделения PDF на Mac

PDFelement — это высокопроизводительное программное обеспечение, которое может разделять документы PDF на Mac. Фактически, оно считается лучшим инструментом для разделения PDF документов для пользователей Mac. Оно простое в использовании и предлагает пользователям высококачественные выходные файлы. Этот инструмент также позволяет настраивать параметры в процессе разделения.

Советы по разделению PDF на Mac

  • Обратите внимание, что в PDFelement для Mac пользователи могут обрезать, вставлять, объединять или извлекать страницы из меню «Страница». Вы можете разделить или вырезать PDF файлы или страницы с помощью функции разделения документа или обрезки страницы.
  • Обратите внимание, что существуют ограничения на пробную версию этого программного обеспечения, и Вам необходимо купить платную версию, чтобы получить доступ к полным функциям.

Источник

Разбираем PDF документ на отдельные PDF страницы.

В сегодняшней заметке я покажу, как исходный PDF документ разбить на страницы каждая, из которых, будет представлена PDF страницей. Нам понадобится консольная утилита, не раз применяемая в моих заметках – это pdftk.

И так у нас есть система:

$ lsb_release -a && uname -a

Description: Ubuntu 10.10

Linux vkeiz 2.6.35-22-generic #33-Ubuntu SMP Sun Sep 19 20:34:50 UTC 2010 i686 GNU/Linux

Для наших целей я создал в домашней каталоге папку и назвал её “pdf_on_output_pdf”, перейдем в неё:

В нём лежит PDF’ый документ (а именно купленный журнал Linux Format, выпуск – 154.pdf).

Теперь установим в нашу систему пакет pdftk из репозитариев Ubuntu 10.10 :

“в моем случае устанавливает такое большое число пакетов, у вас же может быть либо больше, либо меньше”

/pdf_on_output_pdf$ sudo apt-get install pdftk

Reading package lists… Done

Building dependency tree

Reading state information… Done

The following packages were automatically installed and are no longer required:

esound-common libesd0 libaudiofile0 esound-clients libaudio2

Use ‘apt-get autoremove’ to remove them.

The following extra packages will be installed:

ca-certificates-java default-jre default-jre-headless gcj-4.4-base

gcj-4.4-jre-lib icedtea-6-jre-cacao java-common libaccess-bridge-java

libaccess-bridge-java-jni libbcmail-java libbcmail-java-gcj libbcprov-java

libgcj-bc libgcj-common libgcj10 libgif4 libgnuinet-java libgnujaf-java

libgnumail-java libitext-java libitext-java-gcj openjdk-6-jre

openjdk-6-jre-headless openjdk-6-jre-lib ttf-dejavu-extra tzdata tzdata-java

equivs java-virtual-machine libbcmail-java-doc libbcprov-java-gcj

libbcprov-java-doc libgcj10-dbg libgcj10-awt libgnumail-java-doc

icedtea6-plugin sun-java6-fonts ttf-sazanami-gothic ttf-kochi-gothic

ttf-sazanami-mincho ttf-kochi-mincho ttf-telugu-fonts ttf-oriya-fonts

The following NEW packages will be installed:

ca-certificates-java default-jre default-jre-headless gcj-4.4-base

gcj-4.4-jre-lib icedtea-6-jre-cacao java-common libaccess-bridge-java

libaccess-bridge-java-jni libbcmail-java libbcmail-java-gcj libbcprov-java

libgcj-bc libgcj-common libgcj10 libgif4 libgnuinet-java libgnujaf-java

libgnumail-java libitext-java libitext-java-gcj openjdk-6-jre

openjdk-6-jre-headless openjdk-6-jre-lib pdftk ttf-dejavu-extra tzdata-java

The following packages will be upgraded:

1 upgraded, 27 newly installed, 0 to remove and 375 not upgraded.

Need to get 66.4MB of archives.

After this operation, 166MB of additional disk space will be used.

Do you want to continue [Y/n]? y – соглашаемся.

Теперь отобразим информацию по нашему PDF документу :

/pdf_on_output_pdf$ pdfinfo 154.pdf

Читайте также:  Как отключить блокировку компьютера windows 10 при включении

Creator: Adobe InDesign CS3 (5.0)

Producer: Adobe PDF Library 8.0

CreationDate: Mon Jan 30 23:51:23 2012 – дата подготовки документа

ModDate: Fri Mar 2 13:08:57 2012

Pages: 116 – Количество страниц в документе

Encrypted: no – Документ не зашифрован

Page size: 595.276 x 841.89 pts (A4) – Формат страниц

File size: 29301782 bytes – Размер документа в байтах

Либо вот через такую строчку:

/pdf_on_output_pdf$ pdftk 154.pdf dump_data output | grep Pages | grep -o ‘6*’

116 – Количество страниц в PDF документе.

Для нас здесь наиболее ценную информацию играет значение — “Pages”, где указано количество страниц в документе. С подготовительными действиями разобрались и инструментами: документ и утилита.

Вытащим из PDF документа, определённые страницы (к примеру, 5’ую) и сохраним их в PDF :

/pdf_on_output_pdf$ pdftk 154.pdf cat 5 output 5.pdf

, если нужно указать диапазон извлекаемых страниц ( c 5’ую по 10’ую) :

/pdf_on_output_pdf$ pdftk 154.pdf cat 5-10 output 5.pdf

, если нужно извлечь все страницы каждая в отдельный pdf документ:

/pdf_on_output_pdf$ pdftk 154.pdf burst

В итоге мы получили файл содержащий метаинформацию по исходному PDF документу и каждую страницу представленную в формате PDF. Что нам собственно и требовалось. На этом всё, удачи.

Используйте прокси ((заблокировано роскомнадзором, используйте vpn или proxy)) при использовании Telegram клиента:

Поблагодари автора и новые статьи

будут появляться чаще 🙂

Карта МКБ: 4432-7300-2472-8059

Большое спасибо тем кто благодарит автора за практические заметки небольшими пожертвованиями. С уважением, Олло Александр aka ekzorchik.

Источник

Кунг-фу стиля Linux: PDF для пингвинов

Вначале PostScript представлял собой язык программирования для принтеров. И хотя PostScript-принтеры всё ещё не потеряли актуальности, существует и множество других форматов, в которых можно отправлять данные на печать. Но благодаря PostScript появился Portable Document Format — PDF, который стал невообразимо популярным. Пожалуй, не проходит и дня, чтобы каждый из нас не просмотрел бы какой-нибудь PDF-документ на своём компьютере. Конечно, есть и форматы, конкурирующие с PDF, но им, в сравнении с PDF, принадлежит лишь небольшая доля рынка. Просмотр PDF-файлов в Linux — это не проблема. А как насчёт их редактирования? Как оказалось, это тоже несложно, правда, только если знать о том, как именно это делается.

Графические инструменты

Существует множество инструментов для редактирования PDF-файлов в Linux. Главная проблема тут — качество получаемого результата. Для редактирования PDF-файлов можно воспользоваться, например, LibreOffice Draw, Inkscape или даже GIMP. Эти инструменты, как правило, отлично справляются с простыми задачами, например — когда нужно лишь убрать что-то из документа, перекрыв это белым прямоугольником, или когда надо сделать в документе какое-то примечание. А вот если речь идёт о более сложных изменениях, или о получении документов, элементы которых выверены до последнего пикселя, то эти инструменты для решения таких задач вполне могут и не подойти.

Редактирование PDF-документа в GIMP

Основная сложность тут в том, что большинство подобных инструментов работают с PDF-документами как с изображениями, или, как минимум, как с коллекциями объектов. Например, текстовые колонки, вероятно, будут преобразованы в наборы отдельных строк. Изменение чего-либо, что вызывает переход текста на новую строку, приведёт к необходимости ручного изменения других строк. А иногда то, что выглядит как текст, текстом, на самом деле, не является. Текст может быть представлен изображениями. Это сильно зависит в первую очередь от того, как именно был создан конкретный PDF-файл.

Если вы не против использования онлайн-инструментов, то вам, в деле работы с PDF, может пригодиться PDFEscape — бесплатный и весьма достойный редактор. Среди других вариантов можно отметить Scribus и Okular. Оба эти инструмента, на самом деле, не умеют редактировать файлы, но могут импортировать их в виде изображений, с которыми уже можно работать. Например, в Okular, в режиме предварительного просмотра документов, можно добавлять в документы аннотации, вроде тех, которыми отмечают самое интересное, и элементы, нарисованные от руки.

Неудивительно то, что emacs умеет выводить PDF-файлы при запуске под X. Можно использовать Control+C Control+C для переключения на просмотр текстового представления файла. В конце концов, большинство PDF-файлов представляют собой файлы, содержащие текст, а emacs поддерживает даже работу с бинарными файлами. Поэтому, если вы не против поработать с внутренним содержимым PDF-файлов, которое очень похоже на PostScript, вы можете редактировать PDF-файлы в emacs или в каком-нибудь другом текстовом редакторе.

Читайте также:  Хранители экрана для mac os

Существует несколько специализированных платных PDF-редакторов и как минимум один опенсорсный редактор такого рода. Но, конечно, как и для решения большинства задач в Linux, для редактирования PDF-файлов можно пользоваться инструментами командной строки.

Маскировка текста

Проблема работы с PDF-файлами, представленными в виде обычного текста, заключается в том, что, даже при просмотре их emacs, текстовые данные в таких файлах часто сжаты и, в результате, нечитаемы. Например, буквы, из которых состоят слова, могут быть разделены кодом, форматирующим их, или другими данными. Поэтому поискать некий текст в подобных файлах, вполне возможно, не получится.

PDF-файлы можно конвертировать в формат, при использовании которого сжатие не слишком сильно портит текст, но это — тоже не панацея. Например, если открыть следующий фрагмент кода статьи про любительскую радиосвязь и задаться целью изменить слово «convention», то сложно будет понять даже то, где именно находится это слово. Но оно, тем не менее, где-то здесь:

3 0 obj > stream

Волшебство командной строки

Существует такой инструмент — qpdf , который умеет конвертировать PDF-файлы в другие PDF-файлы. Он может оптимизировать эти файлы в расчёте на их размещение в интернете или в расчёте на редактирование текста. Он умеет выполнять простые операции вроде удаления страниц или объединения фрагментов нескольких файлов. Вы можете взглянуть на документацию по нему. В вышеприведённом примере мы воспользовались режимом QDF для создания совершенно нормального PDF-файла, все объекты которого размещены в соответствии с их порядковыми номерами, в котором используется обычный для Unix способ завершения строк. Такие свойства выходных файлов упрощают их редактирование в обычных текстовых редакторах, но, как мы уже видели, это, всё равно, не такая уж и простая задача. Например, довольно-таки сложно удалить объект целиком, но если избавиться ото всех его упоминаний, то можно, воспользовавшись fix-qdf , воссоздать нормальный QDF-файл.

Ещё один способ выполнения простых правок PDF-документов предусматривает использование PDFtk Server (PDFtk, без «Server», это графический набор инструментов для Windows). С помощью PDFtk можно объединять или разделять документы, поворачивать страницы и решать много других распространённых задач. Например — вот как объединить все материалы двух файлов:

Можно сделать то же самое, но пропустив, скажем, страницу №9:

Ещё можно перемешивать страницы объединённых документов, располагая их в нужном порядке:

Путешествие из текста в PDF и обратно

Если нужно, пользуясь инструментами командной строки, преобразовать текст в PDF, решить эту задачу можно разными способами. Например, существует отличный инструмент Pandoc, который позволяет преобразовывать материалы, оформленные с помощью одних языков разметки, в материалы, оформленные с помощью других способов описания документов. В частности, речь идёт о возможности преобразования практически всего чего угодно в PDF.

Ещё можно использовать различные комбинации ps2pdf (вместе с инструментом для генерирования PostScript-данных), pdf2text (этот инструмент входит в состав пакета poppler-utils) или Ghostscript для создания PDF-файлов или для извлечения из них текстовых данных. Надо сказать, что Ghostscript — это весьма мощный инструмент, среди возможностей которого можно отметить преобразование PDF-файлов в различные графические форматы. Это может пригодиться, если нужно, например, выводить их на веб-страницах в виде изображений.

Инструменты для решения особых задач печати документов и другие инструменты

Иногда нужно модифицировать PDF-файл в расчёте на то, что он будет определённым образом выведен на печать. Мы уже говорили, например, о том, как совмещать нечётные и чётные страницы документов, но есть и другие способы подготовки документов к печати:

  • pdfxup — инструмент, задействующий возможности pdflatex и Ghostscript для размещения нескольких PDF-страниц (например — двух) на одной печатной странице.
  • pdfjam — использует LaTeX для размещения документов на страницах разных размеров или для вывода нескольких страниц документа на одной печатной странице.
  • pdfposter — умеет создавать печатные изображения огромных размеров на нескольких страницах, беря за основу одну страницу.

Если вы предпочитаете инструменты с графическим интерфейсом — можете взглянуть на PDFsam Basic. А если вас интересует ПО для работы с PDF, написанное на Java — обратите внимание на Multivalent.

Итоги

В Linux существует множество способов решения одних и тех же повседневных задач. Это справедливо и для задач, связанных с PDF-документами. Но иногда самое сложное заключается не в том, чтобы решить задачу, а в том, чтобы найти инструмент, который идеально подходит под требования и стиль работы пользователя.

Чем вы пользуетесь для редактирования PDF-файлов в Linux?

Источник

Оцените статью