Linux pdf delete page

Содержание

How to remove pages from a PDF from your Linux PC
How to remove pages from a PDF with LibreOffice Draw
With pdftk
And separate a PDF by single pages?
Как удалить страницы из PDF с вашего ПК с Linux
Как удалить страницы из PDF с помощью LibreOffice Draw
С pdftk
И разделить PDF-файл на отдельные страницы?
Работаем с PDF в Linux
Чтение PDF
Хакер #196. Все о Docker
Просмотр в консоли
Конвертация PDF
Объединение и разделение PDF
Редактирование PDF
Утилита PDFtk
Вывод

How to remove pages from a PDF from your Linux PC

In my opinion, saving the documents in PDF is the best option. A PDF does not take up much space and it is also capable of saving a file with the highest quality, a quality that is maintained even when we enlarge the images. But sometimes a PDF has not been created by us or we have created it, for example, from a web page. What do we do with the information we have left over? Remove pages from a PDF Is the best option.

Removing pages from a PDF is very easy. The problem is that many of us have the preconceived idea that a PDF file cannot be edited; by extension, if it cannot be edited, pages cannot be removed. But this is an idea that we have internalized because this was the case a long time ago. Nowadays, PDFs can be edited and, so far this article is about, deleting pages of information that we do not want to keep.

Table of Contents

How to remove pages from a PDF with LibreOffice Draw

LibreOffice Draw It is a very powerful program that surprises both for the possibilities it offers and for its ease of use. Removing pages from a PDF with LibreOffice Draw is so simple that it’s hard to figure out how to do it. I explain it to you below:

To remove pages from a PDF with LibreOffice Draw we must first open the document with this program. We can do it either from the «File / Open» menu or by right clicking on the document and choosing LibreOffice Draw as the application to open it.
Once inside you will see something like the following:

The next step is to mark the page that we want to delete, more specifically its thumbnail in the left panel.
If we keep the wrong idea that a PDF cannot be deleted, we will never think how easy it is to do it: the «miracle» will happen with just pressing the «Delete» key. You will see that the page disappears.
Finally, we go to «File / Export to PDF» to save the new document without extra pages. Make no mistake choosing «Save» because LibreOffice it has its own formats and by default it saves it in its own way. You have to «Export».

What did you not imagine that it would be so easy?

With pdftk

As in Linux we have so many options and one of them likes some more than others, we can also do it from the terminal. This requires the pdftk (PDF Tookit) tool. It actually costs more than doing it with LibreOffice Draw, but we will also provide you with information to do something that is easier with pdftk: separate a PDF by pages. To remove pages from a PDF with this tool we will have to do the following:

We install the tool with the command sudo snap install pdftk o sudo apt install pdf-java.
I have a PDF that I have created from Firefox called mozilla.pdf. It has 5 pages and I am going to take away the third one. To do this I will open a terminal and write:

From the above we have:

mozilla.pdf is the document I want to edit.
cat is the order.
1 2 y 4-end they are the pages that it will keep or, what is the same, it will eliminate the third because it will keep 1, 2 and 4 until the end (end).
output tells you that the next will be the new document.
documento.pdf is the document you will create without page 3.
Remember that in this and other commands, when the files are being mentioned, it is understood that the full path goes before, such as /home/pablinux/Escritorio/mozilla.pdf.
If after pressing Enter it does not show anything, it is assumed that it is because everything has gone well. We will only see errors if we have forgotten part of the command or if something has failed.

And separate a PDF by single pages?

As we mentioned earlier, pdftk it also allows us separate the whole PDF by pages one by one. Right now I can’t think of any reason why this would be useful, but I’m commenting on it as information in case it works for anyone. The command would be the following, taking into account that «mozilla.pdf» is the document that I want to divide by pages:

As with the previous command, if everything went well it will not display a message after pressing Enter. The only important thing here is to know what it does with the file once it is split: save it in our personal folder (with names pg_0001, pg_0002, pg_003, etc, where «pg» matches the page number) and creates a file with metadata called doc_data.txt in the same path. Among the information stored in this .txt we have the number of pages that were in the original, if we had used a marker, the date of creation and even the program with which it was created and the version of it.

Personally and as I always say, I usually choose the options that allow me to perform all my tasks from one user interface or GUI. But sometimes, using a command line, especially if we are quick to write or create a .dekstop / script, may be a better option, and as an example it is worth separating the pages of a PDF with pdftk. What do you prefer: do it with LibreOffice or a similar program or with tools that are used from the Terminal such as pdftk?

The content of the article adheres to our principles of editorial ethics. To report an error click here!.

Источник

Как удалить страницы из PDF с вашего ПК с Linux

На мой взгляд, сохранение документов в формате PDF — лучший вариант. PDF-файл не занимает много места, а также может сохранять файл с высочайшим качеством, которое сохраняется даже при увеличении изображений. Но иногда PDF-файл не был создан нами или мы создали его, например, с веб-страницы. Что нам делать с информацией, которую мы оставили? Удалить страницы из PDF Это лучший вариант.

Удалить страницы из PDF очень просто. Проблема в том, что многие из нас предвзято относятся к тому, что файл PDF нельзя редактировать; по расширению, если он не может быть отредактирован, страницы не могут быть удалены. Но это идея, которую мы усвоили, потому что это было давно. В настоящее время PDF-файлы можно редактировать и, пока эта статья посвящена удалению страниц с информацией, которую мы не хотим хранить.

Как удалить страницы из PDF с помощью LibreOffice Draw

LibreOffice Draw это очень мощная программа, которая удивляет как своими возможностями, так и простотой использования. Удаление страниц из PDF с помощью LibreOffice Draw настолько простое, что сложно понять, как это сделать. Я объясню вам это ниже:

Чтобы удалить страницы из PDF с помощью LibreOffice Draw, мы должны сначала открыть документ с помощью этой программы. Это можно сделать либо из меню «Файл / Открыть», либо щелкнув документ правой кнопкой мыши и выбрав LibreOffice Draw в качестве приложения для его открытия.
Оказавшись внутри, вы увидите что-то вроде следующего:

Следующим шагом является отметка страницы, которую мы хотим удалить, а точнее ее миниатюра на левой панели.
Если мы будем придерживаться неправильного представления о том, что PDF-файл нельзя удалить, мы никогда не подумаем, насколько легко это сделать: «чудо» произойдет, если просто нажать клавишу «Удалить». Вы увидите, что страница исчезнет.
Наконец, мы переходим в «Файл / Экспорт в PDF», чтобы сохранить новый документ без дополнительных страниц. Не ошибитесь, выбрав «Сохранить», потому что LibreOffice он имеет свои собственные форматы и по умолчанию сохраняет его по-своему. Вы должны «Экспорт».

Что вы не представляли, что это будет так просто?

С pdftk

Как и в Linux, у нас очень много вариантов, и один из них любит некоторые больше, чем другие, мы также можем сделать это из терминала. Для этого требуется инструмент pdftk (PDF Tookit). На самом деле это стоит больше, чем с LibreOffice Draw, но мы также предоставим вам информацию, чтобы сделать что-то, что проще с pdftk: разделить PDF по страницам. Чтобы удалить страницы из PDF с помощью этого инструмента, нам нужно будет сделать следующее:

Устанавливаем инструмент командой sudo snap установить pdftk o sudo apt установить pdf-java.
У меня есть PDF-файл, который я создал в Firefox, под названием mozilla.pdf. В нем 5 страниц, и я уберу третью. Для этого я открою терминал и напишу:

Из вышесказанного мы имеем:

mozilla.pdf это документ, который я хочу отредактировать.
кошка это порядок.
1-2 y 4-х сторонний это страницы, которые он сохранит, или, что то же самое, он удалит третью, потому что он сохранит 1, 2 и 4 до конца (конца).
выходной сообщает вам, что следующим будет новый документ.
documento.pdf это документ, который вы создадите без страницы 3.
Помните, что в этой и других командах, когда упоминаются файлы, подразумевается, что полный путь идет раньше, например /home/pablinux/Escritorio/mozilla.pdf.
Если после нажатия Enter ничего не отображается, предполагается, что все прошло хорошо. Мы увидим ошибки только в том случае, если мы забыли часть команды или что-то не удалось.

И разделить PDF-файл на отдельные страницы?

Как мы упоминали ранее, pdftk это также позволяет нам разделить весь PDF-файл по страницам одну за другой. Прямо сейчас я не могу придумать ни одной причины, по которой это было бы полезно, но я комментирую это как информацию на случай, если это сработает для кого-то. Команда будет следующей, учитывая, что «mozilla.pdf» — это документ, который я хочу разделить по страницам:

Как и в случае с предыдущей командой, если все прошло хорошо, после нажатия Enter сообщение не выводится. Единственное, что здесь важно, это знать, что он делает с файлом после его разделения: сохраняем в нашей личной папке (с именами pg_0001, pg_0002, pg_003 и т. д., где «pg» соответствует номеру страницы) и создает файл с метаданными с именем doc_data.txt по тому же пути. Среди информации, хранящейся в этом .txt, у нас есть количество страниц, которые были в оригинале, если бы мы использовали маркер, дату создания и даже программу, с которой он был создан, и ее версию.

Лично и как я всегда говорю, я обычно выбираю варианты, которые позволяют мне выполнять все свои задачи из одного пользовательский интерфейс или графический интерфейс. Но иногда использование командной строки, особенно если мы быстро пишем или создаем .dekstop / script, может быть лучшим вариантом, и в качестве примера стоит разделить страницы PDF с помощью pdftk. Что вы предпочитаете: делать это с помощью LibreOffice или аналогичной программы или с помощью инструментов, которые используются из Терминала, таких как pdftk?

Содержание статьи соответствует нашим принципам редакционная этика. Чтобы сообщить об ошибке, нажмите здесь.

Источник

Работаем с PDF в Linux

Формат PDF стал очень популярен с развитием интернета и распространением электронной документации, и тем, кто имеет дело с текстами, приходится подбирать инструментарий, чтобы открывать файлы в этом формате и работать с ними. Сторонникам *nix есть из чего выбирать.

Чтение PDF

PDF-файлы достаточно сложны по своей структуре, они могут содержать текст, графику, вложения, иметь сжатие и шифрование, поэтому современные версии формата невозможно прочитать при помощи стандартных команд Linux, cat, less или обычного текстового редактора вроде vi. Для просмотра и извлечения информации необходимо использовать специальную программу.

Сам Adobe также выпускает версию Adobe Reader для UNIX, но она давно не обновлялась и вряд ли представляет какой-то интерес. В большинстве дистрибутивов Linux по умолчанию установлена какая-то из программ для чтения PDF-файлов, поэтому проблем с этим нет. В Ubuntu и клонах это одна из лучших и в то же время очень простых программ Evince, разрабатываемая в рамках проекта GNOME, но она отлично работает и с любым другим оконным менеджером. Evince поддерживает просмотр — PDF, DjVu, TIFF, PostScript, DVI, XPS, SyncTex, Сomics Books (cbr, cbz, cb7, cbt) и презентации в формате ODP. Открывает зашифрованные документы PDF. Реализован поиск по документу, несколько вариантов отображения структуры документа (древовидная, миниатюры страниц и другие), что позволяет быстро найти нужную. Для PDF и DVI можно выделить нужный фрагмент текста и скопировать его в буфер обмена, произвольный участок страницы сохраняется в картинку. Есть возможность установки закладок, запуска в режиме презентации и полноэкранном, вывод по одной или по две страницы, зуминг и поворот страницы. Каждый документ открывается в новом окне; если их много, это бывает неудобно. В целом весьма хороший просмотрщик для PDF-файлов, не сильно требующий ресурсов.

Evince — простой и удобный просмотрщик PDF

Хакер #196. Все о Docker

В репозитории можно найти еще несколько альтернатив. Наиболее современный из них — универсальный просмотрщик документов от проекта KDE Okular, кроме PDF поддерживающий PostScript, DjVu, CHM, XPS, ePub, CHM и некоторые другие форматы. По функциям он превосходит Evince, больше всяких возможностей по просмотру и навигации, есть даже настройки производительности, позволяющие установить оптимальный режим вывода документа в зависимости от мощности компьютера.

Плюс целый ряд легких просмотрщиков с минимальным интерфейсом, но не уступающих функционально, — ePDFviewer, XPDF, MuPDF, Zathura и другие. Например, Zathura и MuPDF вообще не имеют кнопок, управляются при помощи клавиш (все они описаны в man), а программы весят меньше сотни килобайт и летают даже при загрузке больших документов. В Zathura возможно сохранить текущую страницу в графический файл или сохранить изображение в буфер обмена.

Просмотр в консоли

С графической средой в общем все понятно, но бывает, что PDF-файл нужно прочитать в консоли, а ничего под рукой нет. Здесь два варианта — специальный просмотрщик, использующий framebuffer, и конвертирование файлов в другой формат (текстовый или HTML). Для первого случая нам понадобится просмотрщик изображений через фреймбуфер fbi и один из вьюверов PDF — fbgs (Framebuffer Ghostscript Viewer), который входит в состав пакета fbi или аналогов — FBPDF, JFBPDF. Кроме PDF, fbgs поддерживает и DjVu. Принцип работы прост — из страниц документа автоматически генерируется изображение, которое и выводится в консоль. Но нужно учесть, что работает этот способ для реальной консоли, в эмуляторе терминала запуск приведет к ошибке. Установка:

Для просмотра пользователь должен быть добавлен в группу video:

Теперь можно смотреть:

Некоторое время придется подождать, пока будут сгенерированы изображения.

Конвертация PDF

В большинстве программ с GUI PDF поддерживается при помощи библиотеки poppler, которая, в свою очередь, базируется на коде популярного просмотрщика xpdf. Кроме собственно библиотеки, проект предлагает 11 консольных утилит для работы с PDF-файлами, которые позволяют конвертировать PDF во всевозможные форматы (текст, HTML, PPM, PS, PNG, JPEG, SVG) и извлекать заголовок, вложения, рисунки и шрифты. Конвертеры pdftohtml и pdftotext как раз подходят для чтения файлов в консоли. В Ubuntu, как правило, эти утилиты уже установлены. Если выполнить, не указав имя выходного файла, или вывести на стандартный вывод, то в текущем каталоге будет создан файл с аналогичным именем и расширением txt или html, который затем можно открыть в любом редакторе или консольном браузере (например, Links или ELinks). Или просто прочитать:

К слову, файловый менеджер Midnight Commander в некоторых дистрибутивах позволяет просматривать PDF-файлы. За это отвечает скрипт /usr/lib/mc/ext.d/doc.sh (описывается в /etc/mc/mc.ext). Если его просмотреть, то увидим, что по умолчанию файл конвертируется в текстовый как раз при помощи pdftotext и затем выводится на экран. Хотя возможны и другие варианты, поэтому стоит заглянуть в doc.sh.
Утилиты из poppler покрывают почти все основные форматы для конвертирования и некоторой обработки PDF-файлов. Так, PDF-файлы могут содержать вложения, утилита pdfdetach позволяет просмотреть их список и извлечь:

Аналогично одной командой извлекаются изображения.

Чтобы узнать информацию о встроенных шрифтах, следует запустить утилиту pdffonts.
В контексте можно вспомнить о SWFTools, содержащем несколько конвертеров в формат SWF (Small Web Format), включая PDF2SWF. Единственный момент, что пакет SWFTools в Ubuntu и некоторых других дистрибутивах не включает утилиту pdf2swf, поэтому ее приходится устанавливать из исходников:

В итоге получен SWF-файл, открыв который в веб-браузере или проигрывателе увидим периодически сменяющие друг друга страницы документа. Можно обработать лишь часть документа, указав номера избранных страниц с помощью опции —pages:

Если не указать имя выходного файла, результат попадет в stdout. Параметр -C позволяет сгенерировать дополнительный HTTP-заголовок, что пригодится при размещении файла на веб-сервере.

Еще одна полезная утилита, распространяемая под Artistic License, — QPDF представляет собой конвертер PDF, позволяющий производить различные преобразования: оптимизацию для веба, шифрование/дешифрование, верификацию файлов, а также слияние и разделение. С ее помощью также можно создать PDF-файл программным способом, QPDF берет на себя все синтаксическое представление объектов, создание перекрестных ссылок таблицы, шифрование, линеаризацию и другие детали синтаксиса.

При обновлении версии Adobe Extension Level, которое используется при создании PDF-файлов в облаке компании Adobe, часто первое время невозможно такие файлы прочитать на программах, отличных от Adobe Reader. Здесь как раз и выручает QPDF (и некоторые другие утилиты обзора), достаточно снять с файла шифрование, и вопрос с чтением снимается. Смотрим свойства документа при помощи pdfinfo из комплекта poppler:

Теперь с чтением проблем точно не будет. Если файл защищен паролем, то его следует указать при помощи параметра —password.

Получаем информацию о файле при помощи pdfinfo

Объединение и разделение PDF

При работе с PDF очень часто возникает задача сборки файлов из частей отдельных документов или изменения отдельных параметров, таких как размер листа или ориентации (книжная или альбомная). Несложные скрипты позволяют сделать все нужное буквально одной командой, но для начала следует разобраться с базовыми утилитами.

Утилиты pdfseparate и pdfunite из poppler позволяют извлекать отдельные страницы и объединять документы. Причем среди других описанных далее они самые простые в использовании, так как не имеют большого количества опций, и с их работой легко разобраться. Например, извлекаем страницы с 10-й по 20-ю и сохраняем их в отдельный документ:

В имени переменная %d обязательна, так как pdfseparate умеет сохранять страницы только в отдельные файлы. Вместо него будет подставлен номер страницы, то есть в нашем случае получим файлы с именем file-10.pdf . file-20.pdf. Если все же нужен единственный документ, то на помощь приходит pdfunite. Соберем страницы 10 и 11 в один документ:

У QPDF очень много параметров и возможностей, это практически универсальная утилита для обработки файлов формата PDF, причем многие операции выполняются одной командой. Например, можем сохранить в отдельный файл нужные страницы одного или нескольких источников:

В результате получим файл, собранный из полного документа in.pdf и указанных страниц документов in1.pdf и in2.pdf. Диапазон можно задавать через дефис или перечислить страницы через запятую. Возможен и реверс при помощи конструкции z-№страницы. Добавив параметр —linearize, сгенерируем оптимизированные для веба файлы. Специальный QDF-режим (—qdf) позволяет создавать PDF-файлы, которые затем можно редактировать в обычном текстовом редакторе, то есть без сжатия и шифрования, нормализованный и со специальными метками. Правда, и размер такого файла как минимум в два раза больше.

Иногда нужно просто сравнить две версии PDF-файла — текст, рисунки, вложения. Здесь помогут две прекрасные утилиты: diffpdf и comparepdf. В самом простом случае:

На выходе получим отличие. Если файлы одинаковы, то команда ничего не выдаст (опция «-v 2» сделает ее чуть болтливей). Diffpdf представляет собой GUI-программу, позволяющую произвести постраничную сверку документа. В случае отсутствия расхождения, после запуска будут показаны пустые поля.

Сравнение документов в diffpdf

При необходимости в diffpdf можно задать диапазоны проверки. Это полезно, если, например, в документ добавлена страница, а поэтому постраничная проверка после нее точно покажет несоответствие.

Не всем пользователям нравится разбираться с многочисленными параметрами и экспериментировать, некоторые предпочитают просто выбрать нужные операции в GUI. Нет проблем. PDF-Shuffler — небольшое Python-GTK приложение к Python-библиотеке pyPdf, предоставляющей все функции для работы с PDF: извлечение, слияние, обрезку, шифрование/дешифрование и прочее. Программа есть в репозитории дистрибутивов:

Интерфейс не локализован, но все, что требуется после запуска, — это кинуть файлы в окно программы, а после того, как будут отображены все страницы документа, при помощи меню удаляем, обрезаем, поворачиваем, экспортируем нужные. Если требуется произвести операцию с несколькими страницами сразу, то просто отмечаем их при нажатой клавише Ctrl, после чего сохраняем результат в новый документ. Быстро и очень удобно. Правда, как видим, PDF-Shuffler использует далеко не все возможности библиотеки, нет, например, оптимизации и шифрования/дешифрования, нельзя производить другие преобразования вроде изменения размера листа. Поэтому полностью консольные утилиты он не заменяет. Кстати, pyPdf, на котором базируется PDF-Shuffler, уже не развивается и сегодня в дистрибутивах, бывает, замещается форком PyPDF2, который полностью совместим с оригиналом плюс содержит несколько новых методов.

PDF-Shuffler позволяет легко убрать все лишнее из документа

Среди альтернатив PDF-Shuffler можно выделить PDF Mod, легкое, очень простое в использовании приложение с локализованным интерфейсом, которое позволяет извлекать, удалять страницы, изменять их порядок, поворачивать, объединять несколько документов, экспортировать изображения в выбранной странице и редактировать информацию в заголовке документа (названия, ключевые слова, автор). Поддерживаются закладки. PDF Mod есть в репозитории:

Окно PDF Mod

Кросс-платформенная утилита PDFsam — PDF Split And Merge, написанная на Java, умеет объединять, разрезать и поворачивать документы PDF. А в режиме burst генерирует из страниц PDF отдельные файлы. В репозитории далеко не самая последняя и весьма глючная версия. Новые релизы уже лишены многих недостатков, поэтому лучше ставить с официального сайта, но придется немного покомпилировать, так как без оплаты разработчики предлагают только сборку под Win и исходные тексты.

Редактирование PDF

PDF сам по себе сложный формат, предназначенный для издательской продукции, требующий специальных инструментов для создания и редактирования. И *nix-пользователям есть из чего выбирать. Создать PDF-документ можно в Open/LibreOffice, а чтобы получить возможность редактирования, следует установить расширение Oracle PDF Import Extension. Кроме этого, доступны специальные приложения — PDFedit, Scribus и Master PDF Editor. Среди них Scribus — очень мощное приложение со множеством функций, требующее времени на освоение.

Master PDF Editor — весьма простой инструмент, распространяемый бесплатно для некоммерческого использования. PDFedit позволяет производить любые операции по внесению исправлений в PDF-документы. Встроенные средства дают возможность редактировать текст и графику, но не дружат с таблицами. Возможна автоматизация при помощи ECMAScript-скриптов. К сожалению, PDFedit, использующий Qt 3, в текущей версии Ubuntu убран из-за отсутствия поддержки пакета libqt3-mt, а попытка установки не всегда удачна. Версия на Qt 4 пока находится в стадии разработки.

Утилита PDFtk

В контексте работы с PDF утилиту PDFtk Сида Стюарда (Sid Steward) хотелось бы выделить особо. Это даже не утилита, а комбайн «все в одном», позволяющий разделить или объединить несколько документов в один, расшифровать/зашифровать PDF-файл, добавить или удалить вложения, заполнить формы, восстановить поврежденные документы и многое другое. Вообще, разработчики предлагают несколько решений, основа всех — консольная утилита PDFtk Server, о которой речь дальше. Для пользователей Win разработчики предлагают GUI. Плюс доступны еще две утилиты: GNU Barcode Plus PDF для генерации штрих-кода в PDF-файл и платный STAMPtk, генерирующий водяные знаки и колонтитулы в PDF-файле. Пакет PDFtk уже есть в репозиториях дистрибутивов, поэтому с установкой проблем нет. Вместе с командой следует указать имя входных и выходного файла (поддерживается маска), команду и параметры. Всего поддерживается 18 команд, все они описаны в документации. Приведу лишь несколько примеров, достаточных для понимания сути работы с PDFtk. Например, команда cat позволяет объединить несколько файлов в третий — outfile.pdf:

Если файлов много, то проще собрать их в одном каталоге и использовать маску *.pdf. Отдельные страницы вырезаются просто указанием их номеров после cat:

Причем, если файлов несколько, для каждого задаются свои страницы, при необходимости меняется ориентация.

В примере из документа in1.pdf будет извлечена первая страница, которая будет повернута на 90 градусов. Со второго документа извлекаются только четные страницы в диапазоне 2–20. Четность возможно указать как even (четный) или odd (нечетный), поворот указывается как north, south, east, west, left, right или down. Последнюю страницу документа можно указать при помощи ключевого слова end. Диапазон указывается или прямо, как в примере, или реверсно (например, end-1). Чтобы разложить PDF на страницы, используется команда burst.

В результате получим несколько документов вида out001.pdf. Иногда нужно подправить метаданные, оставленные в PDF другой программой. При помощи PDFtk это сделать легко. Для начала извлекаем исходные данные:

Теперь открываем и правим metadata.txt в текстовом редакторе, после чего загружаем обратно:

Дешифровка PDF, о которой мы говорили выше, дело одной команды:

PDFtk — универсальная утилита для работы с PDF

Вывод

На самом деле это далеко не все утилиты для работы с PDF-файлами. Практически не затронут вопрос генерации PDF из различных источников. Но большинство решений легко найти в репозитории. Преобразование через PostScript дает еще большие возможности по управлению содержимым.

Источник