Linux удалить символ с файлами

Содержание

Команда Sed в Linux, вывод текста, удаление, замена.
Синтаксис Sed
Вывод строк
Диапазоны адресов
Удаление текста
Замена текста
Заключение
12.4. Команды обработки текста
Примечания

Команда Sed в Linux, вывод текста, удаление, замена.

Потоковый редактор sed (stream editor) — это текстовый редактор, выполняющий операции редактирования над информацией в стандартном потоке ввода или файле. Редактирование осуществляется по одной строке и неинтерактивно. Это означает, что вы принимаете все решения по редактированию при запуске команды, а утилита автоматически выполняет ваши указания. Это может показаться непонятным и неинтуитивным, но на самом деле sed — очень мощный и быстрый инструмент для преобразования текста.

В данном руководстве мы рассмотрим ряд базовых операций и познакомимся с необходимым синтаксисом. Утилита вряд ли заменит ваш обычный текстовый редактор, но скорее всего станет полезным дополнением к вашим инструментам для работы с текстами.

Синтаксис Sed

Обычно sed работает с потоком текста, считываемым из стандартного ввода или файла. Это значит, что вы можете отправить выходные данные другой команды непосредственно на вход утилиты для редактирования или работать с уже созданным файлом. Вывод всех результатов по умолчанию осуществляется в стандартный поток вывода, то есть выходные данные будут выведены на экран, а не сохранены в файл, если их не перенаправить.

Синтаксис команды следующий:

Скопируем себе в домашнюю директорию несколько файлов, чтобы попрактиковаться в редактировании.

Воспользуемся утилитой для просмотра содержимого скопированной нам лицензии BSD. По умолчанию sed выводит результаты на экран, поэтому им можно пользоваться для просмотра файлов, не задавая команд редактирования:

Это работает из-за того, что одиночные кавычки содержат команды редактирования, передаваемые sed. Мы ничего не передали, поэтому утилита просто вывела каждую полученную строку в стандартный поток вывода. Теперь покажем, как утилита может использовать стандартный ввод. Перенаправим редактору выходные данные команды “cat” и получим тот же результат.

Redistribution and use in source and binary forms, with or without
modification, are permitted provided that the following conditions
are met:
1. Redistributions of source code must retain the above copyright
notice, this list of conditions and the following disclaimer.
2. Redistributions in binary form must reproduce the above copyright
notice, this list of conditions and the following disclaimer in the
documentation and/or other materials provided with the distribution.
. . .
. . .

Мы можем работать с файлами или потоками текста (как происходит при перенаправлении вывода символом «|») одинаково легко.

Вывод строк

В предыдущем примере мы показали, что передаваемые без команд входные данные напрямую выводятся в стандартный поток вывода.Теперь рассмотрим явную команду “print”, которая задаётся при помощи символа “p” в одиночных кавычках.

Теперь утилита выводит каждую строку дважды. Это происходит потому, что каждая строка выводится автоматически, а ещё мы в явном виде указали выводить их командой “p”. Если посмотреть на результат, где дважды напечатана первая строка, затем дважды вторая и т.д., можно заметить, что sed работает построчно. Он принимает строку, обрабатывает ее и выводит результат, затем процесс повторяется для следующей строки.

Указав sed опцию «-n», которая отключает автоматический вывод, мы можем очистить результат:

Каждая строка снова выводится один раз.

Диапазоны адресов

Рассмотренные выше примеры вряд ли можно назвать редактированием (если мы не хотели выводить каждую строку два раза). Давайте изменим результат, указав sed напечатать только первую строку.

Число «1» перед командой вывода указывает номер строки для работы. Таким же образом мы можем вывести пять строк (не забываем про «-n»).

Мы только что передали в утилиту адрес. При получении адреса редактор выполняет указанные далее команды только над этими строками. В данном примере мы указали начальный адрес и смещение, чтобы сообщить команде, сколько ещё строк она должна пройти:

Результат будет таким же, потому что мы указали начать с первой строки и обработать следующие 4.

Если нужно исключить какие-то строки, можно указать интервал после символа «

».
Следующая команда напечатает все нечетные строки, начиная с первой:

Удаление текста

Можно легко удалить текст, который мы выводили в предыдущем примере, заменив команду “p” на команду “d”. Команда «-n» нам больше не нужна, потому что при использовании команды удаления утилита выводит все, что не удалено. Это позволяет нам видеть, что происходит. Изменим последнюю команду из предыдущего раздела так, чтобы она удаляла все нечетные строки, начиная с первой. В результате мы должны получить все строки, которые не были выведены в прошлый раз.

При этом исходный файл не меняется. Результаты редактирования просто выводятся на экран. Если результат нужно сохранить, можно перенаправить стандартный вывод в файл:

Открыв этот файл командой cat, мы увидим тот же результат, который был на экране после выполнения предыдущей команды. По умолчанию sed не редактирует исходный файл в целях безопасности. Это можно изменить при помощи опции «-i», которая означает редактирование на месте. Исходный файл будет изменен. Давайте попробуем отредактировать только что созданный нами файл «everyother.txt». Снова удалим все нечетные строки:

При помощи cat можно убедиться, что файл был отредактирован.

Опция “-i” может быть опасной, но утилита предоставляет возможность создания резервной копии перед редактированием. Для этого сразу после опции “-i” укажите расширение резервной копии “.bak”:

Будет создан файл резервной копии с расширением “bak”, а затем выполнено редактирование исходного файла.

Замена текста

Чаще всего sed используется для замены текста. Редактор позволяет осуществлять поиск текста по шаблону при помощи регулярных выражений. А затем заменять найденный текст. В простейшем варианте можно заменить одно слово на другое, используя следующий синтаксис:

Параметр «s» – это команда замены. Три слэша (/) нужны для разделения различных текстовых полей. Если вам удобно, вы можете использовать для этого другие символы. Например, если нам нужно изменить имя веб-сайта, удобнее использовать другой разделитель, так как URL содержат слэши. Воспользуемся командой echo для передачи примера:

Здесь секция «com/index» заменяется на «org/home». В качестве разделителя используется нижнее подчеркивание «_». Не забудьте про последний разделитель, иначе sed выдаст ошибку.

Создадим файл для отработки замен:

Теперь заменим «on» на «forward»

Стоит обратить внимание на ряд моментов. Во-первых, мы заменяем шаблоны, а не слова. “on” в слове “song” было заменено на “forward”. Во-вторых, второе “on” в строке 2 заменено не было. Это произошло потому, что по умолчанию команда “s” обрабатывает первое совпадение в строке. А затем переходит к следующей строке. Для замены каждого “on”, а не только первого в строке, можно указать команде замены флаг “g” после шаблонов:

Теперь были заменены все “on”. Чтобы заменить только вторые “on” в каждой строке, вместо “g” нужно указать “2”:

Если нам нужно вывести только те строки, где выполнялась замена, для отмены автоматического вывода можно снова воспользоваться опцией «-n». Затем мы можем передать флаг “p” для вывода строк, в которых производились замены.

Пример показывает, что флаги в конце команды можно комбинировать. Чтобы игнорировать регистр, нужно указать флаг “i”.

Если нужно заменить текст во всех файлах директории то можно воспользоваться командой

Про утилиту grep можно прочитать здесь

Заключение

Мы рассмотрели основы использования sed. Теперь вы можете быстро редактировать текстовые документы при помощи соответствующих команд sed.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Источник

12.4. Команды обработки текста

Сортирует содержимое файла, часто используется как промежуточный фильтр в конвейерах. Эта команда сортирует поток текста в порядке убывания или возрастания, в зависимости от заданных опций. Ключ -m используется для сортировки и объединения входных файлов. В странице info перечислено большое количество возможных вариантов ключей. См. Пример 10-9, Пример 10-10 и Пример A-9.

Топологическая сортировка, считывает пары строк, разделенных пробельными символами, и выполняет сортировку, в зависимости от заданного шаблона.

Удаляет повторяющиеся строки из отсортированного файла. Эту команду часто можно встретить в конвейере с командой sort.

Ключ -c выводит количество повторяющихся строк.

Команда sort INPUTFILE | uniq -c | sort -nr выводит статистику встречаемости строк в файле INPUTFILE (ключ -nr, в команде sort, означает сортировку в порядке убывания). Этот шаблон может с успехом использоваться при анализе файлов системного журнала, словарей и везде, где необходимо проанализировать лексическую структуру документа.

Пример 12-8. Частота встречаемости отдельных слов

Команда expand преобразует символы табуляции в пробелы. Часто используется в конвейерной обработке текста.

Команда unexpand преобразует пробелы в символы табуляции. Т.е. она является обратной по отношению к команде expand.

Предназначена для извлечения отдельных полей из текстовых файлов. Напоминает команду print $N в awk, но более ограничена в своих возможностях. В простейших случаях может быть неплохой заменой awk в сценариях. Особую значимость, для команды cut, представляют ключи -d (разделитель полей) и -f (номер(а) поля(ей)).

Использование команды cut для получения списка смонтированных файловых систем:

Использование команды cut для получения версии ОС и ядра:

Использование команды cut для извлечения заголовков сообщений из электронных писем:

Использование команды cut при разборе текстового файла:

cut -d ‘ ‘ -f2,3 filename эквивалентно awk -F'[ ]’ ‘< print $2, $3 >‘ filename

Используется для объединения нескольких файлов в один многоколоночный файл.

Может рассматриваться как команда, родственная команде paste. Эта мощная утилита позволяет объединять два файла по общему полю, что представляет собой упрощенную версию реляционной базы данных.

Команда join оперирует только двумя файлами и объедияет только те строки, которые имеют общее поле (обычно числовое), результат объединения выводится на stdout. Объединяемые файлы должны быть отсортированы по ключевому полю.

На выходе ключевое поле встречается только один раз.

Выводит начальные строки из файла на stdout (по-умолчанию — 10 строк, но это число можно задать иным). Эта команда имеет ряд интересных ключей.

Пример 12-9. Какие из файлов являются сценариями?

Пример 12-10. Генератор 10-значных случайных чисел

Выводит последние строки из файла на stdout (по-умолчанию — 10 строк). Обычно используется для мониторинга системных журналов. Ключ -f, позволяет вести непрерывное наблюдение за добавляемыми строками в файл.

Пример 12-11. Мониторинг системного журнала с помощью tail

Многоцелевая поисковая утилита, использующая регулярные выражения. Изначально это была команда в древнем строчном редакторе ed, g/re/p, что означает — global — regular expression — print .

Поиск участков текста в файле(ах), соответствующих шаблону pattern, где pattern может быть как обычной строкой, так и регулярным выражением.

Если файл(ы) для поиска не задан, то команда grep работает как фильтр для устройства stdout, например в конвейере.

-i — выполняется поиск без учета регистра символов.

-w — поиск совпадений целого слова.

-l — вывод только имен файлов, в которых найдены участки, совпадающие с заданным образцом/шаблоном, без вывода совпадающих строк.

-r — (рекурсивный поиск) поиск выполняется в текущем каталоге и всех вложенных подкаталогах.

The -n option lists the matching lines, together with line numbers.

-v (или —invert-match) — выводит только строки, не содержащие совпадений.

-c ( —count) — выводит количество совпадений без вывода самих совпадений.

Если grep вызывается для поиска по группе файлов, то вывод будет содержать указание на имена файлов, в которых найдены совпадения.

Для того, чтобы заставить grep выводить имя файла, когда поиск производится по одному-единственному файлу, достаточно указать устройство /dev/null в качестве второго файла.

Если совпадение было найдено, то grep возвращает код завершения — 0, это может оказаться полезным при выполнении поиска в условных операторах ( в таких случаях особый интерес может представлять ключ -q, который подавляет вывод).

Пример 29-6 — пример поиска заданного образца в системном журнале, с помощью grep.

Пример 12-12. Сценарий-эмулятор «grep»

egrep — то же самое, что и grep -E. Эта команда использует несколько отличающийся, расширенный набор регулярных выражений, что позволяет выполнять поиск более гибко.

fgrep — то же самое, что и grep -F. Эта команда выполняет поиск строк символов (не регулярных выражений), что несколько увеличивает скорость поиска.

Утилита agrep имеет более широкие возможности поиска приблизительных совпадений. Образец поиска может отличаться от найденной строки на указанное число символов.

Для поиска по сжатым файлам следует использовать утилиты zgrep, zegrep или zfgrep. Они с успехом могут использоваться и для не сжатых файлов, но в этом случае они уступают в скорости обычным grep, egrep и fgrep. Они очень удобны при выполнении поиска по смешенному набору файлов — когда одни файлы сжаты, а другие нет.

Для поиска по bzip-файлам используйте bzgrep.

Команда look очень похожа на grep, и предназначена для поиска по «словарям» — отсортированным файлам. По-умолчанию, поиск выполняется в файле /usr/dict/words, но может быть указан и другой словарь.

Пример 12-13. Поиск слов в словаре

Скриптовые языки, специально разработанные для анализа текстовых данных.

Неинтерактивный «потоковый редактор» . Широко используется в сценариях на языке командной оболочки.

Утилита контекстного поиска и преобразования текста, замечательный инструмент для извлечения и/или обработки полей (колонок) в структурированных текстовых файлах. Синтаксис awk напоминает язык C.

wc — «word count» , счетчик слов в файле или в потоке:

wc -w подсчитывает только слова.

wc -l подсчитывает только строки.

wc -c подсчитывает только символы.

wc -L возвращает длину наибольшей строки.

Подсчет количества .txt -файлов в текущем каталоге с помощью wc:

Подсчет общего размера файлов, чьи имена начинаются с символов, в диапазоне d — h

От переводчика: в случае, если у вас локаль отлична от «C», то вышеприведенная команда может не дать результата, поскольку wc вернет не слово «total», в конце вывода, а «итого». Тогда можно попробовать несколько измененный вариант:

Использование wc для подсчета количества вхождений слова «Linux» в основной исходный файл с текстом этого руководства.

Отдельные команды располагают функциональностью wc в виде своих ключей.

Замена одних символов на другие.

В отдельных случаях символы необходимо заключать в кавычки и/или квадратные скобки. Кавычки предотвращают интерпретацию специальных символов командной оболочкой. Квадратные скобки должны заключаться в кавычки.

Команда tr «A-Z» «*» tr A-Z \* filename на звездочки (вывод производится на stdout). В некоторых системах этот вариант может оказаться неработоспособным, тогда попробуйте tr A-Z ‘[**]’.

Ключ -d удаляет символы из заданного диапазона.

Ключ —squeeze-repeats ( -s) удалит все повторяющиеся последовательности символов. Может использоваться для удаления лишних пробельных символов.

Ключ -c «complement» заменит символы в соответствии с шаблоном. Этот ключ воздействует только на те символы, которые НЕ соответствуют заданному шаблону.

Обратите внимание: команда tr корректно распознает символьные классы POSIX. [1]

Пример 12-14. toupper: Преобразование символов в верхний регистр.

Пример 12-15. lowercase: Изменение имен всех файлов в текущем каталоге в нижний регистр.

Пример 12-16. du: Преобразование текстового файла из формата DOS в формат UNIX.

Пример 12-17. rot13: Сверхслабое шифрование по алгоритму rot13.

Пример 12-18. Более «сложный» шифр

Различные версии tr

Утилита tr имеет две, исторически сложившиеся, версии. BSD-версия не использует квадратные скобки ( tr a-z A-Z), в то время как SysV-версия использует их ( tr ‘[a-z]’ ‘[A-Z]’). GNU-версия утилиты tr напоминает версию BSD, но диапазоны символов обязательно должны заключаться в квадратные скобки.

Выравнивает текст по ширине, разрывая, если это необходимо, слова. Особый интерес представляет ключ -s, который производит перенос строк по пробелам, стараясь не разрывать слова. (см. Пример 12-19 и Пример A-2).

Очень простая утилита форматирования текста, чаще всего используемая как фильтр в конвейерах для того, чтобы выполнить «перенос» длинных строк текста.

Пример 12-19. Отформатированный список файлов.

Очень мощной альтернативой утилите fmt, является утилита par (автор Kamil Toman), которую вы сможете найти на http://www.cs.berkeley.edu/

Эта утилита с обманчивым названием удаляет из входного потока символы обратной подачи бумаги (код ESC 7). Она так же пытается заменить пробелы на табуляции. Основная область применения утилиты col — фильтрация вывода отдельных утилит обработки текста, таких как groff и tbl.

Форматирование по столбцам. Эта утилита преобразует текст, например какой либо список, в табличное, более «удобочитаемое» , представление, вставляя символы табуляции по мере необходимости.

Пример 12-20. Пример форматирования списка файлов в каталоге

Утилита удаления колонок. Удаляет колонки (столбцы) сиволов из файла и выводит результат на stdout. colrm 2 4 filename.

Если файл содержит символы табуляции или непечатаемые символы, то результат может получиться самым неожиданным. В таких случаях, как правило, утилиту colrm, в конвейере, окружают командами expand и unexpand.

Нумерует строки в файле. nl filename — выведет файл filename на stdout, и в начале каждой строки вставит ее порядковый номер, счет начинается с первой непустой строки. Если файл не указывается, то принимается ввод со stdin.

Вывод команды nl очень напоминает cat -n, однако, по-умолчанию nl не нумерует пустые строки.

Пример 12-21. nl: Самонумерующийся сценарий.

Подготовка файла к печати. Утилита производит разбивку файла на страницы, приводя его в вид пригодный для печати или для вывода на экран. Разнообразные ключи позволяют выполнять различные манипуляции над строками и колонками, соединять строки, устанавливать поля, нумеровать строки, добавлять колонтитулы и многое, многое другое. Утилита pr соединяет в себе функциональность таких команд, как nl, paste, fold, column и expand.

pr -o 5 —width=65 fileZZZ | more — выдаст хорошо оформленное и разбитое на страницы содержимое файла fileZZZ.

Хочу особо отметить ключ -d, который выводит строки с двойным интервалом (тот же эффект, что и sed -G).

GNU утилита, предназначена для нужд локализации и перевода сообщений программ, выводимых на экран, на язык пользователя. Не смотря на то, что это актуально, прежде всего, для программ на языке C, тем не менее gettext с успехом может использоваться в сценариях командной оболочки для тех же целей. См. info page.

Утилита преобразования текста из одной кодировки в другую. В основном используется для нужд локализации.

Может рассматриваться как разновилность утилиты iconv, описанной выше. Универсальная утилита для преобразования текстовой информации в различные кодировки.

TeX и Postscript — языки разметки текста, используемые для подготовки текста к печати или выводу на экран.

TeX — это сложная система подготовки к печати, разработанная Дональдом Кнутом (Donald Knuth). Эту утилиту удобнее использовать внутри сценария, чем в командной строке, поскольку в сценарии проще один раз записать все необходимые параметры, передаваемые утилите, для получения необходимого результата.

Ghostscript ( gs) — это GPL-версия интерпретатора Postscript.

groff — это еще один язык разметки текста и форматированного вывода. Является расширенной GNU-версией пакета roff/troff в UNIX-системах.

tbl — утилита обработки таблиц, должна рассматриваться как составная часть groff, так как ее задачей является преобразование таблиц в команды groff.

eqn — утилита преобразования математических выражений в команды groff.

lex — утилита лексического разбора текста. В Linux-системах заменена на свободно распространяемую утилиту flex.

yacc — утилита для создания синтаксических анализаторов, на основе набора грамматик, задаваемых разработчиком. В Linux-системах, эта утилита заменена на свободно распространяемую утилиту bison.

Примечания

Это верно только для GNU-версии команды tr, поведение этой команды, в коммерческих UNIX-системах, может несколько отличаться.

Источник