Содержание

Регулярные выражения в Grep (Regex)
Регулярное выражение Grep
Буквальные совпадения
Якорь
Соответствующий одиночный символ
Выражения в скобках
Квантификаторы
Чередование
Группировка
Специальные выражения обратной косой черты
Выводы
cut и grep или awk?
grep,cut,sed,uniq — с помощью регулярных выражений — как?

Регулярные выражения в Grep (Regex)

grep — одна из самых полезных и мощных команд Linux для обработки текста. grep ищет в одном или нескольких входных файлах строки, соответствующие регулярному выражению, и записывает каждую совпадающую строку в стандартный вывод.

В этой статье мы собираемся изучить основы использования регулярных выражений в GNU-версии grep , которая по умолчанию доступна в большинстве операционных систем Linux.

Регулярное выражение Grep

Регулярное выражение или регулярное выражение — это шаблон, который соответствует набору строк. Шаблон состоит из операторов, конструирует буквальные символы и метасимволы, которые имеют особое значение. GNU grep поддерживает три синтаксиса регулярных выражений: базовый, расширенный и Perl-совместимый.

В своей простейшей форме, когда тип регулярного выражения не указан, grep интерпретирует шаблоны поиска как базовые регулярные выражения. Чтобы интерпретировать шаблон как расширенное регулярное выражение, используйте параметр -E (или —extended-regexp ).

Как правило, вы всегда должны заключать регулярное выражение в одинарные кавычки, чтобы избежать интерпретации и расширения метасимволов оболочкой.

Буквальные совпадения

Наиболее простое использование команды grep — поиск буквального символа или серии символов в файле. Например, чтобы отобразить все строки, содержащие строку «bash» в /etc/passwd , вы должны выполнить следующую команду:

Результат должен выглядеть примерно так:

В этом примере строка «bash» представляет собой базовое регулярное выражение, состоящее из четырех буквальных символов. Это указывает grep искать строку, в которой сразу после grep «b» идут «a», «s» и «h».

По умолчанию команда grep чувствительна к регистру. Это означает, что символы верхнего и нижнего регистра рассматриваются как разные.

Чтобы игнорировать регистр при поиске, используйте параметр -i (или —ignore-case ).

Важно отметить, что grep ищет шаблон поиска как строку, а не слово. Итак, если вы искали «gnu», grep также напечатает строки, в которых «gnu» встроено в слова большего размера, например, «cygnus» или «magnum».

Если в строке поиска есть пробелы, вам нужно заключить ее в одинарные или двойные кавычки:

Якорь

Якоря — это метасимволы, которые позволяют указать, где в строке должно быть найдено совпадение.

Символ ^ (каретка) соответствует пустой строке в начале строки. В следующем примере строка «linux» будет соответствовать только в том случае, если она встречается в самом начале строки.

Символ $ (доллар) соответствует пустой строке в начале строки. Чтобы найти строку, заканчивающуюся строкой «linux», вы должны использовать:

Вы также можете создать регулярное выражение, используя оба якоря. Например, чтобы найти строки, содержащие только «linux», выполните:

Еще один полезный пример — шаблон ^$ , который соответствует всем пустым строкам.

Соответствующий одиночный символ

Файл . (точка) символ — это метасимвол, который соответствует любому одиночному символу. Например, чтобы сопоставить все, что начинается с «кан», затем имеет два символа и заканчивается строкой «ру», вы должны использовать следующий шаблон:

Выражения в скобках

Выражения в квадратных скобках позволяют сопоставить группу символов, заключив их в квадратные скобки [] . Например, найдите строки, содержащие «принять» или «акцент», вы можете использовать следующее выражение:

Если первый символ внутри скобок — это курсор ^ , то он соответствует любому одиночному символу, не заключенному в скобки. Следующий шаблон будет соответствовать любой комбинации строк, начинающихся с «co», за которыми следует любая буква, кроме «l», за которой следует «la», например «coca», «cobalt» и т. Д., Но не будет соответствовать строкам, содержащим «cola». ”:

Вместо того, чтобы помещать символы по одному, вы можете указать диапазон символов внутри скобок. Выражение диапазона создается путем указания первого и последнего символов диапазона, разделенных дефисом. Например, [aa] эквивалентно [abcde] а 3 эквивалентно [123] .

Следующее выражение соответствует каждой строке, начинающейся с заглавной буквы:

grep также поддерживает предопределенные классы символов, заключенные в скобки. В следующей таблице показаны некоторые из наиболее распространенных классов символов:

Квантификатор	Классы персонажей
[:alnum:]	Буквенно-цифровые символы.
[:alpha:]	Буквенные символы.
[:blank:]	Пробел и табуляция.
[:digit:]	Цифры.
[:lower:]	Строчные буквы.
[:upper:]	Заглавные буквы.

Полный список всех классов персонажей можно найти в руководстве по Grep .

Квантификаторы

Квантификаторы позволяют указать количество вхождений элементов, которые должны присутствовать, чтобы совпадение произошло. В следующей таблице показаны квантификаторы, поддерживаемые GNU grep :

Квантификатор	Описание
*	Сопоставьте предыдущий элемент ноль или более раз.
?	Соответствует предыдущему элементу ноль или один раз.
+	Сопоставьте предыдущий элемент один или несколько раз.
	Сравните предыдущий элемент ровно n раз.
	Сопоставьте предыдущий элемент не менее n раз.
	Соответствовать предыдущему элементу не более m раз.
	Сопоставьте предыдущий элемент от n до m раз.

Символ * (звездочка) соответствует предыдущему элементу ноль или более раз. Следующее будет соответствовать «right», «sright», «ssright» и так далее:

Ниже представлен более сложный шаблон, который соответствует всем строкам, которые начинаются с заглавной буквы и заканчиваются точкой или запятой. Регулярное выражение .* Соответствует любому количеству любых символов:

? (знак вопроса) символ делает предыдущий элемент необязательным и может соответствовать только один раз. Следующие будут соответствовать как «ярким», так и «правильным». ? Символ экранирован обратной косой чертой, потому что мы используем базовые регулярные выражения:

Вот то же регулярное выражение с использованием расширенного регулярного выражения:

Символ + (плюс) соответствует предыдущему элементу один или несколько раз. Следующее будет соответствовать «sright» и «ssright», но не «right»:

Фигурные скобки <> позволяют указать точное число, верхнюю или нижнюю границу или диапазон вхождений, которые должны произойти, чтобы совпадение произошло.

Следующее соответствует всем целым числам, содержащим от 3 до 9 цифр:

Чередование

Термин «чередование» представляет собой простое «ИЛИ». Оператор чередования | (pipe) позволяет вам указать различные возможные совпадения, которые могут быть буквальными строками или наборами выражений. Этот оператор имеет самый низкий приоритет среди всех операторов регулярных выражений.

В приведенном ниже примере мы ищем все вхождения слов fatal , error и critical в файле ошибок журнала Nginx :

Если вы используете расширенное регулярное выражение, то оператор | не следует экранировать, как показано ниже:

Группировка

Группировка — это функция регулярных выражений, которая позволяет группировать шаблоны вместе и ссылаться на них как на один элемент. Группы создаются с помощью круглых скобок () .

При использовании основных регулярных выражений скобки должны быть экранированы обратной косой чертой ( ).

Следующий пример соответствует как «бесстрашный», так и «меньший». ? квантификатор делает группу (fear) необязательной:

Специальные выражения обратной косой черты

GNU grep включает несколько метасимволов, которые состоят из обратной косой черты, за которой следует обычный символ. В следующей таблице показаны некоторые из наиболее распространенных специальных выражений обратной косой черты:

Выражение	Описание
b	Сопоставьте границу слова.
Соответствует пустой строке в начале слова.
>	Соответствует пустой строке в конце слова.
w	Подберите слово.
s	Подберите пробел.

Следующий шаблон будет соответствовать отдельным словам «abject» и «object». Он не будет соответствовать словам, если вложен в слова большего размера:

Выводы

Регулярные выражения используются в текстовых редакторах, языках программирования и инструментах командной строки, таких как grep , sed и awk . Знание того, как создавать регулярные выражения, может быть очень полезным при поиске текстовых файлов, написании сценариев или фильтрации вывода команд.

Если у вас есть какие-либо вопросы или отзывы, не стесняйтесь оставлять комментарии.

Источник

cut и grep или awk?

Часто в скриптах можно встретить что-то вроде foobar|awk ‘‘ («часто» — это действительно часто).

Такой вызов awk всего лишь вывходит первую (n-ную) колонку из вывода предыдущей команды. Но это явный оверкилл! awk — довольно мощный язык потоковой обработки данных, и применение его как простого field-separator не есть хорошо.

Для вырезания из строки указанного поля лучше использовать команду cut. Она умеет меньше, а потому проще в использовании и быстрее.

В современном линуксе обработка вызова awk куда более сложна, чем вызов cut. В дебиане, например, awk — линк на /etc/alternatives/awk, который ведёт (чаще всего) на gawk. Который почти в 10 раз больше по размеру, чем cut. Разумееся, cut загружаеся быстрее.

cut умеет вырезать не только байты, но и нужные поля (опция -f). Поле — это текст между разделителями. По-умолчанию разделитель пробел/табуляция, но он легко меняется опцией -d.

Второй подход — использовать опцию -o у grep. Эта опция выводит не всю строку, а только совпадающее с критерием поиска grep. Очевидно бесполезно при поиске точной подстроки, но очень полезно при использовании регулярных выражений.

Например,
grep -v «#» /etc/inittab |cut -f 4 -d : -s
выведет список программ, запускающихся init’ом (четвёртое поле, поля разделяются двоеточием).

Или
grep http://\\S\\+ -o /var/log/apache2/error.log
выдаст список URL’ов из файла с ошибками (первый урл в строке).

UPD: В комментариях подсказывают ещё более интересную конструкцию без запуска внешнего файла (команда read реализуеся средствами bash’а):
foobar | (read p1 p2; echo p1)

Источник

grep,cut,sed,uniq — с помощью регулярных выражений — как?

Все новые темы

Список форумов SYSAdmins.RU -> Программирование

Автор

amdk7
Активный участник

Зарегистрирован: 30.03.2003
Пользователь #: 4,813
Сообщения: 867

Голоса: 1

Добавлено: Вс 28 Мар, 2010 16:14 Заголовок сообщения: grep,cut,sed,uniq — с помощью регулярных выражений — как?

Вернуться к началу

Зарегистрируйтесь и реклама исчезнет!

Kitslot
Активный участник

Зарегистрирован: 12.12.2006
Пользователь #: 48,126
Сообщения: 607
Откуда: Санкт-Петербург

Голоса: 2

Добавлено: Пн 29 Мар, 2010 6:49 Заголовок сообщения:
_________________ Woodoo crew

Вернуться к началу

Rjhdby
Активный участник

Зарегистрирован: 23.07.2008
Пользователь #: 70,121
Сообщения: 784

Голоса: 3

Добавлено: Пн 29 Мар, 2010 16:14 Заголовок сообщения: Re: grep,cut,sed,uniq — с помощью регулярных выражений — как

Вернуться к началу

amdk7
Активный участник

Зарегистрирован: 30.03.2003
Пользователь #: 4,813
Сообщения: 867

Голоса: 1

Добавлено: Вт 30 Мар, 2010 16:57 Заголовок сообщения: спасибо за книжку

Вернуться к началу

6PATyCb
Активный участник

Зарегистрирован: 19.02.2009
Пользователь #: 76,382
Сообщения: 782

Голоса: 11

Добавлено: Вт 30 Мар, 2010 18:01 Заголовок сообщения:

Вернуться к началу

Kitslot
Активный участник

Зарегистрирован: 12.12.2006
Пользователь #: 48,126
Сообщения: 607
Откуда: Санкт-Петербург

Голоса: 2

Добавлено: Вт 30 Мар, 2010 23:17 Заголовок сообщения:
_________________ Woodoo crew

Вернуться к началу

Hookis
Участник форума

Зарегистрирован: 15.02.2010
Пользователь #: 85,192
Сообщения: 390

Добавлено: Пт 02 Дек, 2011 15:17 Заголовок сообщения:

Вернуться к началу

Hookis
Участник форума

Зарегистрирован: 15.02.2010
Пользователь #: 85,192
Сообщения: 390

Источник

Linux cut регулярные выражения

Регулярные выражения в Grep (Regex)

Регулярное выражение Grep

Буквальные совпадения

Якорь

Соответствующий одиночный символ

Выражения в скобках

Квантификаторы

Чередование

Группировка

Специальные выражения обратной косой черты

Выводы

cut и grep или awk?

grep,cut,sed,uniq — с помощью регулярных выражений — как?