Linux decode windows 1251

Содержание

Linux для человеков!
Обзоры
Фотогалереи
Помощь при использовании сайта
Новое из блога
Перекодировка текстовых файлов из cp1251 в UTF-8 с помощью iconv
Перекодировка из cp1251 в UTF8
Одминский блог
Смена кодировки сайта из CP1251 на UTF-8
Как научить linux декодировать url windows-1251?
Как определить кодировку файла или строки. Как конвертировать файлы в кодировку UTF-8 в Linux
Программы для определения кодировки в Linux
Команда file -i показывает неверную кодировку
Программа enca для определения кодировки файла
Как определить кодировку строки
Изменение кодировки в Linux
Использование команды iconv
Конвертирование файлов из windows-1251 в UTF-8 кодировку
Изменение кодировки программой enca
Конвертация строки в правильную кодировку

Linux для человеков!

Обзоры

Фотогалереи

Помощь при использовании сайта

Новое из блога

Перекодировка текстовых файлов из cp1251 в UTF-8 с помощью iconv

В Windows по умочанию используется кодировка символов CP1251, чем иногда доставляет проблем пользователям других, нормальных ОС, которые давно перешли на юникод и забыли о проблемах с кодировками как страшный сон. Но пользователи Windows как американцы, не знают, что существуют другие ~~страны~~ ОС и сохраняют субтитры в CP1251 что делает их нечитабельными для других.

Для решения этой проблемы есть iconv который как раз и служит для перекодировки текстовых файлов из одной кодировки в другую. Во всех почти дистрибутивах данный пакет устанавливается по умолчанию, но если его вдруг не оказалось — установите его с помощью вашего пакетного менеджера.

Для перекодировки достаточно ввести всего одну команду в терминале, а именно:

Поясню: ключ «f» задает исходную кодировку в которой файл находится сейчас, ключ «t» указывает целевую кодировку, ключ «o» задает путь для сохранения перекодированного файла.

Вот, все очень просто. Так же вы можете таким образом кодировать любые текстовые файлы. Часто и тексты песен попадаются с такой неприятной особенностью.

Недавно узнал более простой и понятный способ перекодировки текстовых файлов — с помощью enconv.

Не буду приводить полного синтаксиса и описания всех ключей. Для перекодировки достаточно одного, например:

С помощью данной команды мы перегнали текст в UTF-8. Да, именно, просто перегнали без необходимости указания исходной кодировки. Все просто, указываем лишь ту которую хотим получить. Желательно сделать резервную копию файла, так как насколько я понял enconv’у нельзя задать выходной файл и изменяться кодировка будет прямо в исходном файле.

Если у кого то есть еще какие то методы перекодировки текстовых файлов — прошу в каменты.

Источник

Перекодировка из cp1251 в UTF8

Как автоматически перекодировать все txt файлы с кодировкой cp1251 в UTF8 ?

> mv $FILE <,.orig>&& iconv -f CP1251 -t UTF-8 $FILE.orig -o $FILE

«man recode» и к тебе относится.

recode cp1251..utf8 *.txt

а man enconv относится к тебе.

если я знаю из какой кодировки в какую мне надо перевести, то эвристика enca мне не нужна. А для собственно перекодировки recode подходит лучше.

Txt книжки можно фаерфоксом открывать. Он автоматически распознаёт кодировки.

enconv -L russian *txt
recode cp1251..utf8 *.txt
во втором варианте символов больше 😀

в твоём варианте откуда он догадается что надо перекодировать В utf8? Из локали возьмёт? Ну тогда

recode cp1251 *.txt

и символов меньше.

из переменной, указанной в

Как запустить рекурсивную перекодировку всех txt файлов?
они не в одной директории, есть много под директорий..

find /path/to/dir -iname ‘*\.txt’ -exec recode cp1251..utf8 <> \;

Источник

Одминский блог

Блог о технологиях, технократии и методиках борьбы с граблями

Смена кодировки сайта из CP1251 на UTF-8

Перевозил тут пачку сайтов с LAMP на LNAMP, где фронтэндом выступает NGINX. И все бы ничего, если бы не пачка статических сателлитов в кодировке Windows-1251 (cp1251).

Как тут прикололся девака – при анализе сайта, надо сначала чекать кодировку и в случае обнаружения кодировки сайта cp1251 – проверку возраста можно не осуществлять. Но, тем не менее, в инетах до сих пор встречаются такие мастадонты, которые клепают сайты в кодировке CP1251.

Под апачем, при добавлении сайта в ISP Panel это даже не заметишь, а вот при попытке добавить этот же сайт в Vesta CP, получаешь гемор на задницу с крикозябрами. Поэтому надо редактировать конфиг Nginx, предварительно прикрутив туда виндовую кодировку. Но, насколько я помню, у меня этот танец с бубнами не задался и в тот раз, я просто повесил саты на LAMP.

Так что оставалось либо плясать с бубнами вокруг прикручивания виндовой кодировки к NGINX, либо перекодивать файлы в родную для нжинкса UTF-8. Сделать это можно средствами текстового редактора Notepad++ путем перевода кодировки документа и последующего сохранения; либо же в самом линухе. Как я выше заметил, саты статические, то есть на файлах, без использования базы данных. Поэтому перекодировать надо было именно файлы. С базой данных все происходило бы несколько иначе.

Перекодировка файла из CP1251 в UTF-8 производится в консоли через команду iconv
# iconv -f cp1251 -t utf8 FILE-CP1251 -o FILE-UTF8
либо же можно переписать файл в самого себя
# iconv -f cp1251 -t utf8 file.txt -o file.txt

Но поскольку мне надо было перекодировать большое число файлов php, содержащихся в разных папках, то мне пришлось составить небольшое предложение:
# find /path-to-files/ -type f -name \*php -exec iconv -f cp1251 -t utf-8 ‘<>‘ -o ‘<>‘ \;

Конвертит все в лет.

Для конвертации кодировок есть еще утилита enconv, входящая в состав пакета enca – вот он как раз конвертит сам в себя по умолчанию, перезаписывая файл выходной кодировкой:
# enconv -c file.txt

но, к сожалению, я его не смог подружить с русским языком, т.к даже при указании языка через ключик -L russian скрипт матерился на ошибки. Но с другой стороны, все нормально решилось и через iconv

Источник

Как научить linux декодировать url windows-1251?

Есть программа для скачивания файлов updater.exe она обращается на сайт к файлу patchlist.xml внутри patchlist.xml ссылки на файлы которые на русском языке, файл patchlist.xml в кодировке windows-1251, файлы не скачивает потому как их не находит на сервере, если поменять кодировку patchlist.xml на utf8 то файлы качает, но их сохраняет с названиями крякозябры (РЁРёСЂРѕРєР), видел хостинг на котором работает всё нормально файл patchlist.xml у них в windows-1251 и качаются файлы. Что бы всё работало надо как то что бы сервер нормально декодировал url в кодировке windows-1251.

Файл должен оставатся в кодировке windows-1251. Может кто сталкивался и может подсказать как заставить linux обрабатывать url в кодировке windows-1251?

python decode encode

Дело не в линуксе, а в сервере. Виндоус уже работает с utf-8, далеко на легаси вы не уедете.

Мне кажется у вас представление некорректное, это ваше приложение криво запрашивает данные когда сервер ждёт что будет юникод (файлов с крякозябрами там нет). Когда оно запрашивает нормально, оно потом не может сохранить файл нормально потому что ему для сохранения нужна кривая кодировка. Можно либо исправить приложение, либо получить имена в cp1251 на сервере. Установите старую виндоус на сервер мб не знаю. Либо транслируйте имена в недокодировку когда сервер отдаёт файлы.

Сорян, а при чём тут linux? Я вижу тут какой-то updater.exe, dll-ки с русскими путями в xml, который в cp1251, а gnu/linux не вижу в упор.

Кстати, меня всегда интересовал вопрос: а зачем делать русские пути и пути с пробелами? Ладно, я понимаю, что много людей не задумываются про zip с cp1251 и про то, что пробелы в путях в консоли заставляют переходить либо на ls |while read file; do обработать $file; done, либо на xargs вместо лаконичной конструкции ./*, но много сугубо виндового, хорошо там укоренившегося софта тоже ведь с этим особо не дружит.

Источник

Как определить кодировку файла или строки. Как конвертировать файлы в кодировку UTF-8 в Linux

В этой инструкции мы опишем что такое кодировка символов и рассмотрим несколько примеров конвертации файлов из одной кодировки в другую с использованием инструмента командной строки. Наконец, мы узнаем, как на Linux конвертировать несколько файлов из одного набора символов (charset) в UTF-8 кодировку.

Возможно, вы уже в курсе, что компьютер не понимает и не сохраняет буквы, числа или что-то ещё чем обычно оперируют люди. Компьютер работает с битами. Бит имеет только два возможных значения: 0 или 1, «истина» или «ложь», «да» или «нет». Все другие вещи, вроде букв, цифр, изображений должны быть представлены в битах, чтобы компьютер мог их обрабатывать.

Говоря простыми словами, кодировка символов – это способ информирования компьютера о том, как интерпретировать исходные нули и единицы в реальные символы, где символ представлен набором чисел. Когда мы печатаем текст в файле, слова и предложения, которые мы формируем, готовятся из разных символов, а символы упорядочиваются в кодировку.

Имеются различные схемы кодирования, среди них такие как ASCII, ANSI, Unicode. Ниже пример ASCII кодировки.

Программы для определения кодировки в Linux

Команда file -i показывает неверную кодировку

Чтобы узнать кодировку файла используется команда file с флагами -i или —mime, которые включают вывод строки с типом MIME. Пример:

Команда file показывает кодировки, но для одного из моих файлов она неверна. Рассмотрим ещё одну альтернативу.

Программа enca для определения кодировки файла

Утилита enca определяет кодировку текстовых файлов и, если нужно, конвертирует их.

Установим программу enca:

В этот раз для обоих файлов кодировка определена верно.

Запуск команды без опции выводит что-то вроде:

Это удобно для чтения людьми. Для использования вывода программы в скриптах есть опция -e, она выводит только универсальное имя, используемое в enca:

Если вам нужно имя, которое используется для названия кодировок в iconv, то для этого воспользуйтесь опцией -i:

Для вывода предпочитаемого MIME имени кодировки используется опция -m:

Для правильного определения кодировки программе enca нужно знать язык файла. Она получает эти данные от локали. Получается, если локаль вашей системы отличается от языка документа, то программа не сможет определить кодировку.

Язык документа можно явно указать опцией -L:

Чтобы узнать список доступных языков наберите:

Как определить кодировку строки

Для определения, в какой кодировке строка, используйте одну из следующих конструкций:

Вместо СТРОКА_ДЛЯ_ПРОВЕРКИ впишите строку, для которой нужно узнать кодировку. Если у вас строка не на русском языке, то откорректируйте значение опции -L.

Если возникло сообщение об ошибке:

то попробуйте установить chardet из стандартных репозиториев.

Если chardet не найдена в репозиториях, то поищите программу uchardet, затем установите и используйте её.

Изменение кодировки в Linux

Использование команды iconv

В Linux для конвертации текста из одной кодировки в другую используется команда iconv.

Синтаксис использования iconv имеет следующий вид:

Где -f или —from-code означает кодировку исходного файла -t или —to-encoding указывают кодировку нового файла. Флаг -o является необязательным, если его нет, то содержимое документа в новой кодировке будет показано в стандартном выводе.

Чтобы вывести список всех кодировок, запустите команду:

Конвертирование файлов из windows-1251 в UTF-8 кодировку

Далее мы научимся, как конвертировать файлы из одной схемы кодирования (кодировки) в другую. В качестве примера наша команда будет конвертировать из windows-1251 (которая также называется CP1251) в UTF-8 кодировку.

Допустим, у нас есть файл mypoem_draft.txt его содержимое выводится как

Мы начнём с проверки кодировки символов в файле, просмотрим содержимое файла, выполним конвертирование и просмотрим содержимое файла ещё раз.

Примечание: если к кодировке, в который мы конвертируем файл добавить строку //IGNORE, то символы, которые невозможно конвертировать, будут отбрасываться и после конвертации показана ошибка.

Если к конечной кодировке добавляется строка //TRANSLIT, конвертируемые символы при необходимости и возможности будут транслитерированы. Это означает, когда символ не может быть представлен в целевом наборе символов, он может быть заменён одним или несколькими выглядящими похоже символами. Символы, которые вне целевого набора символов и не могут быть транслитерированы, в выводе заменяются знаком вопроса (?).

Изменение кодировки программой enca

Программа enca не только умеет определять кодировку, но и может конвертировать текстовые файлы в другую кодировку. Особенностью программы является то, что она не создаёт новый файл, а изменяет кодировку в исходном. Желаемую кодировку нужно указать после ключа -x:

Конвертация строки в правильную кодировку

Команда iconv может конвертировать строки в нужную кодировку. Для этого строка передаётся по стандартному вводу. Достаточно использовать только опцию -f для указания кодировки, в которую должна быть преобразована строка. Т.е. используется команда следующего вида:

Также для изменения кодировки применяются программы:

piconv
recode
enconv (другое название enca)

Источник