- Задать кодировку Windows-1251 для файла
- Решение
- Как: Определить и Изменить Кодировку Файла
- Определить Кодировку Файла
- Изменить Кодировку Файла
- Список Всех Кодировок
- 7 Replies to “Как: Определить и Изменить Кодировку Файла”
- Выбор кодировки текста при открытии и сохранении файлов — как поменять кодировку в Блокноте
- Кодировка файлов
- Немного лирики о том, почему всё так, а не иначе
- Что делать, чтобы сменить кодировку в Блокноте по умолчанию с ANSI на другую
- Инструкция по изменению кодировки в стандартном блокноте
- Инструкция для Notepad++
- Инструкция для Word
- Выбор кодировки
- Заключение
Задать кодировку Windows-1251 для файла
Перевести фамилию в кодировку Windows 1251
Закодируйте и разместите в разрядную сетку свою фамилию, используя базовую таблицу кодировки.
Изменить кодировку строки UTF-8 to windows-1251
получаю из хмл текст, он весь в UTF-8. как изменить кодировку строки UTF-8 to windows-1251? если.
Можно ли использовать кодировку Windows-1251 в WP7
Добрый день! Решил посмотреть что представляет из себя Windows Phone 7 и написать тестовое.
Как задать кодировку для файла?
4
Решение
Iiisi, кодировку следует передавать конструкторам StreamReader и StreamWriter. Вызов file.Write(Str,Code) не менял кодировку. Ты вызывал вот эту перегрузку Write предназначенную для форматированного вывода.
Правильно будет так:
Заказываю контрольные, курсовые, дипломные и любые другие студенческие работы здесь или здесь.
Как изменить кодировку символов с Windows-1251 на UTF-8?
Здравствуйте. Не давно начал изучать HTML, XHTML, CSS. Столкнулся с небольшой проблемой. Изучаю.
Перекодировать строку из кодировки KOI в кодировку Windows-1251 и обратно
Кодировщик. Написать программу, перекодирующую строку в кодировке KOI в строку в кодировке.
Можно ли изменить кодировку Windows-1251 на Utf-8 при помощи Cmd.exe?
В бух.7.7 создал файл.txt, нужно сохранить его в utf-8. Средства 1с77 позволяют менять кодовую.
Как в iframe задать кодировку для текстового файла, на который он ссылается
Есть тег iframe, который ссылается на текстовый файл. В текстовом файле есть русский текст. Он.
Как: Определить и Изменить Кодировку Файла
Linux администраторы, работающие с веб-хостингом, знают насколько важно хранить html документы в правильной кодировке.
Из этой статьи вы узнаете, как определить кодировку файла из командной строки в Linux.
А также, вы познакомитесь с лучшим решением для конвертации текста между различными кодировками.
Дополнительно я приведу примеры конвертации текста между такими наиболее распространенными кодировками, как CP1251 (Windows-1251, Кириллица), UTF-8 , ISO-8859-1 и ASCII .
Дельный Совет: Хотите видеть родной язык в Linux терминале? Просто поменяйте локаль! Читать далее →
Определить Кодировку Файла
Используйте следующую команду, чтобы узнать какая кодировка используется в файле:
Опция | Описание |
---|---|
-b , —brief | Не печатать имя файла (краткий режим) |
-i , —mime | Определить тип файла и кодировку |
Определить кодировку файлы in.txt :
Изменить Кодировку Файла
Используйте следующую команду для изменения кодировки файла:
Опция | Описание |
---|---|
-f , —from-code | Изменить с кодировки |
-t , —to-code | Изменить на кодировку |
-o , —output | Сохранить результат в файл |
Изменить кодировку файла с CP1251 (Windows-1251, Кириллица) на UTF-8 :
Изменить кодировку файла с ISO-8859-1 на UTF-8 и сохранить результат в out.txt :
Изменить кодировку файла с ASCII на UTF-8 :
Изменить кодировку файла с UTF-8 на ASCII :
Illegal input sequence at position: Поскольку UTF-8 может содержать символы которые не конвертируются в ASCII, iconv будет генерировать сообщение об ошибке «Illegal input sequence at position«, пока вы не скажете пропускать все неконвертируемые в ASCII символы, с помощью опции -c .
Опция | Описание |
---|---|
-c | Исключить из вывода недопустимые символы |
Вы можете потерять символы: Обратите внимание, что используя iconv с опцией -c некоторые символы могут быть потеряны.
В частности, это касается Windows машин с Кириллицей.
Вы скопировали какой-то файл с Windows в Linux, но при его открытии в Linux, вы видите “Êàêèå-òî êðàêîçÿáðû” – Что за … !?
Без паники — подобные строки могут быть быть легко преобразованы из кодировки CP1251 (Windows-1251, Кириллица) в UTF-8 с помощью:
Список Всех Кодировок
Перечислить все известные кодировки:
Опция | Описание |
---|---|
-l , —list | Список всех известных кодировок |
7 Replies to “Как: Определить и Изменить Кодировку Файла”
Thank you very much. Your reciept helped a lot!
I am running Linux Mint 18.1 with Cinnamon 3.2. I had some Czech characters in file names (e.g: Pešek.m4a). The š appeared as a ? and the filename included a warning about invalid encoding. I used convmv to convert the filenames (from iso-8859-1) to utf-8, but the š now appears as a different character (a square with 009A in it. I tried the file command you recommended, and got the answer that the charset was binary. How do I solve this? I would like to have the filenames include the correct utf-8 characters.
Thanks for your help—
Вообще-то есть 2 утилиты для определения кодировки. Первая этo file. Она хорошо определяет тип файла и юникодовские кодировки… А вот с ASCII кодировками глючит. Например все они выдаются как буд-то они iso-8859-1. Но это не так. Тут надо воспользоваться другой утилитой enca. Она в отличие от file очень хорошо работает с ASCII кодировками. Я не знаю такой утилиты, чтобы она одновременно хорошо работала и с ASCII и с юникодом… Но можно совместить их, написав свою. Это да. Кстати еnca может и перекодировать. Но я вам этого не советую. Потому что лучше всего это iconv. Он отлично работает со всеми типами кодировок и даже намного больше, с различными вариациями, включая BCD кодировки типа EBCDIC(это кодировки 70-80 годов, ещё до ДОСа…) Хотя тех систем давно нет, а файлов полно… Я не знаю ничего лучше для перекодировки чем iconv. Я думаю всё таки что file не определяет ASCII кодировки потому что не зарегистрированы соответствующие mime-types для этих кодировок… Это плохо. Потому что лучшие кодировки это ASCII.
Для этого есть много причин. И я не знаю ни одной разумной почему надо пользоваться юникодовскими кроме фразы «США так решило…» И навязывают всем их, особенно эту utf-8. Это худшее для кодирования текста что когда либо было! А главная причина чтобы не пользоваться utf-8, а пользоваться ASCII это то, что пользоваться чем-то иным никогда не имеет смысла. Даже в вебе. Хотите значки? Используйте символьные шрифты, их полно. Не вижу проблем… Почему я должен делать для корейцев, арабов или китайцев? Не хочу. Мне всегда хватало русского, в крайнем случае английского. Зачем мне ихние поганые языки и кодировки? Теперь про ASCII. KOI8-R это вычурная кодировка. Там русские буквы идут не по порядку. Нормальных только 2: это CP1251 и DOS866. В зависимости от того для чего. Если для графики, то безусловно CP1251. А если для полноценной псевдографики, то лучше DOS866 не придумали. Они не идеальны, но почти… Плохость utf-8 для русских текстов ещё и в том, что там каждая буква занимает 2 байта. Там ещё такая фишка как во всех юникодах это indian… Это то, в каком порядке идут байты, вначале младший а потом старший(как в памяти по адресам, или буквы в словах при написании) или наоборот, как разряды в числе, вначале старшие а потом младшие. А если символ 3-х, 4-х и боле байтов(до 16-ти в utf-8) то там кол-во заморочек растёт в геометрической прогрессии! Он ещё и тормозит, ибо каждый раз надо вычислять длину символа по довольно сложному алгоритму! А ведь нам ничего этого не надо! Причём заметьте, ихние англицкие буквы идут по порядку, ничего не пропущено и все помещаются в 1-м байте… Т.е. это искусственно придуманые штуки не для избранных америкосов. Их это вообще не волнует. Они разом обошли все проблемы записав свой алфавит в начало таблицы! Но кто им дал такое право? А все остальные загнали куда подальше… Особенно китайцев! Но если использовать CP1251, то она работает очень быстро, без тормозов и заморочек! Так же как и английские буквы…
а вот дальше бардак. Правда сейчас нам приходится пользоваться этим utf-8, Нет систем в которых бы системная кодировка была бы ASCII. Уже перестали делать. И все файлы системные именно в uft-8. А если ты хочешь ASCII, то тебе придётся всё время перекодировать. Раньше так не надо было делать. Надеюсь наши всё же сделают свою систему без ихних штатовких костылей…
Уважаемый Анатолий, огромнейшее Вам спасибо за упоминание enca. очень помогла она мне сегодня. Хотя пост Ваш рассистский и странный, но, видимо, сильно наболело.
Выбор кодировки текста при открытии и сохранении файлов — как поменять кодировку в Блокноте
Кодировка файлов
Все текстовые файлы имеют какую-то кодировку. Основных две: ANSI и Юникод. В ANSI кодировках (а их много) может быть закодировано только 256 символов. Если у вас русифицированная Windows, то блокнот создаёт текстовые документы в кодировке Windows-1251 — это одна из кодировок ANSI. Какая кодировка ANSI используется, зависит от языка операционной системы.
Юникод может содержать гораздо больше символов — примерно 65 тысяч, поэтому в Юникоде закодированы все письменности. Тем не менее, существует несколько вариантов юникода. Unicode LE используется в Windows, UTF-8 — распространён в интернете.
Немного лирики о том, почему всё так, а не иначе
Но и для пользователей, остающихся обычными «пользователями ПК» проблема с кодировками кириллистических символов иногда встаёт довольно остро. «Кракозяблики» — наследие предыдущей эпохи, когда каждый программист писал собственную таблицу кодировок. Например, скачал и хочешь почитать интересную книжку, а тут такое >=O
— …‚Ґа®пв®, ў иЁ¬ ЇҐаўл¬ бҐамҐ§л¬ ®вЄалвЁҐ¬, ¤®Єв®а ЏЁ«м¬ , б«Ґ¤гҐв бзЁв вм в Є §лў Ґ¬л© а ¤Ё в ЏЁ«м¬ ? — Џ®« Ј о, зв® Ґв. ђ ¤Ё в ЏЁ«м¬ — нв® Ґ ЇҐаў®Ґ, Ґ бҐа쥧®Ґ Ё, б®Ўб⢥®, Ґ ®вЄалвЁҐ. € Ґ ᮢᥬ ¬®Ґ. — ‚л, ўҐа®пв®, игвЁвҐ, ¤®Єв®а. ђ ¤Ё в ЏЁ«м¬ — Ї®пвЁҐ, Ё§ўҐб⮥ ўбпЄ®¬г иЄ®«мЁЄг. — ќв® ¬Ґп Ґ г¤Ёў«пҐв. ђ ¤Ё в ЏЁ«м¬ Ё Ўл« ®вЄалв ўЇҐаўлҐ Ё¬Ґ® иЄ®«мЁЄ®¬. Љ ᮦ «ҐЁо, п Ґ Ї®¬о, Є Є ҐЈ® §ў «Ё. Џ®б¬®ваЁвҐ г ‘вҐвб® ў ҐЈ® «€бв®аЁЁ Џ®бҐйҐЁп» — в ¬ ўбҐ нв® Ї®¤а®Ў® а ббЄ § ®. ЋвЄал« а ¤Ё в ўЇҐаўлҐ иЄ®«мЁЄ, ®ЇгЎ«ЁЄ®ў « Є®®а¤Ё вл ўЇҐаўлҐ бв㤥в, §ў «Ё а ¤Ё в Ї®зҐ¬г-в® ¬®Ё¬ Ё¬ҐҐ¬. — „ , б ®вЄалвЁп¬Ё Їа®Ёб室пв Ё®Ј¤ г¤ЁўЁвҐ«млҐ ўҐйЁ. ЌҐ ¬®Ј«Ё Ўл ўл ®ЎкпбЁвм иЁ¬ б«ги ⥫п¬, ¤®Єв®а ЏЁ«м¬ …
И так продолжалось до тех пор, пока не начали вводиться стандарты. Но и стандартов на текущее время уже немало. Например, есть кодировка Unicode, есть UTF-8, есть UTF-16 и так далее…
Я так и не нашёл, как сменить кодировку по умолчанию при открытии Блокнота и создания нового документа уже из открытой сессии Блокнота.
Зато нашёл, как сменить кодировку по умолчанию, когда текстовый документ сначала создаётся (из контекстного меню) и только потому открывается Блокнотом. Тогда кодировка файла будет та, которая будет прописана по умолчанию. Об этом и пойдёт ниже речь.
Итак, для того, чтобы поменять кодировку создаваемых текстовых документов по умолчанию, нам понадобиться внести изменения в Реестр Windows.
В данной статье рассмотрен пример для файлов с расширением .txt, а т.к. в Windows программой, открывающей эти файлы по умолчанию является Блокнот, то некоторые считают, что меняют кодировку по умолчанию в самом Блокноте. Но это не так. Меняется кодировка по умолчанию создаваемого файла. Блокнот лишь открывает документ, считывая уже прописанную в нём кодировку. В самом Блокноте прошита кодировка ANSI. И, похоже, это не поменять средствами Реестра Windows.
Как бы Windows не старался насаждать свои стандарты, большинство современных серверов работают на *nix операционных системах потому, что эти системы имеют открытый код и не имеют «корпоративной тайны на семью печатями». То есть, в них можно разобраться самостоятельно: что и как работает. Думаю, и дальше будет такая же тенденция. Все более-менее «продвинутые пользователи ПК» будут использовать программное обеспечение с открытым кодом для работы, и программы «из пакетов» для быстрой обработки данных (чтобы не изобретать велосипедов). На *nix операционных системах на текущий момент кодировкой по умолчанию является кодировка UTF-8. Её можно без особых заморочек выставить другой, но зачем, если она на большинстве серверов и они нормально друг с другом *nix «общаются»? У меня на сервере тоже стоит UTF-8 и это удобно. Поэтому задача у меня стояла, как сменить кодировку в Блокноте по умолчанию для Windows с ANSI на общепринятую UTF-8.
Ну и хватит лирики. К делу!
Сперва удостоверимся в том, что в Блокноте стоит по умолчанию кодировка ANSI, для этого достаточно «Сохранить как…» любой документ и увидеть его кодировку:
Что делать, чтобы сменить кодировку в Блокноте по умолчанию с ANSI на другую
- Открываем Блокнот или создаём новый текстовый документ и потом его открываем в Блокноте
- Меняем кодировку текстового файла
- Сохраняем этот документ (я свой назвал по названию кодировки UTF-8.txt)
- Если не видно расширение файла, то можно его сделать видимым
- Можно сохранить файл и переименовать
- Перемещаем созданный документ в папкуC:WindowsShellNew (сразу создать текстовый документ в этой папке не получится — защита Windows от внесения изменений в системные папки)
- Если папки нет (что мало вероятно), то её нужно создать и также переместить на место: C:WindowsShellNew
- Теперь открываем редактор реестра
- Находим папку HKEY_CLASSES_ROOT / .txt / ShellNew / (она должна быть, если нет, то создаём)
- Создаём строковый параметр :
- С именемFileName
- Со значениемUTF-8.txt (имя того файла, который мы создали в п.3 перенесли в папку C:WindowsShellNew в п.4)
- Радуемся! Ибо это всё =)
Теперь при создании текстового файла с помощью контекстного меню у него будет та кодировка, которая была нами установлена в файле-образце, лежащем в папке C:WindowsShellNew. Проверяем:
Если в файле-образце набрать какой-то текст, то он будет во всех новых файлах, создаваемых с помощью контекстного меню.
Не знаю, где это можно применить, т.к. у меня мало рутины с текстовыми файлами, но это может пригодиться тем, кто работает с шаблонными файлами. Или, например, для создания текстового файла-шаблона для HTML-документов, который можно создать таким же способом. Тогда не нужно будет каждый раз писать структуру ,
Инструкция по изменению кодировки в стандартном блокноте
Его обычно можно найти по следующему пути: «пуск», «все программы», «стандартные». Нашли? Давайте откроем. Если требуется произвести работы с уже существующем документом, то нажимаем «файл», «открыть» и выбираем его.
После написания текста или открытия готового документа в меню «файл» нажимаем «сохранить как».
После этого на экране появляется окно, в котором можно выбрать подходящий вариант из представленного списка.
Выбираем подходящий вариант, место сохранения документа и подтверждаем операцию. Вот и всё. Было просто? На самом деле для выполнения нужных работ могут потребоваться лишь считанные секунды.
Инструкция для Notepad++
Теперь давайте посмотрим, как обстоят дела в более профессиональном текстовом редакторе. Для смены кодировки текстовой информации в верхнем меню рабочего интерфейса есть специальный раздел. Сейчас покажу на скриншоте.
Если кликнуть мышкой по соответствующему разделу, то появится нужный список. Остается только сделать выбор и сохранить новые изменения.
Как видите, изменять кодировку текста при помощи блокнотов достаточно просто. Нужно лишь выполнить несколько не сложных действий.
Стоит упомянуть, что Notepad++ весьма удобен для редактирования различных кодов. Например, PHP, HTML. Собственно, поэтому он широко распространен среди многих пользователей, которые периодически работают с исходным кодом, например, тех же сайтов. Что уж говорить, я сам периодическим им пользуюсь. Много места на диске не занимает, работает быстро, коды просматривать и редактировать удобно. Ладно, на этом завершу мысль, не буду превращать эту статью в обзор хорошего программного обеспечения для конкретных целей. Хотя, в будущем, скорее всего, еще вернусь к данной теме.
Кстати, а вы знаете, что этот самый блог посвящен темам финансов и заработков в интернете. К примеру, знаете, как зарабатывают на копирайтинге, на сайтах или арбитраже трафика? Есть множество профессиональных тонкостей и перспективных направлений деятельности.
Инструкция для Word
- Если у вас нет программы Word, то скачайте ее с официального сайта разработчиков и установите на свой компьютер. Если вы не собираетесь постоянно использовать эту программу, то платить за нее не нужно, вам хватит пробной версии.
- Нажмите на нужный файл правой клавишей мышки и откройте подменю «Открыть с помощью», укажите программу Word. Если данной программы нет в списке, то запустите Word обычным способом. Откройте меню «Файл» и выберите команду «Открыть», укажите расположение нужного документа на жестком диске и нажмите «Открыть». Будет предложено несколько вариантов открытия файла, связанных с его нестандартной кодировкой, укажите нужный и нажмите команду ОК.
Подбор кодировки
Выбор кодировки
Откройте вкладку Файл.
Выберите пункт Сохранить как.
Чтобы сохранить файл в другой папке, найдите и откройте ее.
В поле Имя файла введите имя нового файла.
В поле Тип файла выберите Обычный текст.
Нажмите кнопку Сохранить.
Если появится диалоговое окно Microsoft Office Word — проверка совместимости, нажмите кнопку Продолжить.
В диалоговом окне Преобразование файла выберите подходящую кодировку.
Чтобы использовать стандартную кодировку, выберите параметр Windows (по умолчанию).
Чтобы использовать кодировку MS-DOS, выберите параметр MS-DOS.
Чтобы задать другую кодировку, установите переключатель Другая и выберите нужный пункт в списке. В области Образец можно просмотреть текст и проверить, правильно ли он отображается в выбранной кодировке.
Примечание: Чтобы увеличить область отображения документа, можно изменить размер диалогового окна Преобразование файла.
Если появилось сообщение «Текст, выделенный красным, невозможно правильно сохранить в выбранной кодировке», можно выбрать другую кодировку или установить флажок Разрешить подстановку знаков.
Если разрешена подстановка знаков, знаки, которые невозможно отобразить, будут заменены ближайшими эквивалентными символами в выбранной кодировке. Например, многоточие заменяется тремя точками, а угловые кавычки — прямыми.
Если в выбранной кодировке нет эквивалентных знаков для символов, выделенных красным цветом, они будут сохранены как внеконтекстные (например, в виде вопросительных знаков).
Если документ будет открываться в программе, в которой текст не переносится с одной строки на другую, вы можете включить в нем жесткие разрывы строк. Для этого установите флажок Вставлять разрывы строк и укажите нужное обозначение разрыва (возврат каретки (CR), перевод строки (LF) или оба значения) в поле Завершать строки.
Заключение
Зачем нам знать, как менять кодировку в текстовых редакторах? IDE Visual C++ сама выбирает кодировку. Если вы откроете любой файл с исходным кодом (.cpp или .h) в простом текстовом редакторе, то увидите, что кодировка этого файла — ANSI.
В программах на ассемблере мы тоже будем использовать ANSI — этого требует компилятор. А вот когда будем разбирать скриптовые языки, то файлы с исходниками можно будет сохранять в UTF-8.