Стандартный блокнот windows кодировки

Как поменять кодировку (encoding) в текстовом редакторе?

Дата создания: 2012-05-07 07:11:41
Последний раз редактировалось: 2012-05-07 07:13:51

Я давно искал, в какой урок засунуть данный материал. В итоге решил немного расширить его и положить в отдельную статью.

Итак, сегодня мы научимся менять кодировку (encoding) в двух текстовых редакторах: стандартный блокнот (notepad) и Notepad++

Но сначала пару слов о текстовых файлах.

Текстовые файлы

Существует два вида текстовых файлов: простые текстовые файлы и текстовые файлы, содержащие информацию о форматировании (так называемый Rich Text Format).

Мы будем работать только с простыми текстовыми файлами.

Кодировка файлов

Все текстовые файлы имеют какую-то кодировку. Основных две: ANSI и Юникод. В ANSI кодировках (а их много) может быть закодировано только 256 символов. Если у вас русифицированная Windows, то блокнот создаёт текстовые документы в кодировке Windows-1251 — это одна из кодировок ANSI. Какая кодировка ANSI используется, зависит от языка операционной системы.

Юникод может содержать гораздо больше символов — примерно 65 тысяч, поэтому в Юникоде закодированы все письменности. Тем не менее, существует несколько вариантов юникода. Unicode LE используется в Windows, UTF-8 — распространён в интернете.

BOM (Byte Order Mark) — метка порядка байтов

Для различия различных версий юникода, в начале текстового файла может ставиться специальная метка — которая и говорит, в какой версии юникода закодирован текст файла.

Метка состоит из 2-4 байтов.

Использование BOM необязательно, а в некоторых случаях и нежелательно — особенно, если речь идёт о файлах с исходным кодом.

Ну а теперь, посмотрим, как менять кодировку в текстовых редакторах:

Смена кодировки файлов в блокноте (notepad)

В стандартном текстовом редакторе кодировку можно поменять только при сохранении файла.

Для этого используется пункт меню Файл -> Сохранить как.

В открывшемся диалоговом окне внизу можно выбрать нужную кодировку. Причём вариантов всего четыре:

ANSI — одна из кодировок ANSI (зависит от текущего языка ОС), Unicode — Little-Endian версия Юникода, которая используется в Windows. Unicode BE — Big-Endian версия Юникода (используется в (*NIX ОС), UTF-8 — Юникод для хранения файлов в интернете.

Как поменять кодировку в Notepad++

В Notepad++ есть возможность сохранить текст в UTF-8 без BOM метки. А также можно сохранить файл в различных версиях ANSI (пункт меню Кодировки -> Кодировки).

Заключение

Зачем нам знать, как менять кодировку в текстовых редакторах? IDE Visual C++ сама выбирает кодировку. Если вы откроете любой файл с исходным кодом (.cpp или .h) в простом текстовом редакторе, то увидите, что кодировка этого файла — ANSI.

В программах на ассемблере мы тоже будем использовать ANSI — этого требует компилятор. А вот когда будем разбирать скриптовые языки, то файлы с исходниками можно будет сохранять в UTF-8.

Как сменить кодировку текстового файла с помощью Блокнота в Windows

Фишка кодировки текстовых фалов в том, что хранятся не сами буквы (символы), а ссылки на них в таблице кодировок. Если с латинским буквами, арабскими цифрами и основными символами типа точек, тире и запятых никаких проблем не возникает: во многих таблицах кодировок все эти буквы, цифры и символы находятся в одних и тех же ячейках, то с кириллицей всё сложно. Например, в разных кодировках буква Ы может находиться в ячейке 211, 114 и 69.

Именно поэтому на заре интернета чтобы посмотреть разные сайты с разными кодировками приходилось подбирать кодировку. (Но кто это помнит?) Сейчас кодировка страницы обычно прописана в заголовке страницы, что позволяет браузеру «автоматически» подбирать отображение символов на наших мониторах.

То есть сервер отдаёт не просто HTML-страничку, а указывает, что у неё кодировка Windows-1251 . Браузер таким образом, считывая информацию о кодировке полученного файла, подставляет символы из указанной кодировки.

Но и это ещё не всё веселье. Например, если на сервере установлена операционная система из семейства *nix (с кодировкой по умолчанию UTF-8 ), а мы шлём файл из нашей любимой ОС Windows, где кодировка текстовых фалов по умолчанию стоит почему-то ANSI , то как вы думаете сервер будет работать с текстом, кодировка которой не совпадает с его? Правильно! Как-то будет работать! Но результат работы может быть непредсказуемым и удивительным. =)

Надеюсь, что мотивация для обращение необходимого внимания на кодировку достаточная и можно перейти к сути вопроса: «Как же, чёрт возьми, сохранить файл в нужной кодировке?!»

В этой статье речь пойдёт как раз о том, как сохранить текстовый файл с помощью программы Блокнот (Notepad) в Windows в нужной кодировке.

Для того, чтобы изменить кодировку текстового файла, конечно же сперва его нужно создать. А после того, как файл создан, нужно ещё суметь его открыть. Самый простой способ отрыть файл — это двойной клик левой кнопкой мыши по его иконке в проводнике:

Читайте также:  Как установить стандартный калькулятор windows 10

Если до этого настройки Windows не менялись, то файлы с расширением .txt открываются в Блокноте. (Это ещё один способ, как отрыть Блокнот (Notepad).)

Чтобы поменять кодировку в открывшемся файле, нужно в меню «Файл» текстового редактора Блокнот выбрать пункт «Сохранить как. »:

Откроется диалоговое окно сохранения файла. Для смены кодировки, нужно выбрать из списка предлагаемых необходимый:

После того, как нужная кодировка выбрана, можно кликнуть на кнопку «Сохранить» или просто нажать Enter:

Так как мы не изменили имя файла, то будет перезаписан тот же самый файл. Поэтому возникает справедливый вопрос: «Файл с таким именем уже существует. Заменить?» Ну да, мы к этому и стремимся! Поменять кодировку у этого файла. Поэтому его нужно перезаписать с новой кодировкой. Соглашаемся:

Всё! Миссия по смене кодировки в текстовом файле выполнена! Файл сохранён с новой кодировкой. Можно закрыть текстовый редактор и устроить празднование этого решающего события! =D

Как сменить кодировку в Блокноте по умолчанию с ANSI на другую

Рано или поздно любой пользователь Windows сталкивается с проблемой кодировки текста. «Кракозяблики» настигают всех, кто более-менее часто пользуется компьютером. Особенно остро эта задача стоит перед теми, кто не просто пользуется компьютером, а создаёт какой-то осмысленный контекст, например у себя на сайте. Сайт может находиться на удалённом сервере, где кодировка может отличаться от той, которую предлагает Windows по умолчанию.

Очень кратко:

  1. C:\Windows\ShellNew — создаем пустой текстовый файл, сохраняемым как UTF-8, переименовываем в UTF-8.txt. Он будет шаблоном.
  2. Заходим в реестр HKEY_CLASSES_ROOT / .txt / ShellNew / — создаем «Строковый параметр»: имя — FileName / значение — UTF-8.txt

Немного лирики о том, почему всё так, а не иначе:

Но и для пользователей, остающихся обычными «пользователями ПК» проблема с кодировками кириллистических символов иногда встаёт довольно остро. «Кракозяблики» — наследие предыдущей эпохи, когда каждый программист писал собственную таблицу кодировок. Например, скачал и хочешь почитать интересную книжку, а тут такое >=O

И так продолжалось до тех пор, пока не начали вводиться стандарты. Но и стандартов на текущее время уже немало. Например, есть кодировка Unicode, есть UTF-8, есть UTF-16 и так далее.

Я так и не нашёл, как сменить кодировку по умолчанию при открытии Блокнота и создания нового документа уже из открытой сессии Блокнота.

Зато нашёл, как сменить кодировку по умолчанию, когда текстовый документ сначала создаётся (из контекстного меню) и только потому открывается Блокнотом. Тогда кодировка файла будет та, которая будет прописана по умолчанию. Об этом и пойдёт ниже речь.

Итак, для того, чтобы поменять кодировку создаваемых текстовых документов по умолчанию, нам понадобиться внести изменения в Реестр Windows.

В данной статье рассмотрен пример для файлов с расширением .txt , а т.к. в Windows программой, открывающей эти файлы по умолчанию является Блокнот, то некоторые считают, что меняют кодировку по умолчанию в самом Блокноте. Но это не так. Меняется кодировка по умолчанию создаваемого файла. Блокнот лишь открывает документ, считывая уже прописанную в нём кодировку. В самом Блокноте прошита кодировка ANSI. И, похоже, это не поменять средствами Реестра Windows.

Как бы Windows не старался насаждать свои стандарты, большинство современных серверов работают на *nix операционных системах потому, что эти системы имеют открытый код и не имеют «корпоративной тайны на семью печатями». То есть, в них можно разобраться самостоятельно: что и как работает. Думаю, и дальше будет такая же тенденция. Все более-менее «продвинутые пользователи ПК» будут использовать программное обеспечение с открытым кодом для работы, и программы «из пакетов» для быстрой обработки данных (чтобы не изобретать велосипедов). На *nix операционных системах на текущий момент кодировкой по умолчанию является кодировка UTF-8 . Её можно без особых заморочек выставить другой, но зачем, если она на большинстве серверов и они нормально друг с другом *nix «общаются»? У меня на сервере тоже стоит UTF-8 и это удобно. Поэтому задача у меня стояла, как сменить кодировку в Блокноте по умолчанию для Windows с ANSI на общепринятую UTF-8 .

Ну и хватит лирики. К делу!

Сперва удостоверимся в том, что в Блокноте стоит по умолчанию кодировка ANSI , для этого достаточно «Сохранить как. » любой документ и увидеть его кодировку:

Что делать, чтобы сменить кодировку в Блокноте по умолчанию с ANSI на другую:

  1. Открываем Блокнот или создаём новый текстовый документ и потом его открываем в Блокноте
  2. Меняем кодировку текстового файла
  3. Сохраняем этот документ (я свой назвал по названию кодировки UTF-8.txt )
    1. Если не видно расширение файла, то можно его сделать видимым
    2. Можно сохранить файл и переименовать
  4. Перемещаем созданный документ в папку C:\Windows\ShellNew (сразу создать текстовый документ в этой папке не получится — защита Windows от внесения изменений в системные папки)
    1. Если папки нет (что мало вероятно), то её нужно создать и также переместить на место: C:\Windows\ShellNew
  5. Теперь открываем редактор реестра
  6. Находим папку HKEY_CLASSES_ROOT / .txt / ShellNew / (она должна быть, если нет, то создаём)
  7. Создаём строковый параметр:
    1. С именем FileName
    2. Со значением UTF-8.txt (имя того файла, который мы создали в п.3 перенесли в папку C:\Windows\ShellNew в п.4)
  8. Радуемся! Ибо это всё =)
Читайте также:  Windows часы включить секунды

Теперь при создании текстового файла с помощью контекстного меню у него будет та кодировка, которая была нами установлена в файле-образце, лежащем в папке C:\Windows\ShellNew . Проверяем:

Если в файле-образце набрать какой-то текст, то он будет во всех новых файлах, создаваемых с помощью контекстного меню.

Не знаю, где это можно применить, т.к. у меня мало рутины с текстовыми файлами, но это может пригодиться тем, кто работает с шаблонными файлами. Или, например, для создания текстового файла-шаблона для HTML-документов, который можно создать таким же способом. Тогда не нужно будет каждый раз писать структуру , , , и т.д..

Как прочесть «агббЄЁ© ⥪бв» ?

Безусловно, Вы уже поняли, что содержащиеся в заголовке слова написаны по русски, но в кодировке DOS (таблица 866). Несмотря на повсеместное победное шествие Windows с её кодовой страницей 1251, нам до сих пор очень часто попадаются тексты в старой кодировке. Многие из них имеют расширение txt и открываются в Блокноте. Другие имеют нестандартные расширения, и при попытке открыть их двойным щелчком Windows запускает диалог для выбора программы (не нравится мне это). Если Вы читали мою заметку «Разгон блокнота», то знаете, как победить эту дурную привычку Окошек.

Существует множество бесплатных программ как для чтения в разных кодировках, так и для трансляции кодировок друг в друга. Их общий недостаток — их нужно откуда-то взять и установить. Между тем, на Вашем компьютере уже присутствуют как минимум 3 программы, с помощью которых можно прочесть все возможные кодировки русского языка (DOS, ISO, KOI-8R). Посмотрим, на что способна каждая из них.

Блокнот

Если Вы уже открыли файл в блокноте и только после этого обнаружили, что он создан в OEM (она же DOS) кодировке, можно посмотреть его прямо в Блокноте. Если Вы уже знаете, что файл содержит не Windows-текст, использовать Блокнот я не советую. Неудобно это. Сейчас Вы поймёте, почему.
Для перехода к OEM-кодировке выберите Правка/Шрифт. Откроется диалог Выбор шрифта. В прогручивающемся списке Шрифт этого диалога найдите Terminal и щёлкните ОК.
Недостаток этого метода в сложности переключения кодировок. Кроме того, теперь, чтобы посмотреть текстовый файл в кодировке Windows, придётся тем же способом возвращать на родину прежний шрифт (он называется Fixedsys). Так что применять Блокнот не стоит. Оставьте его для Windows-кодировки и английских текстовых файлов.

Как это ни странно, но в поставке Windows 98 SE до сих пор присутствует «Редактор MS-DOS», ведущий свою родословную от MS-DOS EDIT, который входил в систему программирования QBasic для DOS. Как следует из названия, это DOS-приложение. К счастью, это ещё и часть Windows, поэтому никаких проблем при его запуске в окне не возникает. Использовать его по прямому назначению (в качестве редактора) довольно глупо. Но как вьюер для текстовых файлов DOS он вполне подойдёт. Файл программы называется Edit.com и находится в папке Windows\Command . Чтобы использовать его для просмотра текста, создайте для него ярлык на Рабочем столе.

Чтобы создать на Рабочем столе ярлык для файла, перетащите его на Рабочий стол правой кнопкой мыши и выберите соответствующий пункт в открывшемся меню.

Ярлык «Редактора MS-DOS» выглядит как клавиатура. Теперь достаточно перенести на него файл, и тот откроется в окне MS-DOS.

Не стоит открывать его в полноэкранном режиме.
Во-первых, Вы не сможете работать с Буфером обмена Windows.
Во-вторых, частота вертикальной развёртки в этом режиме составляет всего 60 Гц, и это вредно для глаз.
В-третьих, если у Вас по каким либо причинам отключена поддержка русского языка в MS-DOS (это три строчки в Autoexec.bat ), вместо ожидаемых русских букв Вы опять увидите абракадабру.

«Редактор MS-DOS» в принципе неплохо справляется с ролью вьюера, и я рекомендовал бы его на эту роль. если бы не знал лучший вариант.

Microsoft Internet Explorer

Да, да, да! Тот самый MS IE, которым Вы просматриваете странички в Интернете. В отличие от двух перечисленных программ, он позволяет смотреть текстовые файлы в любой (не извращённой) кодировке русского языка. Всё очень просто.
Запускаете IE в автономном режиме. Только не разворачивайте его на весь экран. Теперь перетаскиваете в его окно нужный файл из Проводника. У меня стоит IE5.01 со включённым автоопределением кодировки. Поэтому файл открывается сразу в нужной кодировке. Если по каким-то причинам IE ошибся, или автоопределение не установлено, всегда можно выбрать кодировку вручную из меню Вид.
Если Вы не хотите использовать программы, не входящие в Windows, IE — то, что Вам нужно. Тем не менее я обычно пользуюсь четвёртой программой.

Wpview

Думаю, никто ещё не забыл такую оболочку для DOS как Norton Commander. Она стала родоначальником огромного количества клонов, обладающих теми или иными достоинствами и недостатками. Многие из них живы до сих пор и продолжают плодиться усилиями энтузиастов. NC и по сей день установлен на огромном количестве компьютеров, и многие до сих пор по неведомой мне причине для совершения файловых операций даже из под Win9.x запускают любимые синие панельки.
NC есть и на моём винчестере, правда, я пользуюсь им только при необходимости загрузить компьютер в чистом DOS`е. Так вот, в русском NC5, которым я для этого пользуюсь, есть функция просмотра файлов. Из NC она вызывается нажатием клавиши F3. Она умеет просматривать 17 текстовых форматов, плюс просмотр файла в шестнадцатиричных кодах. В числе форматов: DOS и Windows текст с форматированием и без, а также RTF. С поддержкой русского языка!
Запускается этот вьюер практически мгновенно, чего не скажешь про MS IE, а это немаловажно для не слишком мощного компьютера, как мой. Знаю, у Вас возник закономерный вопрос: как это, мгновенно, если надо NC запустить, потом файл в нём найти да ещё и кодировку выбрать? Ответ прост.
За просмотр текстовых файлов в NC отвечает отдельная утилита Wpview.exe . Она вполне работоспособна и отдельно от пакета. Для этого я создал для неё ярлык на рабочем столе (о создании ярлыка см. выше).

Читайте также:  Windows удаляет гугл хром

Мне не нравится значок, которым Windows награждает приложения DOS по умолчанию. Но это легко исправить. Щёлкните ярлык правой кнопкой и выберите в меню Свойства. На вкладке Программа нажмите кнопку Сменить значок. Откроется диалог Изменение значка. Поскольку Вы меняете значок для DOS-приложения, в диалоге сразу будет открыта библиотека PIFMGR.DLL . Можно открыть другие библиотеки значков или отдельные файлы ico , нажав кнопку Обзор. Но лично мне показался соответствующим смыслу и виду программы шестой значок в верхнем ряду этой библиотеки (вид на голубое небо через серое окно). После первого запуска Wpview Вы поймёте, почему.

Чтобы посмотреть файл, я перетаскиваю его из Проводника на значок этой утилиты. И всё. Что касается кодировки, то программа помнит её последнюю установку, так что если Вы будете использовать её главным образом для просмотра текстовых файлов DOS, никаких задержек для переключения не будет.

Shtirlitz

Для расширения кругозора

Полноты ради следует вспомнить о так называемых извращённых кодировках русского языка. Возможно, Вам так и не придётся столкнуться с ними — и слава Богу. Их описание не является темой данной статьи. Если же Вы хотите поподробнее изучить данный вопрос, что мною всячески приветствуется, милости прошу сюда.
Если Вы впервые сталкиваетесь с этим термином, поясняю, что извращённые кодировки — это порождение некорректного взаимодействия клиентских почтовых программ и серверов почты. Так что если Вам довелось получить письмо, которое не читается ни в одной из стандартных кодировок, значит, его «извратил» почтовый сервер по пути прохождения. Это печально, но не смертельно. Некоторые почтовые программы умеют читать такие письма, но если Вы, как и я, пользуетесь Outlook Express, Вам понадобится отдельная программа для чтения такого письма. Их немало. Можно спорить о достоинствах и недостатках каждой конкретной из них, но лично я остановился на Штирлице 3.0 Всеволода Лукьянина. (В этом месте полагается похохмить насчёт названия программы, но я из вредности этого делать не буду.)
Нет смысла перечислять его возможности: скорее всего, они с лихвою перекроют все Ваши запросы. Но маленький совет дам. Удобно настроить программу так, чтобы она проверяла обновление Буфера обмена. Это позволит раскодировать письма на лету, просто копируя их в Буфер. Впрочем, перетаскивание файлов в окно программы Штирлиц тоже поддерживает.
Есть одно полезное применение Штирлица, не связанное с почтой. Если Вам попался файл в котором есть куски и в DOS, и в Windows кодировках (мне такие встречались, хотя я не знаю, какую цель преследуют авторы этих текстов), Штирлиц прекрасно разберётся, что к чему, и приведёт весь текст «к общему знаменателю».

Вдогонку

Совершенно неожиданно для меня самого у этой темы возникло продолжение. Я давно уже расстался с надеждой найти полноценную замену Блокноту. Всё, что попадалось мне на софт-серверах было либо абсолютно не функциональным, либо напрягало обилием ненужных мне функций. Про размеры я просто молчу. Собственно, из этого и родилась данная статья. И вдруг от Игоря Шишло (огромное ему спасибо) мне приходит письмо с крохотным аттачем.
Обработав содержимое ZIP`а дустом (то есть AVP) на предмет заразы и никаких микробов не обнаружив, я извлёк оттуда нечто, поразившее меня своей простотой, удобством и размерами. Оно называлось Bred2. Как удалось выяснить, автора зовут Олег Булычёв (Браво, маэстро!). Программа freevare, но я бы заплатил за неё с получки :). Английская версия лежит на Листсофте. У нас здесь русская. К сожалению, не удалось связаться с автором для получения разрешения на это. Сервер заворачивает назад письма, отправленные по указанному в хелпе адресу. Так что прости нас, Олег.

Теперь о предмете разговора. Вот 12 его отличий от Блокнота:

  • имеет настраиваемую панель инструментов;
  • умеет импортировать файлы;
  • помнит 10 недавно открытых документов;
  • делает многоуровневый откат (. );
  • выравнивает текст четырьмя способами;
  • помогает просмотреть макет перед выводом на печать;
  • умеет проводить автоматическую замену в тексте (. );
  • понимает несколько кодировок и позволяет оперативно их переключать, а также гонять текст из одной в другую (. );
  • позволяет выбрать для каждой кодировки вид и размер шрифта;
  • выводит текст, используя Ваши любимые цвета (например, зелёненькие буквочки на оранжевом фоне :));
  • окрывает файлы любого размера, по заверениям автора — до половины ОЗУ Вашего компьютера (прощай, WordPad. );
  • поддерживает кучу горячих клавиш для любителей не пользоваться мышью, в том числе мой любимый CTRL-S для сохранения (. ).
Оцените статью