- Приводим русские тексты на Mac OS X в одну кодировку Python-скриптом
- Использование региональных кодировок символов в Терминале на Mac
- Изменение региональных кодировок символов
- Подключение региональных кодировок символов
- Проблемы с кириллицей в приложении TextEdit на Mac OS X. Как решить?
- Как определить кодировку файлов в Mac OS с помощью командной строки
- Определение кодировки файлов и набора символов через командную строку в Mac OS
- Mac OS Роман — Mac OS Roman
- СОДЕРЖАНИЕ
- Набор символов
- Технические примечания
Приводим русские тексты на Mac OS X в одну кодировку Python-скриптом
Случилось мне иметь ноут на OS X, комп на Linux и одного из друзей с Windows. И вот через dropbox обмениваются все эти три компа документами разными. В том числе и текстовыми, в которых хранятся разные заметки, задачи и т.п. И вот незадача: тексты написанные на MacOSx плохо читаются в блокноте Винды, а виндовые в textedit на MacOSx.
И вся причина в том, что на винде блокнот использует кодировку Windows 1251, а на OS X используется по умолчанию MACCYRILLIC. Причем обе программы без проблем работают с UTF-8 кодировкой.
Вот только конвертировать из одной кодировки в другую как-то неудобно, лишнее время тратить на открытие терминала и набор заветных команд iconv…
Пораздумав, написал небольшой скрипт, который сам определяет используемую кодировку и конвертирует в UTF-8 все txt-файлы.
Что использую для всего:
Python 2.7
Mac OS X 10.7.5
PyCharm IDE
Изначально сделал определение кодировки самостоятельно, без дополнительных модулей. Но по совету ad3w решил переписать с использованием готового модуля chardet для определения кодировки.
Кому интересно, предыдущий
Определение происходит простым перебором кодировок и выбором той, в которой не будет лишних символов. А набор символов определяете Вы. Конечно этот способ не подойдет для файлов с DOS-графикой, но в обычных целях использования txt его вполне хватит.
Скачиваем модуль chardet 1.1,
Распаковываем и устанавливаем:
Создаем свой скрипт для перекодировки файлов:
Далее необходимо сделать удобным запуск данного скрипта прямо из папки в OS X.
Открываем Automator и создаем Службу.
Вверху выбираем пункты, чтобы получилось «Служба получает файлы и папки в Finder.app».
Далее ставим действие «получить выбранные объекты Finder».
Далее «Запустить Shell-скрипт» в настройках его «Передать ввод: как аргументы» и в нем содержание:
Дописал 2>/dev/null, чтобы автоматор не останавливал выполнение при выводе ошибки модуля chardet.
И последний пункт «Show Growl Notification» (в нем можно написать, что конвертация произведена).
Сохраняем с именем латинскими буквами (с русскими у меня почему-то пункт в меню не появлялся, пока не переименовал) и проверяем.
Новый пункт меню появится в Finder в меню файлов и папок в подменю Сервисы.
Источник
Использование региональных кодировок символов в Терминале на Mac
Изменение региональных кодировок символов
В приложении «Терминал» на Mac выберите меню «Терминал» > «Настройки», затем нажмите «Профили».
В списке «Профили» выберите профиль, который требуется изменить.
В разделе «Региональные настройки» нажмите всплывающее меню «Кодировка текста» и выберите кодировку.
Чтобы использовать кодировку, которая не отображается во всплывающем меню, включите ее в панели «Кодировки» в настройках Терминала.
Подключение региональных кодировок символов
По умолчанию в Терминале используется стандартный набор региональных кодировок символов. Если Вы хотите использовать кодировку, которая не указана в настройках окна, то Вам необходимо включить ее на панели «Кодировки» в настройках Терминала.
В приложении «Терминал» на Mac выберите меню «Терминал» > «Настройки», затем нажмите «Кодировки».
Включите необходимые кодировки, поставив перед ними флажки.
Чтобы использовать включенную кодировку, нажмите «Профили», затем нажмите «Дополнения».
В разделе «Региональные настройки» нажмите всплывающее меню «Кодировка текста» и выберите кодировку.
Источник
Проблемы с кириллицей в приложении TextEdit на Mac OS X. Как решить?
Несмотря на все преимущества современных программ и онлайн-сервисов, предназначенных для работы с текстовыми документами, многие пользователи часто сталкиваются с необходимостью использования самых обычных файлов формата .txt. При этом документы, сохраненные на Windows, могут некорректно отображаться на Mac, в этом материале мы расскажем о том, как решить эту проблему.
Итак, операционные системы от Apple и Microsoft используют различные стандарты при кодировке текстовых документов (на кириллице), что приводит к неправильному отображению шрифтов при чтении файла. Естественно, для разрешения данной проблемы существует несколько специальных утилит, однако можно обойтись и штатными средствами Mac OS X.
По умолчанию Mac OS X обычно использует кодировку Mac Cyrillic или Mac Roman, в таком случае текстовые файлы, закодированные в Windows Cyrillic, будут выглядеть примерно так, как показано на скриншоте ниже. Чтобы изменить кодировку по умолчанию, необходимо в домашней папке отыскать скрытый файл .CFUserTextEncoding (о том, как настроить отображение скрытых файлов, читайте здесь).
В этом файле имеется всего одна строка, в которой значение до двоеточия обозначает используемую кодировку кириллицы. В нашем случае это «0x7» — Mac Cyrillic.
Чтобы переключиться на искомую Windows Cyrillic, достаточно изменить это значение на «0x502» прямо в текстовом редакторе, сохранить файл и перезапустить Finder (иногда требуется перезагрузка компьютера).
Результат:
Источник
Как определить кодировку файлов в Mac OS с помощью командной строки
Вы можете определить кодировку и символы файлов, установленные в командной строке в Mac OS (и linux), используя команду «файл», которая помогает получить общую и конкретную информацию о типе файла.
Вероятно, это не будет подходящим советом для многих пользователей, но если вам требуется работать с определенным набором символов для чего-то или вам нужно знать, какой тип файла, кодировка или набор символов введенного элемента командной строки, то это сделает трюк.
Команда файла работает в Mac OS и Mac OS X, а также в Linux и многих других версиях unix, что делает этот трюк полезным для сценариев и других подобных целей.
Определение кодировки файлов и набора символов через командную строку в Mac OS
Основной синтаксис выглядит следующим образом:
файл -I (входной файл)
(В случае, если это не было очевидно, это капитал «i» в качестве флага, как в -I, а не в нижнем регистре L)
Нажатие возврата с правильным именем файла, так как вход будет отображать набор символов, такой как UTF-8, us-ascii, двоичный, 8 бит и т. Д.
Например, допустим, мы проверяем набор символов и кодировку файла с именем «text.txt», тогда синтаксис будет выглядеть так:
$ file -I text.txt
text.txt: text / plain; кодировка = неизвестно-8bit
«Text / plain» — это тип файла, а «unknown-8bit» — кодировка файла набора символов.
Вы также можете выдать команду файла буквально любому другому файлу, будь то изображения, архивы, исполняемые файлы или что-то еще, на что вы хотите указать команду. Это может быть приятно, если вы автоматизируете что-то для определения типа файла, а затем запускаете соответствующую команду, возможно, после того, как файл был загружен с помощью curl, и тип архива должен быть определен до того, как будет выполнена правильная команда.
$ file -I СкачанFile.zip
ЗагруженоFile.zip: application / zip; кодировка = двоичная
Существует много других применений для проверки набора символов, кодирования файлов и типа файла через командную строку с помощью команды «файл», а флаг -I — только один из множества доступных вариантов. Просмотрите страницу руководства для файла, чтобы узнать больше, если это интересно, и не забудьте ознакомиться с нашими другими советами в командной строке (или перечислить все команды терминала, доступные на Mac, и немного повеселиться).
Вы знаете другой или лучший способ проверить кодировку и набор символов через командную строку в Mac OS? Дайте нам знать об этом в комментариях!
Источник
Mac OS Роман — Mac OS Roman
MIME / IANA | макинтош | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Псевдоним (а) | макинтош, МакРоман, x-mac-roman | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Язык (и) | Английский , разные другие | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Классификация | Расширенный ASCII , сценарий Mac OS | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Расширяется | ASCII , набор символов Macintosh | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0_ | NUL 0000 | SOH 0001 | STX 0002 | ETX 0003 | EOT 0004 | ENQ 0005 | ACK 0006 | BEL 0007 | BS 0008 | HT 0009 | LF 000A | ВТ 000Б | FF 000C | CR 000D | SO 000E | SI 000F |
1_ | DLE 0010 | DC1 0011 | DC2 0012 | DC3 0013 | DC4 0014 | NAK 0015 | SYN 0016 | ETB 0017 | CAN 0018 | EM 0019 | SUB 001A | ESC 001B | FS 001C | GS 001D | RS 001E | США 001F |
2_ | SP 0020 | ! 0021 | « 0022 | # 0023 | 0024 долл. США | % 0025 | & 0026 | ‘ 0027 | ( 0028 | ) 0029 | * 002A | + 002B | , 002C | — 002D | . 002E | / 002F |
3_ | 0 0030 | 1 0031 | 2 0032 | 3 0033 | 4 0034 | 5 0035 | 6 0036 | 7 0037 | 8 0038 | 9 0039 | : 003A | ; 003B | 003C | = 003D | > 003E | ? 003F |
4_ | @ 0040 | A 0041 | B 0042 | C 0043 | D 0044 | E 0045 | F 0046 | G 0047 | H 0048 | I 0049 | J 004A | K 004B | L 004C | M 004D | № 004E | O 004F |
5_ | P 0050 | Q 0051 | R 0052 | S 0053 | Т 0054 | U 0055 | V 0056 | W 0057 | X 0058 | Y 0059 | Z 005A | [ 005B | \ 005C | ] 005D | ^ 005E | _ 005F |
6_ | ` 0060 | а 0061 | b 0062 | c 0063 | d 0064 | e 0065 | f 0066 | г 0067 | h 0068 | я 0069 | j 006A | k 006B | l 006C | м 006D | № 006E | o 006F |
7_ | p 0070 | q 0071 | r 0072 | с 0073 | t 0074 | u 0075 | v 0076 | w 0077 | х 0078 | y 0079 | z 007A | < 007B | | 007C | > 007D | | DEL 007F |
8_ | Ä 00C4 | Å 00C5 | Ç 00C7 | É 00C9 | Ñ 00D1 | Ö 00D6 | Ü 00DC | á 00E1 | à 00E0 | â 00E2 | ä 00E4 | ã 00E3 | å 00E5 | ç 00E7 | é 00E9 | è 00E8 |
9_ | ê 00EA | ë 00EB | í 00ED | ì 00EC | î 00EE | • 00EF | ñ 00F1 | ó 00F3 | ò 00F2 | ô 00F4 | ö 00F6 | х 00F5 | ú 00FA | ù 00F9 | û 00FB | ü 00FC |
A_ | † 2020 г. | ° 00B0 | ¢ 00A2 | £ 00A3 | § 00A7 | • 2022 г. | ¶ 00B6 | ß 00DF | ® 00AE | © 00A9 | ™ 2122 | ´ 00B4 | ¨ 00A8 | ≠ 2260 | Æ 00C6 | Ø 00D8 |
B_ | ∞ 221E | ± 00B1 | ≤ 2264 | ≥ 2265 | ¥ 00A5 | µ 00B5 | ∂ 2202 | Σ 2211 | ∏ 220F | π 03C0 | ∫ 222B | ª 00AA | º 00BA | Ом 03A9 | æ 00E6 | ø 00F8 |
C_ | ¿ 00BF | ¡ 00A1 | ¬ 00AC | √ 221А | ƒ 0192 | ≈ 2248 | ∆ 2206 | « 00AB | » 00BB | … 2026 г. | NBSP 00A0 | À 00C0 | à 00C3 | Õ 00D5 | Œ 0152 | œ 0153 |
D_ | — 2013 г. | — 2014 г. | « 201C | ” 201D | ‘ 2018 | ‘ 2019 | ÷ 00F7 | ◊ 25CA | ÿ 00FF | Ÿ 0178 | ⁄ 2044 | € 20AC | ‹ 2039 | › 203A | фи FB01 | fl FB02 |
E_ | ‡ 2021 г. | · 00B7 | ‚ 201A | „ 201E | ‰ 2030 г. | Â 00C2 | Ê 00CA | Á 00C1 | Ë 00CB | È 00C8 | Í 00CD | Î 00CE | Ï 00CF | Ì 00CC | Ó 00D3 | Ô 00D4 |
F_ | F8FF | Ò 00D2 | Ú 00DA | Û 00 дБ | Ù 00D9 | № 0131 | 02C6 | ˜ 02DC | ¯ 00AF | ˘ 02D8 | ˙ 02D9 | ˚ 02DA | ¸ 00B8 | ˝ 02DD | ˛ 02DB | 02C7 |
Письмо Номер Пунктуация Символ Другой Неопределенный
Технические примечания
Управление по присвоению номеров в Интернете определяет эту кодировку с помощью строки « macintosh ». Таким образом, MIME Content-Type для этой кодировки — «text / plain; charset = macintosh». Номер кодовой страницы Microsoft Windows — 10000 . IBM использует кодовую страницу / CCSID 1275.
С выпуском Mac OS X , Mac OS Roman и все другие «скрипты» (как их называла классическая Mac OS) были заменены на UTF-8 в качестве стандартной кодировки символов для операционной системы Macintosh. Однако кодировка символов по умолчанию в Java для Mac OS X осталась MacRoman, а раскладка клавиатуры с ее комбинацией клавиш управления , опций и мертвых клавиш по- прежнему сопоставляется с исходными символами в MacRoman. Кодировку символов по умолчанию для Java можно изменить на UTF-8, добавив следующую строку в .profile :
Источник