Стандартная кодировка mac os

Приводим русские тексты на Mac OS X в одну кодировку Python-скриптом

Случилось мне иметь ноут на OS X, комп на Linux и одного из друзей с Windows. И вот через dropbox обмениваются все эти три компа документами разными. В том числе и текстовыми, в которых хранятся разные заметки, задачи и т.п. И вот незадача: тексты написанные на MacOSx плохо читаются в блокноте Винды, а виндовые в textedit на MacOSx.

И вся причина в том, что на винде блокнот использует кодировку Windows 1251, а на OS X используется по умолчанию MACCYRILLIC. Причем обе программы без проблем работают с UTF-8 кодировкой.
Вот только конвертировать из одной кодировки в другую как-то неудобно, лишнее время тратить на открытие терминала и набор заветных команд iconv…

Пораздумав, написал небольшой скрипт, который сам определяет используемую кодировку и конвертирует в UTF-8 все txt-файлы.

Что использую для всего:
Python 2.7
Mac OS X 10.7.5
PyCharm IDE

Изначально сделал определение кодировки самостоятельно, без дополнительных модулей. Но по совету ad3w решил переписать с использованием готового модуля chardet для определения кодировки.
Кому интересно, предыдущий

Определение происходит простым перебором кодировок и выбором той, в которой не будет лишних символов. А набор символов определяете Вы. Конечно этот способ не подойдет для файлов с DOS-графикой, но в обычных целях использования txt его вполне хватит.

Скачиваем модуль chardet 1.1,
Распаковываем и устанавливаем:

Создаем свой скрипт для перекодировки файлов:

Далее необходимо сделать удобным запуск данного скрипта прямо из папки в OS X.

Открываем Automator и создаем Службу.
Вверху выбираем пункты, чтобы получилось «Служба получает файлы и папки в Finder.app».

Далее ставим действие «получить выбранные объекты Finder».
Далее «Запустить Shell-скрипт» в настройках его «Передать ввод: как аргументы» и в нем содержание:

Дописал 2>/dev/null, чтобы автоматор не останавливал выполнение при выводе ошибки модуля chardet.

И последний пункт «Show Growl Notification» (в нем можно написать, что конвертация произведена).

Сохраняем с именем латинскими буквами (с русскими у меня почему-то пункт в меню не появлялся, пока не переименовал) и проверяем.

Новый пункт меню появится в Finder в меню файлов и папок в подменю Сервисы.

Источник

Использование региональных кодировок символов в Терминале на Mac

Изменение региональных кодировок символов

В приложении «Терминал» на Mac выберите меню «Терминал» > «Настройки», затем нажмите «Профили».

В списке «Профили» выберите профиль, который требуется изменить.

В разделе «Региональные настройки» нажмите всплывающее меню «Кодировка текста» и выберите кодировку.

Чтобы использовать кодировку, которая не отображается во всплывающем меню, включите ее в панели «Кодировки» в настройках Терминала.

Подключение региональных кодировок символов

По умолчанию в Терминале используется стандартный набор региональных кодировок символов. Если Вы хотите использовать кодировку, которая не указана в настройках окна, то Вам необходимо включить ее на панели «Кодировки» в настройках Терминала.

Читайте также:  Ошибка windows диск отсутствует вставьте диск

В приложении «Терминал» на Mac выберите меню «Терминал» > «Настройки», затем нажмите «Кодировки».

Включите необходимые кодировки, поставив перед ними флажки.

Чтобы использовать включенную кодировку, нажмите «Профили», затем нажмите «Дополнения».

В разделе «Региональные настройки» нажмите всплывающее меню «Кодировка текста» и выберите кодировку.

Источник

Проблемы с кириллицей в приложении TextEdit на Mac OS X. Как решить?

Несмотря на все преимущества современных программ и онлайн-сервисов, предназначенных для работы с текстовыми документами, многие пользователи часто сталкиваются с необходимостью использования самых обычных файлов формата .txt. При этом документы, сохраненные на Windows, могут некорректно отображаться на Mac, в этом материале мы расскажем о том, как решить эту проблему.

Итак, операционные системы от Apple и Microsoft используют различные стандарты при кодировке текстовых документов (на кириллице), что приводит к неправильному отображению шрифтов при чтении файла. Естественно, для разрешения данной проблемы существует несколько специальных утилит, однако можно обойтись и штатными средствами Mac OS X.

По умолчанию Mac OS X обычно использует кодировку Mac Cyrillic или Mac Roman, в таком случае текстовые файлы, закодированные в Windows Cyrillic, будут выглядеть примерно так, как показано на скриншоте ниже.
Чтобы изменить кодировку по умолчанию, необходимо в домашней папке отыскать скрытый файл .CFUserTextEncoding (о том, как настроить отображение скрытых файлов, читайте здесь).
В этом файле имеется всего одна строка, в которой значение до двоеточия обозначает используемую кодировку кириллицы. В нашем случае это «0x7» — Mac Cyrillic.
Чтобы переключиться на искомую Windows Cyrillic, достаточно изменить это значение на «0x502» прямо в текстовом редакторе, сохранить файл и перезапустить Finder (иногда требуется перезагрузка компьютера).

Результат:

Источник

Как определить кодировку файлов в Mac OS с помощью командной строки

Вы можете определить кодировку и символы файлов, установленные в командной строке в Mac OS (и linux), используя команду «файл», которая помогает получить общую и конкретную информацию о типе файла.

Вероятно, это не будет подходящим советом для многих пользователей, но если вам требуется работать с определенным набором символов для чего-то или вам нужно знать, какой тип файла, кодировка или набор символов введенного элемента командной строки, то это сделает трюк.

Команда файла работает в Mac OS и Mac OS X, а также в Linux и многих других версиях unix, что делает этот трюк полезным для сценариев и других подобных целей.

Определение кодировки файлов и набора символов через командную строку в Mac OS

Основной синтаксис выглядит следующим образом:

файл -I (входной файл)

(В случае, если это не было очевидно, это капитал «i» в качестве флага, как в -I, а не в нижнем регистре L)

Нажатие возврата с правильным именем файла, так как вход будет отображать набор символов, такой как UTF-8, us-ascii, двоичный, 8 бит и т. Д.

Например, допустим, мы проверяем набор символов и кодировку файла с именем «text.txt», тогда синтаксис будет выглядеть так:

$ file -I text.txt
text.txt: text / plain; кодировка = неизвестно-8bit

«Text / plain» — это тип файла, а «unknown-8bit» — кодировка файла набора символов.

Вы также можете выдать команду файла буквально любому другому файлу, будь то изображения, архивы, исполняемые файлы или что-то еще, на что вы хотите указать команду. Это может быть приятно, если вы автоматизируете что-то для определения типа файла, а затем запускаете соответствующую команду, возможно, после того, как файл был загружен с помощью curl, и тип архива должен быть определен до того, как будет выполнена правильная команда.

Читайте также:  Power query excel 2016 mac os

$ file -I СкачанFile.zip
ЗагруженоFile.zip: application / zip; кодировка = двоичная

Существует много других применений для проверки набора символов, кодирования файлов и типа файла через командную строку с помощью команды «файл», а флаг -I — только один из множества доступных вариантов. Просмотрите страницу руководства для файла, чтобы узнать больше, если это интересно, и не забудьте ознакомиться с нашими другими советами в командной строке (или перечислить все команды терминала, доступные на Mac, и немного повеселиться).

Вы знаете другой или лучший способ проверить кодировку и набор символов через командную строку в Mac OS? Дайте нам знать об этом в комментариях!

Источник

Mac OS Роман — Mac OS Roman

Mac OS Роман

Mac OS Roman — это кодировка символов, созданная Apple Computer, Inc. для использования на компьютерах Macintosh . Он подходит для представления текста на английском и нескольких других западных языках. В Mac OS Roman кодируется 256 символов, первые 128 из которых идентичны ASCII , а остальные символы включают математические символы, диакритические знаки и дополнительные знаки препинания. Mac OS Roman — это расширение исходного набора символов Macintosh, в котором закодировано всего 217 символов. Полная поддержка Mac OS Roman впервые появилась в macOS 6.0.4 , выпущенном в 1989 году, и кодировка по-прежнему поддерживается в текущих версиях macOS , хотя стандартными кодировками символов теперь являются UTF-8 или UTF-16 . Apple изменила Mac OS Roman в 1998 году, выпустив macOS 8.5 , заменив знак валюты в шестнадцатеричной позиции 0xDB знаком евро, но в остальном кодировка не изменилась с момента ее выпуска.

СОДЕРЖАНИЕ

Набор символов

В следующей таблице показано, как символы кодируются в Mac OS Roman. Заголовки строк и столбцов содержат первую и вторую цифру шестнадцатеричного кода для каждого символа в таблице. Под каждым символом указано скалярное значение его эквивалента в Юникоде .

MIME / IANA макинтош
Псевдоним (а) макинтош, МакРоман, x-mac-roman
Язык (и) Английский , разные другие
Классификация Расширенный ASCII , сценарий Mac OS
Расширяется ASCII , набор символов Macintosh
Mac OS Роман

_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _A _B _C _D _E _F
0_ NUL
0000
SOH
0001
STX
0002
ETX
0003
EOT
0004
ENQ
0005
ACK
0006
BEL
0007
BS
0008
HT
0009
LF
000A
ВТ
000Б
FF
000C
CR
000D
SO
000E
SI
000F
1_ DLE
0010
DC1
0011
DC2
0012
DC3
0013
DC4
0014
NAK
0015
SYN
0016
ETB
0017
CAN
0018
EM
0019
SUB
001A
ESC
001B
FS
001C
GS
001D
RS
001E
США
001F
2_ SP
0020
!
0021
«
0022
#
0023
0024 долл. США
%
0025
&
0026

0027
(
0028
)
0029
*
002A
+
002B
,
002C

002D
.
002E
/
002F
3_ 0
0030
1
0031
2
0032
3
0033
4
0034
5
0035
6
0036
7
0037
8
0038
9
0039
:
003A
;
003B

003C
=
003D
>
003E
?
003F
4_ @
0040
A
0041
B
0042
C
0043
D
0044
E
0045
F
0046
G
0047
H
0048
I
0049
J
004A
K
004B
L
004C
M
004D

004E
O
004F
5_ P
0050
Q
0051
R
0052
S
0053
Т
0054
U
0055
V
0056
W
0057
X
0058
Y
0059
Z
005A
[
005B
\
005C
]
005D
^
005E
_
005F
6_ `
0060
а
0061
b
0062
c
0063
d
0064
e
0065
f
0066
г
0067
h
0068
я
0069
j
006A
k
006B
l
006C
м
006D

006E
o
006F
7_ p
0070
q
0071
r
0072
с
0073
t
0074
u
0075
v
0076
w
0077
х
0078
y
0079
z
007A
<
007B
|
007C
>
007D


007E

DEL
007F
8_ Ä
00C4
Å
00C5
Ç
00C7
É
00C9
Ñ
00D1
Ö
00D6
Ü
00DC
á
00E1
à
00E0
â
00E2
ä
00E4
ã
00E3
å
00E5
ç
00E7
é
00E9
è
00E8
9_ ê
00EA
ë
00EB
í
00ED
ì
00EC
î
00EE

00EF
ñ
00F1
ó
00F3
ò
00F2
ô
00F4
ö
00F6
х
00F5
ú
00FA
ù
00F9
û
00FB
ü
00FC
A_
2020 г.
°
00B0
¢
00A2
£
00A3
§
00A7

2022 г.

00B6
ß
00DF
®
00AE
©
00A9

2122
´
00B4
¨
00A8

2260
Æ
00C6
Ø
00D8
B_
221E
±
00B1

2264

2265
¥
00A5
µ
00B5

2202
Σ
2211

220F
π
03C0

222B
ª
00AA
º
00BA
Ом
03A9
æ
00E6
ø
00F8
C_ ¿
00BF
¡
00A1
¬
00AC

221А
ƒ
0192

2248

2206
«
00AB
»
00BB

2026 г.
NBSP
00A0
À
00C0
Ã
00C3
Õ
00D5
Œ
0152
œ
0153
D_
2013 г.

2014 г.
«
201C

201D

2018

2019
÷
00F7

25CA
ÿ
00FF
Ÿ
0178

2044

20AC

2039

203A
фи
FB01

FB02
E_
2021 г.
·
00B7

201A

201E

2030 г.
Â
00C2
Ê
00CA
Á
00C1
Ë
00CB
È
00C8
Í
00CD
Î
00CE
Ï
00CF
Ì
00CC
Ó
00D3
Ô
00D4
F_
F8FF
Ò
00D2
Ú
00DA
Û
00 дБ
Ù
00D9

0131
02C6
˜
02DC
¯
00AF
˘
02D8
˙
02D9
˚
02DA
¸
00B8
˝
02DD
˛
02DB
02C7

Письмо Номер Пунктуация Символ Другой Неопределенный

Технические примечания

Управление по присвоению номеров в Интернете определяет эту кодировку с помощью строки « macintosh ». Таким образом, MIME Content-Type для этой кодировки — «text / plain; charset = macintosh». Номер кодовой страницы Microsoft Windows — 10000 . IBM использует кодовую страницу / CCSID 1275.

С выпуском Mac OS X , Mac OS Roman и все другие «скрипты» (как их называла классическая Mac OS) были заменены на UTF-8 в качестве стандартной кодировки символов для операционной системы Macintosh. Однако кодировка символов по умолчанию в Java для Mac OS X осталась MacRoman, а раскладка клавиатуры с ее комбинацией клавиш управления , опций и мертвых клавиш по- прежнему сопоставляется с исходными символами в MacRoman. Кодировку символов по умолчанию для Java можно изменить на UTF-8, добавив следующую строку в .profile :

Источник

Читайте также:  Установка net core windows
Оцените статью