CXPLAY World

Windows 下的 UTF-8 编码问题

----------------------
这几天又遇到 Windows 下的字符编码问题了, 于是还是决定记录一下.
----------------------

由于 Windows NT 发布时 UTF-8 甚至都没有出现, 所以微软选择 Unicode 的时候用了 UTF-16. 虽然现在 Windows 的区域设置里有一个选项能够让 Windows 默认使用 UTF-8 来显示字符, 但直到今天 Windows 11 这个选项都还是 beta 状态不会给你默认启用.

在简体中文的设置下 Windows 默认使用 cp936(GBK) 代码页, 英语设置下使用 cp850 或者 cp1252(Windows-1252). 如果开启了区域设置里的 UTF-8 支持, 则会变成 cp65001(UTF-8). 当初为了标准化各种字符集名称才使用系统内的代码页进行编号, 但 Unicode 出现后还是继续用代码页, 于是出现了这种盛况:

PS C:\Users\CXPLAY> python -c 'import locale;  print(locale.getpreferredencoding()); import sys; print(sys.getdefaultencoding())'
cp65001
utf-8

系统首选的编码是 cp65001, Python 解释器默认编码是 utf-8, 所以说 cp65001 等于 UTF-8, 又不等于 UTF-8?

但我也还记得我很久之前在 Windows 10 上开启过这个 UTF-8 支持选项, 但后来不知道为什么又主动去关掉了, 原因已经记不清楚了, 可能等以后踩到坑才会想起来吧.

#note #Windows #Python

via CXPLAY's Memos