什么是编码与解码
计算机的底层只能存0和1,如果是日常生活中遇到的数字比如:127,这个可以通过十进制和二进制的转换从而让计算机存储01111111。
如果计算机存储类似于汉字、英文字符、符号字符等内容,是如何存储的呢?
根据上图的解释说明,计算器提供了很多的编码表记录了字符和数字的一一对应关系,编码就是把字符对应编码表中的码值存储在电脑中,而解码则是把码值在编码表中的对应字符展现出来。
常见编码表
编码代号 | 编码说明 |
---|---|
ASCII | 美国标准信息交换表。基于拉丁字母的字符编码,共收录了128个字符(从0到127个),用一个字节就可以存储。 |
ISO-8859-1 | ISO-8859-1编码是单字节编码,向下兼容ASCII,最多只能表示0~255的字符范围。 |
GBK/GB2312 | 中文的国标编码,用来表示汉字,属于双字节编码。GBK可以表示简体中文和繁体中文,而GB2312只能表示简体中文。GBK 兼容GB2312。 |
Unicode | 是一种编码规范,是为解决全球字符通用编码而设计的。UTF-8和UTF-16是这种规范的一种实现,此编码不兼容ISO-8859-1 编码。Java内部采用此编码。 |
… |
乱码的原因和可逆性
乱码的原因
乱码产生的根源一般情况下可以归结为以下三方面:
- 编码引起的乱码:使用了不支持该种字符串的方法,如:??;
- 解码引起的乱码: 解码方式和编码方式不一致造成的,如: ��;
- 缺少某种字体库引起的乱码: 缺少某种字体库,如:口;
其中大部分乱码原因问题是由不合适的解码方式造成的
乱码可逆情况
-
其中缺少字体,只需要安装对应的字体库即可解决乱码,比如 Windows 系统在
C:\Windows\Fonts
目录下会有安装好的字体库列表。 -
解码方式和编码方式不一致的情况,只需要让解码方式和编码方式一致即可让乱码恢复。
乱码不可逆情况
GBK编码不支持的字符,如:‘’/‘𠮷’。如果在一个GBK编码的文件中,写入‘’/‘𠮷’,那么他们会变成 ??
,这种情况就没有办法恢复了。因为‘’的本来的码值变成了两个3F(?对应的码值是3F),无论如何也不能恢复过来了。
Java的Char字符
默认编码
Java默认的字符集是Unicode(占两个字节byte,一个字节=8比特位bit)
本地的默认编码/语言可以使用System(java.lang.System)类查看。
public static String getProperty(String key)
本地的默认字符编码可以使用Charset(java.nio.charset.Charset)类查看。
public static Charset defaultCharset()
示例:
System.out.println("系统默认编码:" + System.getProperty("file.encoding"));
System.out.println("系统默认语言:" + System.getProperty("user.language"));
System.out.println("系统默认字符编码:" + Charset.defaultCharset());
运行结果:
系统默认编码:UTF-8
系统默认语言:zh
系统默认字符编码:UTF-8
Char字符
Char本质上是一个固定占用两个字节的无符号正整数,这个正整数对应与Unicode编号,用于表示那个Unicode编号对应的字符。
由于固定占用两个字节,char只能表示Unicode编号在65536以内的字符,而不能表示超出范围的字符。
超出范围的字符只能使用String类表示,例如汉字‘𠮷’的码点为0x20BB7
,该码点显然超出了65535,只能用String表示,复制‘𠮷’粘贴到代码中会自动转换为\uD842\uDFB7
。
示例:
char c = '程';
System.out.println(c);
String s = "\uD842\uDFB7";
System.out.println(s);
运行结果:
程
𠮷
JDK支持的字符集
Map<String, Charset> map = Charset.availableCharsets();
System.out.println("the available Charsets supported by jdk:" + map.size());
for (Map.Entry<String, Charset> entry : map.entrySet()) {
System.out.println(entry.getKey());
}
输出:
the available Charsets supported by jdk:170
Big5
Big5-HKSCS
CESU-8
...
String类
编码的方法
getBytes()
public byte[] getBytes()
示例:
import java.util.Arrays;
public class GetByteEncode {
public static void main(String[] args) {
// 获取默认编码
String encode = System.getProperty("file.encoding");
System.out.println("encode = " + encode);
String s = "生活";
byte[] bytes = s.getBytes();
System.out.println(Arrays.toString(bytes));
}
}
IDEA输出:
Java去打印字节的时候,最高位是1,则为负数,反之最高位为0,则为正数。
encode = UTF-8
[-25, -108, -97, -26, -76, -69]
CMD输出:
java GetByteEncode
encode = GBK
[-25, -108, -97, -26, -76, -69]
CMD指定编码输出:
java -Dfile.encoding=UTF-8 GetByteEncode
encode = UTF-8
[-23, -112, -94, -25, -122, -72, -26, -92, -65]
getBytes(String charsetName)
根据指定的码表名称进行编码
public byte[] getBytes(String charsetName) throws UnsupportedEncodingException
示例:
String s = "生活";
byte[] bytes1 = s.getBytes("GBK");
System.out.println(Arrays.toString(bytes1));
byte[] bytes2 = s.getBytes("UTF-8");
System.out.println(Arrays.toString(bytes2));
输出:
[-55, -6, -69, -18]
[-25, -108, -97, -26, -76, -69]
解码的方法
public String(byte bytes[])
public String(byte bytes[], String charsetName) throws UnsupportedEncodingException
示例:
String s = "生活";
byte[] bytes = s.getBytes();
System.out.println(Arrays.toString(bytes));
String s1 = new String(bytes);
System.out.println(s1);
String s2 = new String(bytes, "GBK");
System.out.println(s2);
输入:
[-25, -108, -97, -26, -76, -69]
生活
鐢熸椿
乱码的不可逆情况
示例:
String s = "生活";
byte[] bytes = s.getBytes("ISO-8859-1");
String s1 = new String(bytes, "ISO-8859-1");
System.out.println(s1);
String s2 = new String(bytes, "UTF-8");
System.out.println(s2);
输出:
??
??
IO流-字符流
InputStreamReader
示例:
InputStreamReader reader = new InputStreamReader(new FileInputStream("src/main/resources/life.txt"), "utf-8");
int cn;
while ((cn = reader.read()) != -1) {
System.out.print((char) cn);
}
reader.close();
输出:
生活
执行的过程:
OutputStreamWriter
示例:
OutputStreamWriter writer = new OutputStreamWriter(new FileOutputStream("life.txt"), "utf-8");
writer.write("生活");
writer.flush();
writer.close();
输出:
项目根目录下生成life.txt
文件,打开后内容:生活
执行的过程:
复制图片
字符流UTF-8编码复制
示例:
InputStreamReader isr = new InputStreamReader(new FileInputStream("a.png"), "utf-8");
OutputStreamWriter osw = new OutputStreamWriter(new FileOutputStream("b.png"), "utf-8");
int cn;
while ((cn = isr.read()) != -1) {
osw.write(cn);
}
isr.close();
osw.close();
输出:
复制后,新的图片存储大小会改变,并且无法正常打开
错误的原因:
字符流ISO-8859-1编码复制
示例:
InputStreamReader isr = new InputStreamReader(new FileInputStream("a.png"), "ISO-8859-1");
OutputStreamWriter osw = new OutputStreamWriter(new FileOutputStream("b.png"), "ISO-8859-1");
int cn;
while ((cn = isr.read()) != -1) {
osw.write(cn);
}
isr.close();
osw.close();
输出:
完美复制
成功的原因:
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/78431.html