Java字符编码

导读:本篇文章讲解 Java字符编码,希望对大家有帮助,欢迎收藏,转发!站点地址:www.bmabk.com

什么是编码与解码

计算机的底层只能存0和1,如果是日常生活中遇到的数字比如:127,这个可以通过十进制和二进制的转换从而让计算机存储01111111。

image-20211030125748886

如果计算机存储类似于汉字、英文字符、符号字符等内容,是如何存储的呢?

image-20211030131109597

根据上图的解释说明,计算器提供了很多的编码表记录了字符和数字的一一对应关系,编码就是把字符对应编码表中的码值存储在电脑中,而解码则是把码值在编码表中的对应字符展现出来

常见编码表

编码代号 编码说明
ASCII 美国标准信息交换表。基于拉丁字母的字符编码,共收录了128个字符(从0到127个),用一个字节就可以存储。
ISO-8859-1 ISO-8859-1编码是单字节编码,向下兼容ASCII,最多只能表示0~255的字符范围。
GBK/GB2312 中文的国标编码,用来表示汉字,属于双字节编码。GBK可以表示简体中文和繁体中文,而GB2312只能表示简体中文。GBK 兼容GB2312。
Unicode 是一种编码规范,是为解决全球字符通用编码而设计的。UTF-8和UTF-16是这种规范的一种实现,此编码不兼容ISO-8859-1 编码。Java内部采用此编码。

乱码的原因和可逆性

乱码的原因

乱码产生的根源一般情况下可以归结为以下三方面:

  1. 编码引起的乱码:使用了不支持该种字符串的方法,如:??;
  2. 解码引起的乱码: 解码方式和编码方式不一致造成的,如: ��;
  3. 缺少某种字体库引起的乱码: 缺少某种字体库,如:口;

其中大部分乱码原因问题是由不合适的解码方式造成的

乱码可逆情况

  • 其中缺少字体,只需要安装对应的字体库即可解决乱码,比如 Windows 系统在 C:\Windows\Fonts 目录下会有安装好的字体库列表。

  • 解码方式和编码方式不一致的情况,只需要让解码方式和编码方式一致即可让乱码恢复。

乱码不可逆情况

GBK编码不支持的字符,如:‘’/‘𠮷’。如果在一个GBK编码的文件中,写入‘’/‘𠮷’,那么他们会变成 ?? ,这种情况就没有办法恢复了。因为‘’的本来的码值变成了两个3F(?对应的码值是3F),无论如何也不能恢复过来了。

Java的Char字符

默认编码

Java默认的字符集是Unicode(占两个字节byte,一个字节=8比特位bit)

本地的默认编码/语言可以使用System(java.lang.System)类查看。

public static String getProperty(String key)

本地的默认字符编码可以使用Charset(java.nio.charset.Charset)类查看。

public static Charset defaultCharset()

示例:

System.out.println("系统默认编码:" + System.getProperty("file.encoding"));
System.out.println("系统默认语言:" + System.getProperty("user.language"));
System.out.println("系统默认字符编码:" + Charset.defaultCharset());

运行结果:

系统默认编码:UTF-8
系统默认语言:zh
系统默认字符编码:UTF-8

Char字符

Char本质上是一个固定占用两个字节的无符号正整数,这个正整数对应与Unicode编号,用于表示那个Unicode编号对应的字符。

由于固定占用两个字节,char只能表示Unicode编号在65536以内的字符,而不能表示超出范围的字符。

超出范围的字符只能使用String类表示,例如汉字‘𠮷’的码点为0x20BB7,该码点显然超出了65535,只能用String表示,复制‘𠮷’粘贴到代码中会自动转换为\uD842\uDFB7

示例:

char c = '程';
System.out.println(c);
String s = "\uD842\uDFB7";
System.out.println(s);

运行结果:

程
𠮷

JDK支持的字符集

Map<String, Charset> map = Charset.availableCharsets();
System.out.println("the available Charsets supported by jdk:" + map.size());
for (Map.Entry<String, Charset> entry : map.entrySet()) {
    System.out.println(entry.getKey());
}

输出:

the available Charsets supported by jdk:170
Big5
Big5-HKSCS
CESU-8
...

String类

编码的方法

getBytes()

 public byte[] getBytes()

示例:

import java.util.Arrays;

public class GetByteEncode {
  public static void main(String[] args) {
    // 获取默认编码
    String encode = System.getProperty("file.encoding");
    System.out.println("encode = " + encode);
    String s = "生活";
    byte[] bytes = s.getBytes();
    System.out.println(Arrays.toString(bytes));
  }
}

IDEA输出:

Java去打印字节的时候,最高位是1,则为负数,反之最高位为0,则为正数。

encode = UTF-8
[-25, -108, -97, -26, -76, -69]

CMD输出:

java GetByteEncode
encode = GBK
[-25, -108, -97, -26, -76, -69]

CMD指定编码输出:

java -Dfile.encoding=UTF-8 GetByteEncode
encode = UTF-8
[-23, -112, -94, -25, -122, -72, -26, -92, -65]

getBytes(String charsetName)

根据指定的码表名称进行编码

 public byte[] getBytes(String charsetName) throws UnsupportedEncodingException

示例:

String s = "生活";
byte[] bytes1 = s.getBytes("GBK");
System.out.println(Arrays.toString(bytes1));

byte[] bytes2 = s.getBytes("UTF-8");
System.out.println(Arrays.toString(bytes2));

输出:

[-55, -6, -69, -18]
[-25, -108, -97, -26, -76, -69]

解码的方法

public String(byte bytes[])
public String(byte bytes[], String charsetName) throws UnsupportedEncodingException   

示例:

String s = "生活";
byte[] bytes = s.getBytes();
System.out.println(Arrays.toString(bytes));

String s1 = new String(bytes);
System.out.println(s1);

String s2 = new String(bytes, "GBK");
System.out.println(s2);

输入:

[-25, -108, -97, -26, -76, -69]
生活
鐢熸椿

乱码的不可逆情况

示例:

String s = "生活";
byte[] bytes = s.getBytes("ISO-8859-1");

String s1 = new String(bytes, "ISO-8859-1");
System.out.println(s1);

String s2 = new String(bytes, "UTF-8");
System.out.println(s2);

输出:

??
??

IO流-字符流

InputStreamReader

示例:

InputStreamReader reader = new InputStreamReader(new FileInputStream("src/main/resources/life.txt"), "utf-8");
int cn;
while ((cn = reader.read()) != -1) {
    System.out.print((char) cn);
}
reader.close();

输出:

生活

执行的过程:

image-20211030210804613

OutputStreamWriter

示例:

OutputStreamWriter writer = new OutputStreamWriter(new FileOutputStream("life.txt"), "utf-8");
writer.write("生活");
writer.flush();
writer.close();

输出:

项目根目录下生成life.txt文件,打开后内容:生活

执行的过程:

image-20211030213946180

复制图片

字符流UTF-8编码复制

示例:

InputStreamReader isr = new InputStreamReader(new FileInputStream("a.png"), "utf-8");
OutputStreamWriter osw = new OutputStreamWriter(new FileOutputStream("b.png"), "utf-8");
int cn;
while ((cn = isr.read()) != -1) {
    osw.write(cn);
}

isr.close();
osw.close();

输出:

复制后,新的图片存储大小会改变,并且无法正常打开

错误的原因:

image-20211030222918779

字符流ISO-8859-1编码复制

示例:

InputStreamReader isr = new InputStreamReader(new FileInputStream("a.png"), "ISO-8859-1");
OutputStreamWriter osw = new OutputStreamWriter(new FileOutputStream("b.png"), "ISO-8859-1");
int cn;
while ((cn = isr.read()) != -1) {
    osw.write(cn);
}

isr.close();
osw.close();

输出:

完美复制

成功的原因:

image-20211030223624144

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/78431.html

(0)
小半的头像小半

相关推荐

极客之音——专业性很强的中文编程技术网站,欢迎收藏到浏览器,订阅我们!