如何在 Java 中处理 Unicode 字符

简介

Java 为处理 Unicode 字符提供了强大的支持，使其成为开发国际化应用程序的绝佳选择。Unicode 是一种通用字符编码标准，它为每个字符分配一个唯一的编号，无论使用何种平台、程序或语言。

在本教程中，我们将通过实际示例探索如何在 Java 中处理 Unicode。你将学习如何在代码中表示 Unicode 字符，以编程方式操作它们，并处理 Unicode 输入和输出操作。在本实验结束时，你将能够自信地在 Java 应用程序中处理国际化文本。

创建你的第一个 Unicode Java 程序

在这一步中，我们将创建第一个使用 Unicode 字符的 Java 程序。我们将探索 Java 如何处理 Unicode，并了解如何在代码中融入不同语言的字符。

理解 Java 中的 Unicode

Java 内部使用 UTF-16 编码，这意味着 Java 中的每个字符都表示为一个 16 位的 Unicode 字符。这使得 Java 能够直接支持广泛的国际字符。

每个 Unicode 字符都有一个唯一的码点（code point），这是一个用于标识该字符的数值。例如：

英文字母 'A' 的码点是 U+0041
中文字符 '中' 的码点是 U+4E2D
表情符号 '😀' 的码点是 U+1F600

让我们创建一个简单的 Java 程序来演示 Unicode 字符的使用。

创建并运行程序

打开 WebIDE 并导航到终端。确保你位于 /home/labex/project 目录下。
使用 WebIDE 编辑器创建一个名为 UnicodeDemo.java 的新 Java 文件。点击左侧侧边栏中的“Explorer”图标，然后点击“New File”图标，并将其命名为 UnicodeDemo.java。
将以下代码添加到文件中：

public class UnicodeDemo {
    public static void main(String[] args) {
        // Unicode characters from different languages
        String english = "Hello";
        String spanish = "Hola";
        String french = "Bonjour";
        String chinese = "你好";
        String japanese = "こんにちは";
        String arabic = "مرحبا";
        String russian = "Привет";

        // Print all greetings
        System.out.println("English: " + english);
        System.out.println("Spanish: " + spanish);
        System.out.println("French: " + french);
        System.out.println("Chinese: " + chinese);
        System.out.println("Japanese: " + japanese);
        System.out.println("Arabic: " + arabic);
        System.out.println("Russian: " + russian);

        // Print information about a specific character
        char chineseChar = '中';
        System.out.println("\nInformation about the character '" + chineseChar + "':");
        System.out.println("Unicode code point: " + Integer.toHexString(chineseChar | 0x10000).substring(1).toUpperCase());
        System.out.println("Character type: " + Character.getType(chineseChar));
    }
}

按 Ctrl+S 或从菜单中选择“File > Save”来保存文件。
在终端中执行以下命令来编译并运行程序：

javac UnicodeDemo.java
java UnicodeDemo

你应该会看到类似于以下的输出：

English: Hello
Spanish: Hola
French: Bonjour
Chinese: 你好
Japanese: こんにちは
Arabic: مرحبا
Russian: Привет

Information about the character '中':
Unicode code point: 4E2D
Character type: 5

理解输出

该程序成功显示了多种语言的问候语，展示了 Java 对 Unicode 的支持。字符类型值“5”对应于 Java 的 Character 类中的 Character.OTHER_LETTER，表明 '中' 被归类为既不是大写也不是小写的字母。

这个示例表明，Java 可以在无需任何特殊配置的情况下处理不同书写系统的字符。Unicode 字符直接包含在源代码中，Java 能够正确处理并显示它们。

使用 Unicode 转义序列

在这一步中，你将学习如何在 Java 中使用转义序列来表示 Unicode 字符。当你需要在代码中包含 Unicode 字符，但又想确保与可能不支持直接输入这些字符的文本编辑器或环境兼容时，这会很有用。

Unicode 转义序列

在 Java 中，你可以使用 \u 转义序列，后跟四位十六进制码点来表示任何 Unicode 字符。例如：

\u0041 表示 'A'
\u4E2D 表示 '中'

对于超出基本多文种平面（Basic Multilingual Plane，BMP）的字符（需要超过 4 位十六进制数字），你可以使用代理对（surrogate pairs），或者在 Java 12 及更高版本的字符串字面量中使用较新的 \u{...} 语法。

让我们创建一个新程序来演示 Unicode 转义序列。

创建程序

在 /home/labex/project 目录下创建一个名为 UnicodeEscapeDemo.java 的新文件。
将以下代码添加到文件中：

public class UnicodeEscapeDemo {
    public static void main(String[] args) {
        // Unicode escape sequences
        char charA = '\u0041';         // Latin capital 'A'
        char charZ = '\u005A';         // Latin capital 'Z'
        char charCopyright = '\u00A9'; // Copyright symbol ©
        char charEuro = '\u20AC';      // Euro symbol €
        char charChinese = '\u4E2D';   // Chinese character '中'

        System.out.println("Using Unicode escape sequences:");
        System.out.println("\\u0041: " + charA);
        System.out.println("\\u005A: " + charZ);
        System.out.println("\\u00A9: " + charCopyright);
        System.out.println("\\u20AC: " + charEuro);
        System.out.println("\\u4E2D: " + charChinese);

        // Comparing direct characters and escape sequences
        System.out.println("\nComparing direct characters and escape sequences:");
        System.out.println("Direct 'A' == \\u0041: " + ('A' == '\u0041'));
        System.out.println("Direct '©' == \\u00A9: " + ('©' == '\u00A9'));
        System.out.println("Direct '中' == \\u4E2D: " + ('中' == '\u4E2D'));

        // Exploring character properties
        System.out.println("\nExploring properties of Unicode characters:");
        examineCharacter('A');
        examineCharacter('9');
        examineCharacter('©');
        examineCharacter('中');
    }

    private static void examineCharacter(char c) {
        System.out.println("\nCharacter: " + c);
        System.out.println("Unicode code point: \\u" +
            Integer.toHexString(c | 0x10000).substring(1).toUpperCase());
        System.out.println("Is letter? " + Character.isLetter(c));
        System.out.println("Is digit? " + Character.isDigit(c));
        System.out.println("Is whitespace? " + Character.isWhitespace(c));
        System.out.println("Is symbol? " + Character.isISOControl(c));
    }
}

按 Ctrl+S 或从菜单中选择“File > Save”来保存文件。
在终端中执行以下命令来编译并运行程序：

javac UnicodeEscapeDemo.java
java UnicodeEscapeDemo

你应该会看到类似于以下的输出：

Using Unicode escape sequences:
\u0041: A
\u005A: Z
\u00A9: ©
\u20AC: €
\u4E2D: 中

Comparing direct characters and escape sequences:
Direct 'A' == \u0041: true
Direct '©' == \u00A9: true
Direct '中' == \u4E2D: true

Exploring properties of Unicode characters:

Character: A
Unicode code point: \u0041
Is letter? true
Is digit? false
Is whitespace? false
Is symbol? false

Character: 9
Unicode code point: \u0039
Is letter? false
Is digit? true
Is whitespace? false
Is symbol? false

Character: ©
Unicode code point: \u00A9
Is letter? false
Is digit? false
Is whitespace? false
Is symbol? false

Character: 中
Unicode code point: \u4E2D
Is letter? true
Is digit? false
Is whitespace? false
Is symbol? false

理解代码

这个程序演示了几个重要的概念：

Unicode 转义序列：我们使用 Unicode 转义序列 (\uXXXX) 来定义字符。
字符相等性：程序表明直接定义的字符 ('A') 与使用转义序列定义的相同字符 ('\u0041') 是相同的。
字符属性：examineCharacter 方法使用 Character 类来检查不同 Unicode 字符的属性，例如它们是否为字母、数字或空白字符。

在以下情况下，使用 Unicode 转义序列特别有用：

你的代码需要由对 Unicode 处理不佳的工具进行处理。
你想在源代码中明确指定确切的码点。
你需要包含难以输入或在视觉上与其他字符相似的字符。

使用文件读写 Unicode

在这一步中，你将学习如何向文件读写 Unicode 字符。在处理文件时，尤其是处理国际文本时，正确处理字符编码至关重要。

理解字符编码

当向文件写入文本或从文件读取文本时，你需要指定字符编码。对于 Unicode 文本，最常见且推荐的编码是 UTF-8。

UTF-8 是一种可变宽度编码，可以表示所有 Unicode 字符。
它与 ASCII 向后兼容。
它是 HTML、XML 和许多现代系统的默认编码。

Java 提供了 java.nio.charset.StandardCharsets 类，其中包含了标准字符集（如 UTF-8、UTF-16 和 ISO-8859-1）的常量。

让我们创建一个程序，演示如何向文件读写 Unicode 文本。

创建 Unicode 文件写入器

在 /home/labex/project 目录下创建一个名为 UnicodeFileDemo.java 的新文件。
将以下代码添加到文件中：

import java.io.*;
import java.nio.charset.StandardCharsets;
import java.nio.file.*;
import java.util.*;

public class UnicodeFileDemo {
    private static final String FILE_PATH = "unicode_sample.txt";

    public static void main(String[] args) {
        try {
            // Create a list of greetings in different languages
            List<String> greetings = Arrays.asList(
                "English: Hello, World!",
                "Spanish: ¡Hola, Mundo!",
                "French: Bonjour, le Monde!",
                "German: Hallo, Welt!",
                "Chinese: 你好，世界！",
                "Japanese: こんにちは、世界！",
                "Arabic: مرحبا بالعالم!",
                "Russian: Привет, мир!",
                "Greek: Γειά σου, Κόσμε!",
                "Hindi: नमस्ते, दुनिया!",
                "Emoji: 👋🌍!"
            );

            // Write greetings to file
            writeToFile(greetings);
            System.out.println("Successfully wrote Unicode text to " + FILE_PATH);

            // Read and display file contents
            List<String> readLines = readFromFile();
            System.out.println("\nFile contents:");
            for (String line : readLines) {
                System.out.println(line);
            }

            // Display encoding information
            System.out.println("\nEncoding information:");
            System.out.println("Default charset: " + System.getProperty("file.encoding"));
            System.out.println("Is UTF-8 supported? " + StandardCharsets.UTF_8.canEncode());

        } catch (IOException e) {
            System.err.println("Error processing the file: " + e.getMessage());
            e.printStackTrace();
        }
    }

    private static void writeToFile(List<String> lines) throws IOException {
        // Write using Files class with UTF-8 encoding
        Files.write(Paths.get(FILE_PATH), lines, StandardCharsets.UTF_8);
    }

    private static List<String> readFromFile() throws IOException {
        // Read using Files class with UTF-8 encoding
        return Files.readAllLines(Paths.get(FILE_PATH), StandardCharsets.UTF_8);
    }
}

按 Ctrl+S 或从菜单中选择“File > Save”来保存文件。
在终端中执行以下命令来编译并运行程序：

javac UnicodeFileDemo.java
java UnicodeFileDemo

你应该会看到类似于以下的输出：

Successfully wrote Unicode text to unicode_sample.txt

File contents:
English: Hello, World!
Spanish: ¡Hola, Mundo!
French: Bonjour, le Monde!
German: Hallo, Welt!
Chinese: 你好，世界！
Japanese: こんにちは、世界！
Arabic: مرحبا بالعالم!
Russian: Привет, мир!
Greek: Γειά σου, Κόσμε!
Hindi: नमस्ते, दुनिया!
Emoji: 👋🌍!

Encoding information:
Default charset: UTF-8
Is UTF-8 supported? true

检查输出文件

让我们看一下我们创建的文件：

使用 WebIDE 文件资源管理器打开 /home/labex/project 目录下创建的 unicode_sample.txt 文件。
你应该会看到所有不同语言的问候语，并且它们的 Unicode 字符都能正确显示。

理解代码

这个程序展示了在文件中处理 Unicode 的几个关键点：

显式指定编码：我们在使用 StandardCharsets.UTF_8 向文件写入和从文件读取时，显式指定了 UTF-8 编码。这确保了 Unicode 字符能被正确保存。
现代文件 I/O：我们使用 java.nio.file.Files 类，它提供了方便的方法来使用特定字符编码读写文件。
默认编码：程序会显示系统的默认字符编码，这可能会因操作系统和区域设置而异。
表情符号支持：程序包含了一个表情符号示例（👋🌍），以展示 Java 和 UTF-8 可以处理 Unicode 补充平面中的字符。

在文件中处理 Unicode 时，请始终记住：

显式指定编码（最好是 UTF-8）。
读写时使用相同的编码。
处理文件操作期间可能发生的 IOException。
了解系统的默认编码，但不要依赖它。

总结

在本教程中，你学习了在 Java 中处理 Unicode 字符的关键要点。以下是你所掌握内容的回顾：

Unicode 基础：你创建了一个基本的 Java 程序，该程序可以显示多种语言的文本，展示了 Java 内置的 Unicode 支持。
Unicode 转义序列：你学习了如何使用 Unicode 转义序列 (\uXXXX) 来表示字符，并探索了不同类型 Unicode 字符的属性。
使用 Unicode 进行文件 I/O：你实现了一个程序，该程序可以向文件读写 Unicode 文本，并使用 UTF-8 确保正确的字符编码。

通过掌握这些概念，你现在有能力开发能够正确处理国际文本的 Java 应用程序。这对于创建面向全球用户的软件来说是一项至关重要的技能。

本教程的一些关键要点如下：

Java 内部对其 char 类型使用 UTF-16 编码。
Unicode 字符可以直接表示，也可以使用转义序列表示。
在读写文件时，始终要指定编码（最好是 UTF-8）。
Character 类提供了检查 Unicode 字符属性的方法。
现代 Java 的 NIO 包 (java.nio) 为在文件中处理 Unicode 提供了强大的支持。

有了这些知识，你可以自信地创建能够无缝处理任何语言文本的 Java 应用程序。