Java拼音转换工具——pinyin4j在中文转拼音中的应用
最编程
2024-01-07 11:51:55
...
在C++中能够用STL里面的multimap来解决问题,但Java中没有类似multimap这种东西。除非自己实现一个。
Pinyin4j就是为了解决类似这种问题的。它是sourceforge.net上的一个开源项目,功能很强大:
+ 支持同一汉字有多个发音
+ 还支持拼音的格式化输出,比方第几声之类的,
+ 同一时候支持中文简体、繁体中文转换为拼音…使用起来也很easy。
pinyin4j的官方下载地址http://sourceforge.net/projects/pinyin4j/files/。眼下最新的版本号是2.5.0
下载解压后的文件夹结构及说明例如以下
(1) doc : pinyin4j的api文档
(2) lib : pinyin4j的jar包
(3) src : pinyin4j的源码
(4) CHANGELOG.txt : pinyin4j的版本号更新日志
(5) COPYING.txt : LICENSE说明
(6) README.txt : pinyin4j的概要介绍
二、局限性:
尽管pinyin4j非常好用,可是还是有局限的。下面代码仅仅能获取单个汉字的拼音,可是不能获取一个包括多音字的词的拼音。
比如“重庆”,无法推断究竟是“chongqing”还是“zhongqing”,pinyin4j不能通过上下文来推断多音字的读音。
所以,在获取一个包括多音字的词语的读音,能够返回一个列表,正确的读音仅仅能是人工推断选择。
三、格式控制:
HanyuPinyinOutputFormat format = new HanyuPinyinOutputFormat();
// UPPERCASE:大写 (ZHONG)
// LOWERCASE:小写 (zhong)
format.setCaseType(HanyuPinyinCaseType.LOWERCASE);
// WITHOUT_TONE:无音标 (zhong)
// WITH_TONE_NUMBER:1-4数字表示英标 (zhong4)
// WITH_TONE_MARK:直接用音标符(必须WITH_U_UNICODE否则异常) (zhòng)
format.setToneType(HanyuPinyinToneType.WITH_TONE_MARK);
// WITH_V:用v表示ü (nv)
// WITH_U_AND_COLON:用"u:"表示ü (nu:)
// WITH_U_UNICODE:直接用ü (nü)
format.setVCharType(HanyuPinyinVCharType.WITH_U_UNICODE);
String[] pinyin = PinyinHelper.toHanyuPinyinStringArray('重', format);
四、代码
public class PinYin4JTest {
public static String getPinYin(String inputString) {
HanyuPinyinOutputFormat format = new HanyuPinyinOutputFormat();
format.setCaseType(HanyuPinyinCaseType.LOWERCASE);
format.setToneType(HanyuPinyinToneType.WITH_TONE_NUMBER);
format.setVCharType(HanyuPinyinVCharType.WITH_U_UNICODE);
char[] input = inputString.trim().toCharArray();
StringBuffer output = new StringBuffer("");
try {
for (int i = 0; i < input.length; i++) {
if (Character.toString(input[i]).matches("[\\u4E00-\\u9FA5]+")) {
String[] temp = PinyinHelper.toHanyuPinyinStringArray(input[i], format);
output.append(temp[0]);
output.append(" ");
} else
output.append(Character.toString(input[i]));
}
} catch (BadHanyuPinyinOutputFormatCombination e) {
e.printStackTrace();
}
return output.toString();
}
/**
* @param args
*/
public static void main(String[] args) {
// TODO Auto-generated method stub
System.out.println(getPinYin("*"));
}
}
注:pinyin4j支持多种拼音方式
Hanyu Pinyin 汉语拼音
Tongyong Pinyin 通用拼音
Wade-Giles 威妥玛拼音
MPS2 (Mandarin Phonetic Symbols II) 国语注音符号第二式
Yale Romanization 耶鲁罗马化拼音
Gwoyeu Romatzyh国语国语罗马化拼音
各种拼音说明
Yale Pinyin是在第二次世界大战期间由美国军方发明的编码系统,主要为了让在中国地区作战的美军士兵可以高速地熟悉汉语发音。
能够向当地人请求帮助。能够说这是一个速成教材,它的目的甚至不是用来互相交流而是使士兵在发音时不会被中国人听错就能够了。
Gwoyeu Romatzyh:即国语罗马字,它是由林语堂提议建立的。在1928年由国民*大学堂颁布推行。在中国的*省这一编码体系得到了保留,
可是它就像 Yale一样如今差点儿非常少有人使用,在1986年。国语罗马字被国语注音符号第二式(MPSII)所代替,
在2002年。又被通用拼音(Tongyong Pinyin)代替,成为*今天正式的官方汉语音译编码体系。
上一篇: 最强力的5种背单词方法和工具完全盘点!绝对不容错过!
下一篇: cqn是哪个缩写?
推荐阅读
-
Java 类加载器的作用 - 简介:类加载器是 Java™ 中一个非常重要的概念。类加载器负责将 Java 类的字节码加载到 Java 虚拟机中。本文首先详细介绍了 Java 类加载器的基本概念,包括代理模型、加载类的具体过程和线程上下文类加载器等。然后介绍了如何开发自己的类加载器,最后介绍了类加载器在 Web 容器和 OSGi™ 中的应用。 类加载器是 Java 语言的一项创新,也是 Java 语言广受欢迎的重要原因之一。它允许将 Java 类动态加载到 Java 虚拟机中并执行。类加载器从 JDK 1.0 开始出现,最初是为了满足 Java Applets 的需求而开发的,Java Applets 需要从远程位置下载 Java 类文件并在浏览器中执行。现在,类加载器已广泛应用于网络容器和 OSGi。一般来说,Java 应用程序的开发人员不需要直接与类加载器交互;Java 虚拟机的默认行为足以应对大多数情况。但是,如果遇到需要与类加载器交互的情况,而您又不太了解类加载器的机制,就很容易花费大量时间调试异常,如 ClassNotFoundException 和 NoClassDefFoundError。本文将详细介绍 Java 的类加载器,帮助读者深入理解 Java 语言中的这一重要概念。下面先介绍一些基本概念。 类加载器的基本概念 顾名思义,类加载器用于将 Java 类加载到 Java 虚拟机中。一般来说,Java 虚拟机以如下方式使用 Java 类:Java 源程序(.java 文件)经 Java 编译器编译后转换为 Java 字节代码(.class 文件)。类加载器负责读取 Java 字节代码并将其转换为 java.lang 实例。每个实例都用来表示一个 Java 类。通过该实例的 newInstance 方法创建该类的对象。实际情况可能更加复杂,例如,Java 字节代码可能是由工具动态生成或通过网络下载的。 基本上,所有类加载器都是 java.lang.ClassLoader 类的实例。下面将详细介绍这个 Java 类。 java.lang.ClassLoader 类简介 java.lang.ClassLoader 类的基本职责是根据给定类的名称为其查找或生成相应的字节码,然后根据这些字节码定义一个 Java 类,即 java.lang.Class 类的实例。除此之外,ClassLoader 还负责加载 Java 应用程序所需的资源,如图像文件和配置文件。不过,本文只讨论它加载类的功能。为了履行加载类的职责,ClassLoader 提供了许多方法,其中比较重要的方法如表 1 所示。下文将详细介绍这些方法。 表 1.与加载类相关的 ClassLoader 方法
-
将Java中的中文汉字转换为拼音的技巧
-
Java拼音转换工具——pinyin4j在中文转拼音中的应用