确定两个字符串相似度的 java 方法
最编程
2024-03-06 10:02:36
...
判断两个字符串相似的方法
在Java中,我们经常需要判断两个字符串是否相似,以便进行文本匹配、数据清洗、搜索等操作。本文将介绍几种常见的方法用于判断两个字符串的相似度,并提供相应的Java代码示例。
1. 比较字符串的相似度
在实际应用中,判断两个字符串的相似度常常是通过计算它们的相似度系数来实现的。常见的相似度系数包括编辑距离、余弦相似度、Jaccard系数等。
1.1 编辑距离
编辑距离,也称为Levenshtein距离,是一种用于字符串相似度比较的常见方法。它表示将一个字符串转换为另一个字符串所需的最少操作数。
public int calculateEditDistance(String s1, String s2) {
int m = s1.length();
int n = s2.length();
int[][] dp = new int[m+1][n+1];
for (int i = 0; i <= m; i++) {
dp[i][0] = i;
}
for (int j = 0; j <= n; j++) {
dp[0][j] = j;
}
for (int i = 1; i <= m; i++) {
for (int j = 1; j <= n; j++) {
if (s1.charAt(i-1) == s2.charAt(j-1)) {
dp[i][j] = dp[i-1][j-1];
} else {
dp[i][j] = Math.min(dp[i-1][j-1] + 1, Math.min(dp[i][j-1] + 1, dp[i-1][j] + 1));
}
}
}
return dp[m][n];
}
以上代码演示了如何使用动态规划算法计算两个字符串之间的编辑距离。其中 s1
和 s2
分别是要比较的两个字符串,函数返回它们的编辑距离。
1.2 余弦相似度
余弦相似度是一种常用的度量两个向量之间相似度的方法,可以用于度量两个字符串之间的相似度。
public double calculateCosineSimilarity(String s1, String s2) {
Map<Character, Integer> v1 = generateVector(s1);
Map<Character, Integer> v2 = generateVector(s2);
double dotProduct = 0.0;
double norm1 = 0.0;
double norm2 = 0.0;
for (Character key : v1.keySet()) {
if (v2.containsKey(key)) {
dotProduct += v1.get(key) * v2.get(key);
}
norm1 += Math.pow(v1.get(key), 2);
}
for (Character key : v2.keySet()) {
norm2 += Math.pow(v2.get(key), 2);
}
double similarity = dotProduct / (Math.sqrt(norm1) * Math.sqrt(norm2));
return similarity;
}
private Map<Character, Integer> generateVector(String s) {
Map<Character, Integer> vector = new HashMap<>();
for (int i = 0; i < s.length(); i++) {
char c = s.charAt(i);
if (vector.containsKey(c)) {
vector.put(c, vector.get(c) + 1);
} else {
vector.put(c, 1);
}
}
return vector;
}
以上代码演示了如何使用余弦相似度计算两个字符串之间的相似度。函数 calculateCosineSimilarity
接受两个字符串 s1
和 s2
,返回它们的余弦相似度。
1.3 Jaccard系数
Jaccard系数是一种用于计算两个集合之间相似度的方法,也可以用于度量两个字符串之间的相似度。
public double calculateJaccardSimilarity(String s1, String s2) {
Set<Character> set1 = new HashSet<>();
Set<Character> set2 = new HashSet<>();
for (int i = 0; i < s1.length(); i++) {
set1.add(s1.charAt(i));
}
for (int i = 0; i < s2.length(); i++) {
set2.add(s
上一篇: 雅卡德因子
下一篇: 100 种字符串相似性匹配算法
推荐阅读
-
NeurIPS 2022 | 最强斗地主AI!网易互娱AI Lab提出基于完美信息蒸馏的方法-完美信息蒸馏(PTIE) 在斗地主游戏中,非完美信息的引入主要是由于三位玩家均不能看到别人的手牌,对于任意一位玩家而言,仅可知道其余两位玩家当前手牌的并集,而难于精准判断每位玩家当前手牌。完美信息蒸馏的思路是针对这种非完美问题,构建一个第三方角色,该角色可以看到三位玩家的手牌,该角色在不告知每位玩家完美信息的情况下通过信息蒸馏的方式引导玩家打出当前情况下合理的出牌。 以强化学习常用的 Actor-Critic 算法为例,PTIE 在 Actor-Critic 算法的应用中可以利用 Critic 的 Value 输出作为蒸馏手段来提升 Actor 的表现。具体而言即在训练中 Critic 的输入为完美信息(包含所有玩家的手牌信息),Actor 的输入为非完美信息(仅包含自己手牌信息),此种情况下 Critic 给予的 Value 值包含了完美信息,可以更好地帮助 Actor 学习到更好的策略。 从更新公式上来看,正常的 Actor-Critic 算法 Actor 更新的方式如下: 在 PTIE 模式下,对于每个非完美信息状态 h,我们可以在 Critic 中构建对应的完美信息状态 D(h),并用 Critic 的输出来更新 Actor 的策略梯度,从而达到完美信息蒸馏的效果。 PTIE 框架的整体结构如下图所示: 无论是训练还是执行过程中智能体都不会直接使用完美信息,在训练中通过蒸馏将完美信息用于提升策略,从而帮助智能体达到一个更高的强度。 PTIE 的另一种蒸馏方式是将完美信息奖励引入到奖励值函数的训练中,PerfectDou 提出了基于阵营设计的完美信息奖励 node reward,以引导智能体学习到斗地主游戏中的合作策略,其定义如下: 如上所示,完美信息部分 代表 t 时刻地主手牌最少几步可以出完,在斗地主游戏中可以近似理解为是距游戏获胜的距离, 代表 t 时刻地主阵营和农民阵营距游戏获胜的距离之差, 为调节系数。通过此种奖励设计,在训练时既可以一定程度地引入各玩家的手牌信息(出完的步数需要知道具体手牌才能计算),同时也鼓励农民以阵营的角度做出决策,提升农民的合作性。 特征构建: PerfectDou 针对牌类游戏的特点主要构建了两部分特征:牌局状态特征和动作特征。其中牌局状态特征主要包括当前玩家手牌牌型特征、当前玩家打出的卡牌牌型特征、玩家角色、玩家手牌数目等常用特征,动作特征主要用于刻画当前状态下玩家的所有可能出牌,包括了每种出牌动作的牌型特征、动作的卡牌数目、是否为最大动作等特征。 牌型特征为 12 * 15 的矩阵,如下图所示: 该矩阵前 4 行代表对应每种卡牌的张数,5-12 行代表该种卡牌的种类和对应位置。 网络结构和动作空间设计 针对斗地主游戏出牌组合数较多的问题,PerfectDou 基于 RLCard 的工作上对动作空间进行了简化,对占比最大的两个出牌牌型:飞机带翅膀和四带二进行了动作压缩,将整体动作空间由 27472 种缩减到 621 种。 PerfectDou 策略网络结构如下图所示: 策略网络结构同样分为两部分:状态特征部分和动作特征部分。 在状态特征部分,LSTM 网络用于提取玩家的历史行为特征,当前牌局状态特征和提取后的行为特征会再通过多层的 MLP 网络输出当前的状态信息 embedding。 在动作特征部分,每个可行动作同样会经过多层 MLP 网络进行编码,编码后的动作特征会与其对应的状态信息 embedding 经过一层 MLP 网络计算两者间的相似度,并经由 softmax 函数输出对应的动作概率。 实验结果
-
java 比较两个字符串的相似度
-
计算两个字符串相似度的 Java 实现:Jaccard、编辑距离、余弦相似性 ......
-
java 检测两个字符串的相似性
-
确定两个字符串相似度的 java 方法