简单匹配率
(字符级)
编辑距离相似度
(Levenshtein)
最长公共子序列
(LCS)
余弦相似度
(Cosine)
Jaccard相似系数
(集合相似度)
统计信息
编辑距离 (修改次数)
相同字符数
不同字符数
计算将一个字符串转换为另一个字符串所需的最少单字符编辑次数(插入、删除、替换)。距离越小,相似度越高。
找出两个序列中最长的公共子序列,不要求连续。LCS越长,表示两个文本的相似度越高。
通过计算两个文本向量的夹角余弦值来衡量相似度。值在0-1之间,越接近1表示越相似。
计算两个集合的交集大小除以并集大小。用于衡量字符集合的相似度,值在0-1之间。
文本相似度计算广泛应用于搜索引擎、拼写检查、抄袭检测、机器翻译等领域