文本相似度计算器 - 余弦相似度

开发工具文本处理余弦文本相似度

118

文本相似度计算器 - 余弦相似度

基于余弦相似度算法，精准量化两段文本的相似程度，支持中英文混合文本对比

快速示例：

文本 A 0 字符

文本 B 0 字符

余弦相似度

衡量两个向量方向的一致程度，值越接近1表示越相似，0表示正交（无关），常用于文本比对、推荐系统等。

中英文混合支持

中文采用字符级1-gram+2-gram分词，英文采用单词级分词，精准处理混合文本的语义相似度计算。

即时计算

纯前端计算，数据不上传服务器，保障隐私安全。毫秒级响应，即时获得相似度分析结果。

常见问题与知识点

余弦相似度（Cosine Similarity）是通过计算两个向量之间夹角的余弦值来衡量它们相似程度的方法。在文本分析中，首先将文本转化为词频向量（每个词在文本中出现的次数），然后计算两个向量的余弦值。

计算公式：cos(θ) = (A·B) / (|A| × |B|)
其中 A·B 是向量点积，|A| 和 |B| 分别是两个向量的模长。结果范围在 -1 到 1 之间，对于文本词频向量（非负值），结果在 0 到 1 之间，0 表示完全不同，1 表示完全一致。

对于文本词频向量（所有值非负），余弦相似度的取值范围为 0 到 1（即 0% 到 100%）：
• 0% - 20%：极低相似度，两段文本主题或内容几乎完全不同
• 20% - 40%：低相似度，存在少量共同词汇但整体差异较大
• 40% - 60%：中等相似度，有一定共同内容但表述差异明显
• 60% - 80%：高相似度，内容较为接近，共享较多关键词
• 80% - 100%：极高相似度，文本高度一致，可能为同一来源或抄袭

英文文本：天然以空格分隔单词，分词较为简单直接，按空格和标点分割即可获得有意义的词汇单元。

中文文本：词语之间没有天然分隔符，需要特殊处理。本工具采用 字符级1-gram（单字）+ 2-gram（相邻双字组合） 的方式进行分词。这种方法能有效捕捉中文的语义特征，虽然不如专业分词工具精确，但在相似度计算中表现良好。

混合文本：工具会自动识别并同时处理中英文部分，确保混合文本的相似度计算准确性。

余弦相似度广泛应用于以下场景：
• 查重检测：检测论文、文章是否存在抄袭或高度相似内容
• 搜索引擎：计算查询词与文档的相关性排序
• 推荐系统：基于用户行为或内容特征计算相似用户/物品
• 文档聚类：将相似文档自动归类分组
• 客服系统：匹配用户问题与知识库中最相似的回答
• 版权保护：检测内容是否被未经授权转载

即使两段文本主题完全不同，它们仍然可能共享一些常见词汇，如"的"、"是"、"在"、"the"、"is"、"a"等高频词。这些词在任何文本中出现的频率都很高，会导致余弦相似度产生一个基础值。

要获得更准确的语义相似度，通常需要配合停用词过滤（移除常见无意义词汇）或使用 TF-IDF加权（降低高频词的权重）。本工具提供基础词频向量计算，用户可以直观看到共同词列表，理解相似度的来源。

余弦相似度关注的是文本的语义和词汇层面，通过词频向量衡量整体内容的相似性，即使语序不同、表述方式不同，只要用词接近就能获得较高相似度。

编辑距离（又称Levenshtein距离）关注的是文本的字符序列层面，计算将一个字符串转换为另一个所需的最少编辑操作次数（插入、删除、替换）。它更适用于拼写纠错、模糊匹配等场景。

简单来说：余弦相似度回答"内容有多像"，编辑距离回答"字面有多像"。

提高文本相似度计算准确性的常用方法：
• 去除停用词：过滤"的"、"是"、"在"等高频无意义词汇
• 使用TF-IDF加权：降低常见词权重，提升关键词影响力
• 词干提取/词形还原：将不同形态的词归并为同一词根（如running→run）
• 使用更精准的分词工具：如jieba分词（中文）、NLTK（英文）
• 引入词向量/语义嵌入：使用Word2Vec、BERT等深度学习模型捕捉语义相似性
• 增加n-gram范围：结合1-gram、2-gram、3-gram提高短语匹配能力

本工具基于标准余弦相似度算法，计算结果在数学上是准确的。但存在以下局限性：
• 分词精度：中文使用简单的n-gram分词，未使用专业分词库，对复杂语义的捕捉有限
• 无停用词过滤：高频无意义词会影响相似度得分
• 无词义理解：无法识别同义词（如"开心"和"高兴"被视为不同词）
• 语序不敏感：词袋模型忽略了词的顺序信息

对于一般的文本相似度比对需求，本工具已足够实用。如需更精确的语义分析，建议使用专业NLP工具。

热门

卡诺图在线化简器 - 二至六变量逻辑最小化

交互式填写卡诺图，自动寻找质蕴含项并输出最简与或式，数字逻辑课程利器。

教育工具化简卡诺图电路逻辑

热门

字谜画谜生成器 - 文本符号拼凑

将单词或短句用相似读音的数字/符号替换，创造趣味字谜，可导出图片分享。

创作字谜文字生成画谜

热门

N体引力模拟器 - 星体轨道与混沌效应

设置多个质点的质量和初始速度，模拟万有引力下的运动轨迹，观察三体问题等混沌现象。

模拟 N体天体引力模拟

像素填色挑战 - 按数字填色绘图

在带编号的像素网格中点击颜色填充，一键溢出相同数字区域，完成可爱像素画。

休闲像素填色放松游戏

线程池大小优化计算器 - CPU 核心与 IO 时间

根据 CPU 核心数、IO 等待时间比例，推荐最佳线程池大小。

并发大小并发线程池计算

热门

罗马数字算术器 - 加减法直接运算

输入两个罗马数字，进行加或减运算，并输出罗马数字结果。

计算工具算术罗马数字计算

加密货币成本基础追踪 - 先进先出法计算盈亏

记录买入批次，当卖出时自动按先进先出匹配，计算应税盈亏。

税务 FIFO 加密货币盈亏税务

无障碍进度条组件生成器 - 确定/不确定状态

生成带有 ARIA 进度条角色的组件，支持确定和不确定两种样式。

无障碍 ARIA 无障碍进度进度条

热门

数字密室逃脱谜题生成 - 随机组合数学/密码

自动生成几道典型的数字或密码谜题（如摩斯电码、数独），用于自制密室。

游戏工具密室逃脱生成谜题

热门

UTF-16编码解码工具 - 字符与十六进制序列互转

在线UTF-16编码解码，支持将文本转为\uXXXX或十六进制序列，并还原为原字符，辅助字符集学习。

开发工具 UTF-16 编码解码

文本转十六进制工具 - 字符串转HEX编码

将普通字符串转换为十六进制表示，支持字节间分隔符自定义，便于开发调试。

文本处理十六进制文本编码

热门

猪圈密码在线工具 - 图形符号替加密/解密

使用经典的猪圈密码（Pigpen Cipher）将字母替换为格子中的点线图形，交互式加密解密。

加密解密古典猪圈密码符号

逐行文本反转器 - 按行倒序或每行逆转

将整个文本的行顺序颠倒，或每行字符反转，用于创意写作或数据变换。

创意倒序反转文本行

热门

文本混淆防复制 - 生成不可选中的展示

将正常文本转换为难以直接复制选中的展示格式，增加复制难度。

保护保护文本混淆防复制

HTML转纯文本 - 去除所有标签保留结构

粘贴HTML代码，提取纯文本内容并保留段落结构。

开发工具 HTML 提取文本转换

简单文本语气分析器 - 词库匹配/兴奋/愤怒

基于内置词典扫描文本，粗略判断内容的主要情绪倾向（愤怒、喜悦、悲伤等）。

教育工具情感文本语气分析

涂黑诗生成器 - 从报纸文章中选字

粘贴一段文本，涂黑不用单词，保留部分文字组成一首再生诗词。

创作工具创意文本涂黑诗

文本历史版本对比 - 类似Git Blame

粘贴两个时间点的文本，以类似Git Blame的效果显示哪些行新增/删除/修改。

开发工具对比文本版本

文本行去重过滤器 - 保留或删除重复

提取文本中的唯一行、或删除重复行、或仅显示重复行，多模式整理。

数据清洗去重文本行

空格隐写工具 - 利用行尾空白隐藏

将秘密信息编码到文本每行末尾的不可见空格数量中，朴素但有效的隐蔽通信。

安全工具文本空格隐写

文本熵值计算器 - 信息论分析

分析输入文本的字符或单词频率，计算香农熵，评估文本的随机性和信息密度。

教育工具信息论文本熵

热门

EPUB纯文本提取 - 提取全书文字

上传EPUB电子书，提取所有章节的纯文本内容用于检索或朗读。

文件工具 EPUB 提取文本

文本加密传输 - 密码保护短消息

用密码将短文本加密为一串乱码，接收方在同一工具输入密码解密。

安全工具加密密码文本

列表内容反序器 - 行序倒排

将多行文本的顺序完全颠倒，第一行变最后一行。

文本处理倒序列表文本

二进制信息编码器 - 将文字变成01流

将任意文本逐字符转换为二进制表示，同时可生成ASCII艺术式的二进制块。

教育工具二进制文本编码

段落缩进格式化 - 自动缩进每条段落

为文本块每个段落前添加两个全角空格或指定缩进字符，用于诗词或文章排版。

文本处理文本格式化缩进

文字网格对齐器 - 等宽字体列排版

使用空格填充，将文本按指定的列宽左对齐、右对齐或居中对齐，适合纯文本报表。

文本处理列对齐文本

文本自适应容器字号 - 根据宽度缩放字体

输入文本和容器宽度，计算所需的字体大小使文本不换行，利用JS测量实时反馈。

前端设计字号文本适应

文本左右对齐工具 - 等间距填充英文段落

在英文文本的行内插入空格使其左右两端同时对齐，模拟印刷排版效果。

文本处理对齐排版文本

热门

文本强制换行工具 - 每行固定字符数断行

将长文本按指定字符数强制插入换行符，保留单词完整性选项，用于纯文本排版。

文本处理换行文本格式化

文本相似度计算器 - 余弦相似度