网页正文提取器 - 清理导航和广告

效率工具文本处理正文提取清理阅读

网页正文提取器

智能识别并提取网页核心内容，自动清理导航、广告、侧边栏等噪音

粘贴网页HTML源码

示例文章示例新闻

输入目标网页URL

受跨域限制，部分网站可能无法直接获取。如失败请使用"粘贴HTML源码"模式。

输出选项：保留图片保留链接美化输出

常见问题

什么是网页正文提取器？它是如何工作的？

网页正文提取器是一款智能工具，能够自动识别网页中的核心内容区域，并移除导航栏、广告、侧边栏、页脚等非内容元素。它通过分析HTML结构中的文本密度、标签语义、链接比例等特征，结合启发式算法（类似Mozilla Readability）来定位正文区域，最终输出干净、可读的内容。支持保留图片和链接，输出HTML或纯文本格式。

为什么输入URL后无法获取网页内容？

这是由于浏览器的CORS（跨域资源共享）安全策略限制。当您尝试从工具站获取其他网站的内容时，目标服务器需要明确允许跨域请求。大多数网站出于安全考虑不会开放此权限。解决方案：请在目标网页上右键 → 查看页面源代码（或按Ctrl+U），复制全部HTML代码，然后切换到"粘贴HTML源码"模式进行提取。这是最稳定可靠的方式。

提取的正文准确吗？能处理所有网站吗？

工具采用多层启发式算法，对文章类、新闻类、博客类网页的提取准确率非常高（通常超过95%）。它会优先识别<article>、<main>等语义化标签，以及常见的文章容器（如.post-content、.article-body等class）。但对于结构极其复杂或不规范的网页，提取结果可能需要微调。我们持续优化算法以提升兼容性。

提取后的内容可以用于哪些场景？

提取的纯净正文可用于多种场景：①阅读模式——去除干扰专注阅读；②内容收藏——保存到笔记软件（如Notion、Obsidian）；③数据分析——作为NLP/机器学习的数据预处理步骤；④SEO分析——研究竞品内容结构；⑤打印存档——生成简洁的打印版本。请尊重原网站版权，合理使用提取内容。

如何获取网页的HTML源代码？

有多种方式获取HTML源码：①快捷键——在目标网页按下Ctrl+U（Mac为Cmd+Option+U）打开源码页，全选复制；②右键菜单——右键点击页面空白处选择"查看页面源代码"；③开发者工具——按F12打开DevTools，在Elements标签页右键<html>节点选择Copy → Copy outerHTML；④浏览器扩展——使用"Save Page WE"等扩展保存完整HTML。

工具会保留原文中的图片和格式吗？

默认情况下，工具会保留正文中的图片和保留超链接。您可以通过输出选项自由切换：关闭"保留图片"将移除所有<img>标签；关闭"保留链接"会将链接转换为纯文本。开启"美化输出"会对HTML进行格式化缩进，使代码更易读。这些选项让您灵活控制输出内容。

我的数据安全吗？工具会上传我的内容吗？

完全安全。所有处理均在您的浏览器本地完成，使用JavaScript DOM解析引擎在客户端运行。您粘贴的HTML源码或输入的URL内容不会上传到任何服务器，不存在数据泄露风险。提取过程不需要网络请求（URL模式除外），您甚至可以离线使用HTML粘贴模式。您的隐私和数据安全是我们最重视的。

可以批量提取多个网页的正文吗？

当前版本暂不支持批量处理，每次提取一个网页的正文。如需批量处理，建议使用编程方式调用类似算法（如Python的readability-lxml库、news-please等）。我们未来会考虑加入批量处理功能。对于开发者，本文使用的核心提取逻辑可参考开源项目Mozilla Readability。

HTML标签去除工具 - 在线提取纯文本内容

从HTML代码中移除所有标签，提取纯文本内容，支持保留换行，用于数据清洗和正文提取。

开发工具 HTML 文本提取标签去除

HTML注释提取器 - 提取页面隐藏注释

粘贴HTML代码，自动提取所有  内容，方便查看遗留信息。

分析工具 HTML 提取注释

未使用 CSS 类检测器 - 对比 HTML 与 CSS

粘贴 HTML 和 CSS，交叉比对找出在 CSS 中定义但在 HTML 中从未使用的类选择器。

CSS CSS 未使用检测类

屏幕取色器API - 系统级像素颜色拾取

使用Eyedropper API激活系统取色器，拾取屏幕任意位置的颜色值。

前端设计 API 取色器颜色

模拟性能评分计算 - 根据网络/资源条件

设定FCP、LCP、CLS等指标值，模拟计算PageSpeed Insights得分估算。

开发工具性能模拟评分

服务条款生成器 - 自定义网站经营规则

填空式生成通用服务条款，涵盖账号、知识产权、免责等，创业初期参考。

合规服务条款法律生成

XML Sitemap 验证器 - 格式与URL检查

校验Sitemap格式合法性，列出所有URL并统计数量。

SEO工具 SEO Sitemap XML 验证

内容可见性优化提示 - content-visibility

分析页面结构，提示哪些长列表区域适合添加content-visibility: auto优化。

优化工具 CSS 优化性能

简易字幕生成器 - WebVTT时间轴编辑

可视化为视频添加时间点字幕文本，导出标准WebVTT文件或JSON。

媒体工具 WebVTT 字幕生成器

屏幕分辨率检测工具 - 窗口/屏幕像素详情

实时显示当前浏览器窗口分辨率、屏幕分辨率、像素比(DPR)和色彩深度等信息。

开发工具分辨率屏幕检测

内容重复度检测器 - 两篇文章比对

比较两篇文本的相似度百分比，并高亮相同句子，避免重复内容惩罚。

SEO工具 SEO 检测重复度

网页字体实时预览 - 输入Google Font名即时应用

输入字体名或从列表选择，在示例文本上立刻看效果，获得@import代码。

字体 Google Fonts 字体排版预览

Content-Visibility性能测试 - 长列表渲染对比

加载大量DOM元素，对比启用和不启用content-visibility: auto时的渲染时间和滚动体验。

开发工具优化性能渲染

公版电影搜索器 - 内置已进入公共领域片单

浏览或搜索已进入公共领域的经典电影列表，获取基本信息。

参考工具公版搜索电影

文本换行策略对比 - overflow/break演示

输入长单词或URL，切换overflow-wrap和word-break属性值，对比溢出自适应效果。

前端设计 CSS 换行演示

Web 字体测试小书签 - 在任意页面预览 Google Fonts

生成一个书签工具，点击后在当前页面动态加载任何 Google 字体并应用到所选文字。

字体 Google Fonts 书签字体测试

同行评审检查清单 - 代码/文档质量维度

提供代码评审和文档评审的通用检查项，标出等级并生成评审报告。

协作检查评审质量

时间轴组件生成器 - 垂直/水平历史线

按时间点添加事件，生成美观的垂直或水平时间轴HTML/CSS代码。

前端设计 HTML 时间轴组件

SQL格式化与关键字高亮 - 多种方言支持

将压缩的SQL语句按标准缩进美化，关键字高亮，兼容MySQL/PostgreSQL等方言。

开发工具 SQL 格式化高亮

今日要闻简报板 - 多源RSS示例阅读

从示例公开RSS源聚合当日标题与摘要，纯文本快速浏览。

资讯工具新闻每日简报阅读

历史事件时间线制作 - 自定义条目生成横向轴

输入事件名称与年代，自动生成美观的横向时间轴图，打印用于学习展示。

历史制作历史可视化时间线

正则表达式性能基准测试 - 引擎回溯时间比较

输入目标文本与多个正则方案，测量执行耗时与步数，识别低效模式并优化。

开发工具回溯性能正则测试

开源许可证文本查看与对比器 - 并排阅读

选择两种开源许可证，并排显示全文，高亮关键差异条款，帮助选择合适许可证。

开发工具对比开源法律许可证

打印媒体查询模拟器 - 实时切换屏幕与打印视图

一键切换当前页面的 media 类型为 screen 或 print，方便调试打印样式。

CSS 媒体查询打印模拟预览

Origin Trial 令牌解析器 - 查看实验性功能有效期

输入 origin trial token，解析出启用的特性、域名和过期时间。

API Origin Trial 令牌实验解析

WebGL 纹理加载演示 - 多种格式与过滤对比

加载不同格式的纹理，并切换纹理过滤方式，观察渲染质量和性能。

图形 WebGL 加载纹理过滤

强制颜色模式测试器 - Windows 高对比度预览

激活 forced-colors: active 模拟，观察页面在系统高对比度主题下的渲染效果。

CSS forced-colors 测试高对比度

文本内联差异高亮器 - 单词级变更对比

比较两段文本，在单词级别高亮新增、删除和修改的部分，类似 Google Docs 修订。

对比内联对比差异高亮

图片水印工具 - 在线添加文字/图片水印

纯前端图片水印添加工具，支持文字水印（自定义字体、颜色、透明度、旋转）和图片水印，保护图片版权。

图像工具 Canvas 图片水印

红眼消除工具 - 选择眼睛区域去红

在照片上框选眼睛区域，自动检测并降低红色色相和饱和度消除红眼。

图像工具消除照片红眼