无需登录 数据私有 本地保存

EPUB纯文本提取 - 提取全书文字

29
0
0
0
拖拽 EPUB 文件到此处

或点击选择文件

支持 .epub 格式 · 纯浏览器端处理 · 文件不会上传到服务器

正在解析EPUB...

正在解析 EPUB 文件,提取文本中...

常见问题与知识点

EPUB(Electronic Publication)是一种开放的电子书标准格式,由国际数字出版论坛(IDPF)制定。它本质上是一个 ZIP 压缩包,内部包含 XHTML/HTML 文件、CSS 样式表、图片等资源。与 PDF 不同,EPUB 的内容可以自适应不同屏幕尺寸(响应式排版),文字可以重排,因此更适合在手机、平板等不同设备上阅读。PDF 则是固定布局,适合打印和保留原始排版。

本工具在浏览器端完成全部处理:首先使用 JSZip 库解压 EPUB 文件(EPUB 本质是 ZIP),然后读取 META-INF/container.xml 找到内容索引文件(content.opf),解析出所有章节的 XHTML/HTML 文件,按阅读顺序依次提取文本。提取过程中会自动去除 HTML 标签、脚本和样式,保留段落结构,最终合并为完整的纯文本。

会的。工具在提取时识别块级元素(如段落 <p>、标题 <h1>-<h6>、列表项 <li> 等),在它们之间自动插入换行符,最大限度地保留原书段落结构。您还可以通过"压缩多余空行"选项来控制空行密度,让输出文本更加紧凑或保留原始间距。

本工具同时支持 EPUB2 和 EPUB3 格式。解析器会自动识别 container.xml 中指向的 OPF 文件,兼容不同的目录结构和命名约定。无论是旧版 EPUB2 还是最新的 EPUB3 标准,都能正确提取文本内容。如果遇到加密(DRM)保护的 EPUB,则无法提取,本工具不支持破解 DRM。

不会。所有处理完全在您的浏览器本地完成。EPUB 文件通过 FileReader API 在内存中读取,JSZip 在客户端解压,文本提取也在浏览器 JavaScript 引擎中执行。您的文件绝不会被上传到任何服务器,即使断网也能正常使用本工具。这是本工具相比在线转换服务最大的优势——保护您的隐私和文件安全。

乱码通常由编码问题引起。EPUB 规范要求使用 UTF-8 编码,但部分老旧或制作不规范的 EPUB 可能使用其他编码(如 GBK、Latin-1)。本工具在读取文件时尽可能自动检测编码,但若遇到乱码,建议先用 Calibre 等专业工具将 EPUB 转换为 UTF-8 编码版本后再使用本工具提取。另外,如果 EPUB 使用了嵌入式字体映射(font obfuscation),也可能导致部分字符显示异常,但这种情况较为罕见。

目前本工具支持单文件逐个处理。如需批量处理,您可以多次上传不同的 EPUB 文件。对于大量文件的批量转换需求,建议使用桌面端专业工具(如 Calibre、Pandoc)通过命令行批量操作,效率更高。本工具定位为轻量级在线工具,适合快速提取单本电子书的文字内容。

理论上没有硬性限制,但由于整个文件需加载到浏览器内存中处理,实际限制取决于您的设备性能和浏览器。大多数 EPUB 电子书在 1MB 到 30MB 之间,处理速度很快(通常 1-3 秒内完成)。如果 EPUB 超过 100MB(通常因为包含大量高清图片),处理时间可能延长,建议使用 Calibre 先优化文件大小。注意:图片内容在文本提取时会被自动忽略,只提取文字。

提取的纯文本用途广泛:① 用于翻译工具(如 DeepL、Google Translate)进行全书翻译;② 导入笔记软件(Notion、Obsidian、Logseq)做读书笔记和知识整理;③ 使用 TTS(文本转语音)工具将电子书转换为有声书;④ 进行文本分析、词频统计、NLP 处理;⑤ 转换为其他格式(Markdown、DOCX)的中间步骤;⑥ 在 Kindle 等设备上以纯文本形式阅读。

可能的原因:① EPUB 是图片扫描版(每页是图片而非文字),这类 EPUB 实际不含可提取的文字层,需要 OCR 识别;② 文件受 DRM(数字版权管理)加密保护,内容被加密无法正常读取;③ EPUB 结构异常或损坏,spine 中引用的内容文件缺失;④ 内容使用了非标准的命名空间或自定义标签。如遇此情况,可尝试用 Calibre 打开确认内容是否可读。