EPUB纯文本提取 - 提取全书文字

109

拖拽 EPUB 文件到此处

或点击选择文件

支持 .epub 格式 · 纯浏览器端处理 · 文件不会上传到服务器

常见问题与知识点

EPUB（Electronic Publication）是一种开放的电子书标准格式，由国际数字出版论坛（IDPF）制定。它本质上是一个 ZIP 压缩包，内部包含 XHTML/HTML 文件、CSS 样式表、图片等资源。与 PDF 不同，EPUB 的内容可以自适应不同屏幕尺寸（响应式排版），文字可以重排，因此更适合在手机、平板等不同设备上阅读。PDF 则是固定布局，适合打印和保留原始排版。

本工具在浏览器端完成全部处理：首先使用 JSZip 库解压 EPUB 文件（EPUB 本质是 ZIP），然后读取 META-INF/container.xml 找到内容索引文件（content.opf），解析出所有章节的 XHTML/HTML 文件，按阅读顺序依次提取文本。提取过程中会自动去除 HTML 标签、脚本和样式，保留段落结构，最终合并为完整的纯文本。

会的。工具在提取时识别块级元素（如段落 <p>、标题 <h1>-<h6>、列表项 <li> 等），在它们之间自动插入换行符，最大限度地保留原书段落结构。您还可以通过"压缩多余空行"选项来控制空行密度，让输出文本更加紧凑或保留原始间距。

本工具同时支持 EPUB2 和 EPUB3 格式。解析器会自动识别 container.xml 中指向的 OPF 文件，兼容不同的目录结构和命名约定。无论是旧版 EPUB2 还是最新的 EPUB3 标准，都能正确提取文本内容。如果遇到加密（DRM）保护的 EPUB，则无法提取，本工具不支持破解 DRM。

不会。所有处理完全在您的浏览器本地完成。EPUB 文件通过 FileReader API 在内存中读取，JSZip 在客户端解压，文本提取也在浏览器 JavaScript 引擎中执行。您的文件绝不会被上传到任何服务器，即使断网也能正常使用本工具。这是本工具相比在线转换服务最大的优势——保护您的隐私和文件安全。

乱码通常由编码问题引起。EPUB 规范要求使用 UTF-8 编码，但部分老旧或制作不规范的 EPUB 可能使用其他编码（如 GBK、Latin-1）。本工具在读取文件时尽可能自动检测编码，但若遇到乱码，建议先用 Calibre 等专业工具将 EPUB 转换为 UTF-8 编码版本后再使用本工具提取。另外，如果 EPUB 使用了嵌入式字体映射（font obfuscation），也可能导致部分字符显示异常，但这种情况较为罕见。

目前本工具支持单文件逐个处理。如需批量处理，您可以多次上传不同的 EPUB 文件。对于大量文件的批量转换需求，建议使用桌面端专业工具（如 Calibre、Pandoc）通过命令行批量操作，效率更高。本工具定位为轻量级在线工具，适合快速提取单本电子书的文字内容。

理论上没有硬性限制，但由于整个文件需加载到浏览器内存中处理，实际限制取决于您的设备性能和浏览器。大多数 EPUB 电子书在 1MB 到 30MB 之间，处理速度很快（通常 1-3 秒内完成）。如果 EPUB 超过 100MB（通常因为包含大量高清图片），处理时间可能延长，建议使用 Calibre 先优化文件大小。注意：图片内容在文本提取时会被自动忽略，只提取文字。

提取的纯文本用途广泛：① 用于翻译工具（如 DeepL、Google Translate）进行全书翻译；② 导入笔记软件（Notion、Obsidian、Logseq）做读书笔记和知识整理；③ 使用 TTS（文本转语音）工具将电子书转换为有声书；④ 进行文本分析、词频统计、NLP 处理；⑤ 转换为其他格式（Markdown、DOCX）的中间步骤；⑥ 在 Kindle 等设备上以纯文本形式阅读。

可能的原因：① EPUB 是图片扫描版（每页是图片而非文字），这类 EPUB 实际不含可提取的文字层，需要 OCR 识别；② 文件受 DRM（数字版权管理）加密保护，内容被加密无法正常读取；③ EPUB 结构异常或损坏，spine 中引用的内容文件缺失；④ 内容使用了非标准的命名空间或自定义标签。如遇此情况，可尝试用 Calibre 打开确认内容是否可读。

EPUB 转 TXT 在线转换 - 提取电子书纯文本

上传 EPUB 文件，提取所有章节的纯文本内容，合并下载为 TXT 文件。

热门

EPUB 封面提取器 - 在线查看电子书封面

上传 EPUB 文件，提取并显示封面图片，支持直接下载封面图。

工具 EPUB 封面提取电子书

热门

EPUB封面提取器 - 在线查看电子书封面

选择.epub文件，提取内置封面图片并显示，也可导出封面为PNG。

图像工具 EPUB 封面提取

文本转EPUB打包器 - 在线制作电子书

将标题、作者和章节文本打包生成简单的EPUB电子书文件并下载。

文件工具 EPUB 打包文本

轻量在线 EPUB 阅读器 - 分页阅读与书签

上传 EPUB 电子书，在浏览器中进行分页阅读，支持目录导航和进度保存。

电子书 EPUB 书签在线阅读器

小书签脚本生成器 - 包装JS为Bookmarklet

编写JavaScript代码，一键压缩并包装为可拖到书签栏的Bookmarklet。

开发工具 Bookmarklet JS 书签生成

网页链接高亮书签小工具 - 生成Bookmarklet

生成一个小书签，点击后当前页面上所有链接添加彩色边框，方便检查。

工具书签链接高亮

家庭图书馆书目 - 扫描ISBN录入与借出管理

通过ISBN添加藏书，标记已读/在架/借出状态，附带阅读笔记。

生活工具书目借阅管理藏书

随机书籍推荐器 - 输入布尔逻辑检索

点选分类或主题，使用内置庞大书本数据随机为你推荐一本值得阅读的书。

教育书籍推荐阅读

响应式视图小书签 - 一键切换常见设备尺寸

生成一个小书签脚本，点击后可在当前页面快速切换 iPhone/Android/平板等设备的视口尺寸。

开发工具书签切换响应式视口

书脊诗集生成器 - 随机堆叠书名创作

内置海量书名，点击随机抽取4-6本堆叠，生成一首书脊诗，文学趣味浓厚。

娱乐工具书脊创作诗随机

阅读日志追踪器 - 书架管理与进度统计

记录正在读/已读书籍，标记页数与笔记，生成年度阅读统计图表，激励阅读习惯。

个人工具书籍笔记统计阅读

简易书籍装订模拟 - 步骤预览

逐步展示线装或胶装书籍的制作过程，模拟折叠、钻孔、缝线步骤。

DIY 手工指南装订

热门

试卷生成器 - 选择题/配对/填空排版

编写题目与选项，自动排版为正式试卷格式，支持选择题、填空题与配对题，可直接打印。

教育工具打印生成试卷试题

WebRTC简易聊天室 - 点对点文本传输

创建或加入一个WebRTC直连房间，与对方直接发送文本消息，无需服务器中转。

实用工具 WebRTC 点对点聊天

文件系统访问 API 沙盒 - 读写本地文件

使用 showOpenFilePicker 或 showSaveFilePicker 选择文件并读取/写入内容，体会原生文件交互。

开发工具 File System Access 文件演示

本地书签管理器 - 浏览器收藏夹整理工具

自建书签面板，添加、分类、搜索网站链接，数据存本地，打造干净清爽的开始页。

实用工具书签整理管理

打字机文本动画播放器 - 批量文本逐条展示

输入多段话，像打字机一样逐字输出并自动切换，适合大屏展示或预告片效果。

动画工具动画打字机文本

手写便签电子化 - 拍照提取白色背景

拍下便利贴或白板字迹，工具自动清理背景并提高可读性。

办公工具便签手写拍照清理

热门

ConfigMap 生成器 - 从键值对快速生成 Kubernetes 资源

输入键值对，自动生成 Kubernetes ConfigMap YAML，支持文字和多行数据。

DevOps ConfigMap Kubernetes 生成器配置

双语文本对照朗读器 - 并排显示TTS播放

粘贴原文与译文，分栏显示，可逐句高亮并TTS朗读。

教育工具 TTS 双语对照朗读

热门

点连图生成器 - 自动生成数字连线画

上传简单轮廓图，在边缘自动生成顺序数字点，构成可打印的连线画。

教育工具儿童点连图连线

热门

语音识别转文字 - 在线实时语音录入

利用Web Speech API将语音实时转换为文字，支持多语言识别，输出结果可复制编辑。

效率工具 STT 语音识别转文字

图片文字识别轻量版 - Tesseract.js

上传图片，利用Tesseract.js离线识别其中的英文或简单文字并复制。

图像工具 OCR 图片文字识别

Base58编码解码工具 - 无模糊字符的编码格式

在线Base58编码与解码，剔除易混淆字符（0、O、l、I），常用于比特币地址和短链接。

开发工具 Base58 编码解码

热门

信纸模板生成器 - 带横线/花朵边框打印

选择不同风格的信纸底纹与边饰，生成可打印的PDF或图片。

办公工具书写信纸打印模板

个人藏书目录 - 扫码ISBN自动获取信息

手动录入或通过ISBN号获取书名/作者，记录借出/归还状态，打造小型书房管理。

整理 ISBN 目录管理藏书

热门

电子签名板 - 在线手写签署并导出图片

使用鼠标或触摸屏手写签名，调整笔触粗细与颜色，一键导出透明背景签名图，用于文档签署。

办公工具导出手写电子签名签署

中国古代文物微展厅 - 高清图片与语音介绍

内置高清文物图片（如越王勾践剑），支持幻灯片模式和TTS语音讲解。

历史中国历史文物

专辑封面配色提取器 - 抓取音乐封面生成色板

输入歌曲或专辑名，搜索封面图并自动提取主色调，生成音乐风格调色板。

设计工具专辑封面提取配色