Epub电子书开发学习-(二)Epub格式电子书简述

2023-05-29  本文已影响0人  lzy2626

Epub格式电子书

epub电子书本身就是一个ZIP文件,我们将epub格式电子书的后缀.epub修改为.zip后,可以通过解压缩软件进行浏览或解压处理。

解压后的文件:

1.固有文件

1.1 mimetype

电子书阅读器需要验证 EPUB 文件是否真的是 EPUB 文件。他们通过检查 EPUB 存档根目录中的mimetype文件来验证文件。该文件仅包含一行描述 EPUB 文件的 MIME 类型:application/epub+zip

1.2 META-INF

这个文件文件夹的名字翻译成中文就是“元信息”。文件夹里面只有一个container.xml文件。

这两个文件是固定名字,固定位置。

2.文件解析

2.1 container.xml

先看一下container.xml中的内容

image.png

这段内容的作用就是标明了.opf文件的位置。这个.opf文件是一个很重要的文件,它记录了epub文件内部各个文件的具体信息。

Ps:.opf文件可以放到任意的位置,任意的命名,通过container.xml文件来找到.opf文件。正是基于这个缘由,epub文件的标准里规定“EPUB 根目录下必须包含 META-INF 目录,并且其中必需要有一个文件 container.xml”

2.2.opf文件解析

Open Package Format(OPF),即包文件格式,其主要功能是用于组织 OPS 文档和提供相应的导航机制,并形成一个开放式的基于 XML 的打包文档,该文档的后缀名为 “.opf” 。

查看文件内容:


image.png

metadata#

EPUB文件元数据

dc:identifier#

书本的唯一标识符,需要和ncx文件中的identifier一致,虽然不一致也没问题。

dc:language#

书本使用的语言 不是很重要。

dc:title#

整本书的书名,重要性不言而喻。

meta#

通过对部分EPUB进行解压,目前只发现设置封面的meta

<meta content="cover-image" name="cover"/>

一般没有需求不更改,如何设置封面查看下文。

manifest#

整本书的清单文件,一般会列出ncx文件和小说正文文件以及封面。

ncx文件是必须的,它定义了书籍的目录,具体格式查看下文。

封面是可选的,不过EPUB没有封面和插图就没有灵魂。

2.3 ncx文件解析

ncx是Navigation Content extended的缩写,用于表示本书的目录。

image.png

meta#

dtb:uid#

<meta content="urn:uuid:9bfb698f-dfa3-45ca-bea4-d0fbc2ead4f3" name="dtb:uid"/>

这个和opf中的dc:identifier应该保持一致,不一致倒也没什么问题。

depth、totalPageCount和maxPageNumber#

image.png

对于电子书不需要进行修改,使用这几个值就OK。

docTitle#

image.png

姑且认为应该与opf中的dc:title一致,书名以opf中的为准。

navPoint#

image.png

整书的目录,每个navPoint代表目录中的一项,包含标题和文件路径。

一个EPUB有以上这些文件就能被识别,通过创建文件然后压缩就可以完成一个EPUB文件的创建。

3.epub阅读器解析流程

  1. 解压epub文件

  2. 解析container.xml获取到opf文件信息

  3. 解析opf文件,获取epub基本信息,文件信息

  4. 解析ncx文件,获取目录章节列表

  5. 通过获取的章节列表信息加载解析对应的xhtml文件

  6. 页面展示

上一篇 下一篇

猜你喜欢

热点阅读