转换复杂的PDF成ePub格式

sharebio发表于 2013-03-13 11:20:38 516人阅读|3

生物类图书、文献里面充满了图片,表格,公式,甚至还有些页面是多栏的。你觉得简单的转换后会变成什么?答案是一团浆糊。
那怎样才能转换PDF得到你期望的结果,首先有一点你要明白,PDF是页面固定大小的排版格式,里面的每一个元素,文字,图片都有精确的定位,而ePub是一种流格式,会随屏幕大小而调整显示内容。所以转换后你不能期望100%的保持原来的排版。
本文的目的是让你能够正确转化PDF所有的内容,又尽可能的保持文档的原有结构。你会阅读到正确的内容,同时又不用左右滚动你的屏幕去费力的阅读,新的ePub文档格式会自动适应你阅读器的屏幕。
废话不多说,下面进入正题。
第一步,你要下载转化软件PDF to ePub Converter.最好是pro版本,下载地址:
http://www.pdf-epub-converter.com/download/epubconverterpro.exe
下载后安装好进入软件。
第一个界面,选择你的PDF文件。点”下一步”。


第二个界面,注意选择”Strict”模式。点”下一步”
该模式可以精确的处理PDF的各个元素。
有关描述见:

http://www.pdf-epub-converter.com/pdf-to-epub-online-help.html#conversion-mode


一些选项设置,见图options:

A:页面参数的默认设置,如果选择”Strict”模式,后面可以对每个页面再做各自的设置。参数含义:
Single/Multi Column - 单栏或多栏。如果你的文档都是多栏排版的,选择”Multi Columns”.
Paragraph Check - 自动对文档进行段落检测。
Algin Check - 自动对文档进行对齐检测。
Ignore Image - 忽略图像,不输出图像。
Ignore Vector Graph - 忽略矢量图像,不输出矢量图像。
Ignore Link - 忽略文档中的超级链接。
B:书签和TOC的设置。
Import PDF Bookmarks (If exist) into TOC - 提取PDF的书签转化为ePub文档的TOC.
Output Document Outline(bookmarks) - 提取PDF的书签在epub页面中输出。在下面的下拉框中选择插入的位置。

软件进入第三个界面。该界面可以让你处理和设置怎么去转换你的PDF文档。

界面布局说明:
A:PDF页面列表。
B:页面导航。
C:当前页面的解析参数。
D:针对所以页面的公共参数。
E:输出预览。
F:操作编辑区。

下面分别讲述可能遇到的问题及如何处理:

在讲具体问题之前,先讲一下软件基本的原理。从PDF排版的格式到ePub流的格式的转化,有一个问题需要考虑。就是如何确定PDF各个元素在流中的顺序。通常情况下,文档的逻辑顺序应该是从上到下,从左到右(目前软件还不支持从右到左的PDF).在一些简单文档,可以无需考虑这个问题,比如小说,基本上按这个顺序转化就可以了。但在一些技术文档,操作手册等结构复杂的文档里,有时候软件无法完全正确的检查它们各个元素的顺序,这时候就需要人工干预。用户可以通过一些参数的设置告诉软件,按什么样的顺序输出到流里,得到他期望的结果。下面的这些设置和操作就是帮助软件如何去处理这些复杂的文档。

1. 去除重复的页眉页角。
一般正规的PDF文档都有页眉页角,转化成epub格式后,因为没有了单独页面的概念,整个文档以一个流的形式呈现在阅读器上,所以,一般应该去除这些重复的页眉页角。想要去除它们,只需要把它们排除在有效区域之外。选择有效区域后,灰色部分的内容将不会输出到epub中。如图p4。在灰色区域右击,选择菜单”Apply to all Pages”,可以应用到所以页面。

参考链接:

http://www.pdf-epub-converter.com/pdf-to-epub-online-help.html#remove-page-head

2. 段落检测。
PDF文档没有段落概念,它的每个字符都有精确的定位。输出到epub文档时,应该检测出在逻辑上哪些是句子,段落。这在阅读时是很重要的。如果没有这个功能,输出的文档将是每一行成一段。一般情况下,在正文页面,我们都应该设置这个选项。
参考链接:

http://www.pdf-epub-converter.com/pdf-to-epub-online-help.html#paragraph-check

3. 对齐检测。
在有些页面,比如封面,扉页。有居中,右对齐的句子。可以设置该选项,检测它的对齐状态,这样在epub中的呈现的格式会跟PDF中更接近。一般情况下,在非正文页面,我们应该设置这个选项。
参考链接:

http://www.pdf-epub-converter.com/pdf-to-epub-online-help.html#algin-check

4. 文档目录页面的处理
一般正式的文档都有它的目录。目录页一般都单行成段。所以在转换时应该去除”Paragraph Check”选项。否则软件会错误的把它们作为段落输出。设置操作如下:

5. 矢量图表的转换。
在PDF里,有两种图形,一种是压缩的位图格式,如JPEG, 一种是矢量图,由点,线,填充等几何元素组成。大部分图表是这两者混合在一起组成的,有时还有文字标注在里面。所以一个简单有效的方法就是,把它们合在一起转成一张图片输出。操作方法是,先选中该图表的所有元素内容,右击鼠标弹出菜单,选择”to Graphic”.如下图:

6. 数学公式的处理。
数学公式的转换,跟图表类似,数学公式在html中的排版非常困难,所以转换成图片是一个比较好的方法。操作方法是,先选中该公式的所有内容,右击鼠标弹出菜单,选择”to Graphic”.

7. 多栏文档处理。
多栏文档与单栏文档在阅读顺序是有所不同的,需要通过一定的设置来帮助软件以正确的顺序去解析它。设置的方式很简单,只要在多栏的页面上选择”Multi Columns”选项即可。如果有多个页面需要同时设置,则在”PDF页面列表”选中多个页面,右击鼠标弹出菜单,选择”Multi Columns”选项。要设置所有的页面,在”当前页面的解析参数”选择”Multi Columns”选项, 点击”Apply to all Pages”按钮。

8. 表格的处理。
表格的处理有两种方式,第一种是像矢量图表,数学公式一样转换成图片输出,第二种是转换成真正的html标记的表格。如果表格格式比较简单,可以用第二种方式,操作方法是,先选中表格的所有元素,右击鼠标弹出菜单,选择”to Table”.如下图:

如果表格的格式,比较复杂,如有很多的合并单元格,可以用第一方式输出。可以通过预览查看输出的结果,以确定选择哪种方法。

现在所有的设置都完成了。点击“OK” 按钮。

软件进入第四个界面。软件开始转换PDF文档,该界面显示当前的转换进度。

转换完成,软件自动进入第五个界面。

如果是Pro version, 软件还有最后一步,就是编辑输出的epub文件。选择文件名,点击”Edit”。弹出编辑软件,你可以编辑修改任何内容,包括toc, ncx, html代码。如果你对epub格式不是很熟悉,建议不要去修改它。

最后一步,点击”Output Folder:”下面的链接,打开输出文件夹,你可以看到最终输出的epub文件。

(来源:http://www.pdf-epub-converter.com )







  1. 博主是生物系的吗?专业性很强。生物系的还自己开博客,代码还可以,马马虎虎

填写您的邮件地址,订阅我们的精彩内容:

分类看

拿福能