由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
PDA版 - [原创][希望置顶]为Eink阅读器处理txt,pdf电子书
相关主题
[合集] [原创]为Eink阅读器处理txt,pdf电子书pdf c++ or python library (转载)
calibre传书进sony950后机器假死???最好的PDF电子阅读器是什么?
怎么给pdf裁边?制作电子书:怎样删除多余的回车换行符?
请版友们慎入Kindle DX !!!!!!!!!!!!!!!Kindle DXG看PDF书还是不错的
Kindle DX看扫描版的pdf如何?关于看扫描 PDF 电子书的 Device (转载)
自荐一下,关于处理pdf用于e ink reader阅读的一些文章谁有pdflrf 0.99的命名行版?
Kindle看pdf字体的问题发现一个软件可以转pdf到kindle2
看pdf可是买不起kindle dx的人求教kindle 2还是dx 怎么选择?
相关话题的讨论汇总
话题: pdf话题: 字体话题: txt话题: 阅读器话题: 页面
进入PDA版参与讨论
1 (共1页)
d******c
发帖数: 2407
1
发一个总结贴,尽量包括处理txt,pdf然后在E ink reader上阅读的各种问题。希望版主置顶。
有些内容更详细的讨论在hi pda论坛 eink版,可以搜索我的帖子(draco)
txt或其他可转化成txt格式的电子书(如没有图表的word,另存为txt后格式正常的文
字版pdf等),在6寸阅读器上阅读效果很好。不过最好还是把txt转换成其他电子书格
式。
前提:以文本为主,没有图片,表格,或者因为图表极少可以在看书时对比一次即可,
主体内容只用文本。
txt能包括相当多书的主要内容,相比其他电子书格式排版上当然是极度简化
的,但是能应付许多情况,做起来比较快速。排版精美的电子书不可能很快做出来,而
别人做好的排版好的电子书却不一定符合你的口味,比如字体,版式,颜色,甚至其格
式在你的阅读器上无法使用。这时不如转回txt,然后自行排版,然后按自己习惯的字
体和排版方式制作电子书。
对于主流的6寸阅读器来说,看扫描版pdf比较困难,还是看文本内容为主。
书源:html,txt,word, chm, exe电子书,文本pdf
html转txt,推荐使用TextForever,以及eTextcov。我习惯用后者转换一般的
html,合并txt,txt排版。但对于utf编码的html,以及某些比较复杂的html可能需要
用TextForever。
word可以另存为txt。chm可以反编译成html,再把html转成txt。
chm可以反编译成html
exe电子书可以用老马的miniKillEBook反编译成html或txt
文本pdf可以另存为txt,但成功率不高,因为不少pdf制作不规范,那时就只
能另外寻找书源了。实际上网上不少文本pdf就是网友自己从txt内容制作出来的,但是
往往字体过小,一页文字过多,在阅读器上根本无法阅读。如果另存成功之后,可能有
页眉页脚页码干扰,其实可以在另存之前裁边,裁掉页眉页脚自然就容易一些。最后还
可以用支持正则表达式的编辑器进行查找替换去除干扰内容。
文本排版我推荐eTextcov.
epub
Sony,nook等阅读器支持epub,往往也可以在阅读器上放一个中文字体,那么
epub就不需要嵌入字体,体积较小。虽然epub支持各种复杂的排版方式,但对于txt我
们可以只用最简单的格式,用easypub软件转换就很方便。
easypub支持封面图,指定字体位置(指定字体文件在阅读器上的路径,直接
使用这个字体来阅读),设定字体大小,行距等参数,存好设置后拖动txt文件即可一
键转换。还可以利用正则表达式识别章节生成目录。
www.hi-pda.com/forum/viewthread.php?tid=645717
pdf
kindle原系统不支持epub,这时可以用我写的PDF4Eink,转换txt为专门为阅
读器屏幕优化的pdf。也就是pdf的页面比例完全与屏幕比例一致,自行指定字体(因为
是嵌入字体,可以使用任何喜欢的字体,无需阅读器作任何修改),字号,排版格式等
等。
http://www.hi-pda.com/forum/viewthread.php?tid=783685
d******c
发帖数: 2407
2
许多电子书是pdf格式,但是直接放到Eink阅读器上会有各种各样的问题。好在绝大部
分问题是可以处理的。
文本pdf,即非扫描版可能遇到的问题

·字体未嵌入,导致内容是空白或问号或者不全。
重新打印到pdf,并选择嵌入字体。最好用acrobat,也可以用foxit或其他工
具。我认为acrobat的功能是无可代替的,因此主要讲使用acrobat时的操作。
点击File->Print..., Printer Name(打印机名)选择Adobe PDF
Page Scaling(页面调整?)选择Fit to Printable Area(自动适合打印区域?
),选中Auto-Rotate and Center(自动旋转和居中)
有的文章建议选择Choose paper source by PDF page size(根据原文档选择
打印尺寸?),但据我的经验,有的源文件已经过于贴边,似乎在有边界时容易出错,
无法完成。因此还是建议使用固定的页面大小。缺省的页面A4可能太大,可以试试B5.
有的书页面太小,还可以自定义一个更合适的页面大小。
edit pdf settings, always embed.
点击打印机名边上的Properties(属性)按钮。将“Rely on system fonts
only; do not use documents fonts”(只依赖系统字体;不使用文档字体)的选中状
态设置为“否”。
然后再点击Layout(布局)页,点击Advanced...(高级设置)按钮。将
TrueType Font的属性改成Download as Softfont(下载为软字体)。--这一点是否必
须,我不太清楚。
此外还有一种办法是将文件另存为PDF/A,在more options里,这样可能操作
更简单一些。
·目录导入
在前面的操作中,因为重新打印会造成目录丢失。可以使用freepic2pdf导出
原文件的目录,再导入到新文件内。
也可以用PDFPatcher PDF补丁丁,这个软件功能很强大,不过操作有时不太直
观。
把原文件加入“处理/制作pdf文件”中,设定信息文件导出路径。
信息文件选项,只导出书签,只导入书签。(以免因为打印而改变页面大小后
,新旧文件的页面布局不一致)
先导出信息文件,然后把新文件加入列表,生成pdf文件。
·找不到的字体
有些不规范pdf的字体未嵌入,acrobat没有找到合适的系统字体替换,就显示
为黑点符号。这时重新打印嵌入字体自然也不会解决问题。
最彻底的办法是找到这个字体并安装到系统上,然后重新打印嵌入字体。用
acrobat可以查看文档信息中的字体,看哪些没有被嵌入,搜索这种字体名字,往往是
能找到的。
如果字体实在找不到,还有一个方法是我忽然想到的,既然acrobat找不到字
体,就做一个这个字体。把其他字体用fontcreator naming功能改成需要的字体名,然
后安装到系统内,就能显示了。需要注意:
1.可能需要多个字体副本。
2.不同的字体可能编码方式不同,以至于换了字体后显示的是错字。需要从字体名去推
断。
·放到阅读器上时可做的优化
裁边,在扫描版pdf中有更详细的讲解。
去除背景色。有的文本pdf有背景色,这样在阅读器上显示时会闪好几次,非
常不舒服。经过各种摸索,最后发现最好的办法还是用pdflrf处理,参考扫描版pdf部
分。
转换其他格式。如果是英文版pdf,往往可以转成html而效果损失不大。最好
用的软件可能是Mobipocket Creator(比acrobat的另存好用),可以免费下载,用其
import pdf,然后存成html,几乎能保留主要的排版信息。然后可以用calibre把html
转成epub或mobi,仍然保留主要的字体或格式,却可以自动重排和调整字体大小了。
d******c
发帖数: 2407
3
扫描pdf的处理
·裁边
电子书一般有页眉页脚,但阅读器屏幕空间有限,我会裁掉页眉页脚和边缘的
装饰,只留正文内容。
acrobat裁边速度很快,但是无法预览裁边的效果。推荐使用foxit phantom。
选择crop功能,把页面范围改成all pages,如果奇偶页页面位置不同,就需要分别针
对奇偶页裁边,选择odd或even pages,然后调整裁剪框。调整完之后拖动滚动条可以
看到这个裁剪框在其他页的效果,要保证不要裁到正文。
还有一个软件是Briss。Briss能够把pdf的页面重叠在一起显示,这样可以直
观地划出比较合适的裁剪框,然后其裁剪是彻底裁掉框外的内容,而不像acrobat或
foxit phantom那样只是画一个crop box而实际内容都保留,因此用briss要小心,保留
原版文件以免裁掉了内容没法恢复。
有网友进一步修改了Briss(搜索佛惹事的帖子),增强了其功能,可以做到
智能裁边,也就是在裁剪框的基础之上自动判断,贴着内容裁掉多余白边,这样对于页
面位置前后不一的pdf特别有用。以前对于这种pdf,要么就只能一点点分段裁,要么就
只能用一个较大的裁剪框,留下很多白边。有了修改版Briss,就能够用程序自己判断
了。它还能一定程度上排除白边上黑点或污迹的干扰,如果有时还是没排除全部干扰,
可以试试在default setting里把accruancy改大一些。
修改版briss处理的好的话,会比在phantom里反复调整实验方便很多,效果也
更好,需要的干预要少得多。
还有一个情况,就是有些pdf其实奇偶页的位置本来是相对稳定的,比如奇数
页都偏左,偶数页都偏右,但是被人删除了某些过渡页面,或者丢失了某些页面,导致
书的奇偶页和pdf的奇偶页不完全对应,体现在裁边上也会变成即使分了奇数页,也在
奇数页内一会儿偏左一会儿偏右。这种情况就找到书中页码和pdf页码不对应的地方(
可以用acrobat numbering page的功能重新定义逻辑页码,让pdf页码和书中页码一致
,这样很容易找到从哪里开始页码不再对应),在丢失页面的地方插入空白页,就会让
奇偶页的位置重新变得一致,裁边就方便多了。
某些扫描pdf,在crop时能看见preview里有很多横线。若转成图片或用pdflrf
处理,都能看见,在kindle里也能看见。
应该是来自djvu转换pdf的问题,横线是很多横向切片的图片拼接成页面的边界。
pdfpatcher提取图片功能专门有合并页面的选项,用它把pdf图片提取出来,
再用freepic2pdf合并回去就好了。
·减小体积,调节页面效果
见过的电子书多了,就能根据电子书的清晰度估计其应有的体积。如果某pdf
的体积相比其清晰度过大,一般是分辨率和色彩过高,可以大大缩小体积而基本不影响
质量。
1.提取图像。建议使用pdfpatcher。
2.分辨率调整。可以用各种图像处理软件,或者Comic Enhancer Pro(CEP)
的缩放功能,按百分比计算,可以预览,可以批量处理。CEP还有许多其他功能,因此
可能可以在一个软件中完成多项操作。
3.减色。减色是减小体积效果最明显的。在CEP中选择其他,把“保持原样”
改为16级灰度或8级灰度,看看效果是否变化不大。我一般采用16级灰度。
如果同时页面还有颜色、背景上的瑕疵,可以用自动色阶,曲线调节等试试,
往往能提高图像的质量
4.各种参数调节完成之后,批量处理所有图片
5.用freepic2pdf把处理过的图片合并成pdf
·OCR提高显示效果
英文pdf通过OCR几乎总是可以提高显示质量,减少文件体积。建议采用
clearscan格式(在OCR的格式选项中)。
中文pdf经OCR采用clearscan有可能提高显示质量,前提是原页面足够清晰,
其字体与acrobat的自带字体形状相近。因为clearscan的原理是用已知字体的字形去补
充调整OCR后的文字显示,如果字体字形相近,其显示效果可以大大提高,尤其是原图
的字体足够清晰但过锐而有毛刺的情况,clearscan会更圆滑好看。
但是也有很多情况下clearscan的效果还不如原版,唯一的办法就是先只对当
前页OCR,比较一下效果。
中文pdf OCR采用clearscan很多时候文件体积反而要增大,可能因为带了太多
的字体信息。还有若pdf页数过多,OCR可能太慢或最后失去响应,建议500页以上的要
分段OCR,另外OCR之前备份原文件,因为OCR之后必须保存原文件,不能直接另存。
经过OCR之后的clearscan pdf有可能经pdflrf转换会出错,需要重新打印到
pdf一遍(和前面嵌入字体的重新打印操作相同),然后就不会有问题了。另外如果原
版足够清晰,其实直接用原版pdf进行pdflrf转换更方便,稍微加粗一下,效果可能已
经足够好了。
·pdflrf优化--参考我的帖子《再推荐pdflrf,破除6寸屏不能看扫描版的神话》
http://www.hi-pda.com/forum/viewthread.php?tid=503897
首先澄清,pdflrf不仅仅是生成lrf,可以生成png文件的zip。其很多功能目
前仍没有单一的软件能很好替代。
使用pdflrf的目的
1.转换文本pdf为图片形式。图片pdf在kindle里翻页速度快。若是版面复杂的
pdf翻页会很慢。
2.调整图片分辨率。当原图的分辨率高过kindle屏幕分辨率时,kindle会缩图
显示,但是这个缩图过程有瑕疵,比起同等条件下电脑的缩图效果会差很多。因此用
pdflrf调整图片分辨率与屏幕分辨率对应后,一方面显示速度会快,另一方面显示效果
会提高。
sony 505,T1的建议分辨率是584 x 754,因为有一些状态栏之类占去了部分
内容,不会是600 x 800.
Kindle DX的分辨率,据我的摸索,800 x 1160较好。因为直接按官方分辨率
尝试时,有些pdf的右侧边缘会显示不全,而pdf在电脑上右侧是完整的。按800 x 1160
的分辨率可以减少这种情况的发生。
3.页面的裁剪和拼接。这里的前提是先用前面提到的裁边工具裁边。由于pdf
的页面比例往往和阅读器屏幕页面比例不同,而大部分阅读器没有fit width功能,只
能一次显示一页,往往会有大片的空白,浪费了屏幕空间,让页面显示起来太小而难以
阅读。
pdflrf可以把所有页面前后拼接在一起,然后按屏幕比例切割,这样得到的
pdf每页都会占满屏幕。不用担心正文内容被一切两半,pdflrf尽量去避免这种情况,
一般不会发生,偶然有最后一行被切断的话,下一页这一行一定会重新显示。不过,如
果前面的裁边工作没有做好,扫描版的页面白边过多,左右歪斜的话,可能前后两页拼
在一起的痕迹会过于明显,上半部分偏左,下半部分偏右。但只要用好前面提到的修改
版briss的智能裁边,这种情况会很少发生。你也可以调整上下两页拼接时的间隔(
padding),可以一边预览一边调节,让拼接处尽量不明显。
实际上pdflrf本身也有智能裁边的功能,也能一定程度排除黑点污迹的干扰,
即crop sides。但我在使用修改版briss后不再使用这个功能,因为pdflrf裁后边缘是
一点白边都不留的,正好碰上kindle DX的右侧边缘丢掉一点的话,就会显示不全。
briss修改版的裁边会留几个像素,就不会有这个问题,因此前面用briss智能裁边之后
,就不用pdflrf的crop sides了。当然如果没有这个问题的话,你也可以不用briss而
直接用pdflrf自己的裁边功能。
最后,pdflrf的参数设置每次都要修改会比较繁琐,我用autoit3实现了保存
设置的操作。
http://www.hi-pda.com/forum/viewthread.php?tid=800193
1 (共1页)
进入PDA版参与讨论
相关主题
kindle 2还是dx 怎么选择?Kindle DX看扫描版的pdf如何?
kindle dxg显示图片不行?自荐一下,关于处理pdf用于e ink reader阅读的一些文章
狗胆预测:kindle 新一代卖得最火的是149的touch 3G版 (转载)Kindle看pdf字体的问题
Sony T1不错,不需要任何root和汉化,小总结看pdf可是买不起kindle dx的人求教
[合集] [原创]为Eink阅读器处理txt,pdf电子书pdf c++ or python library (转载)
calibre传书进sony950后机器假死???最好的PDF电子阅读器是什么?
怎么给pdf裁边?制作电子书:怎样删除多余的回车换行符?
请版友们慎入Kindle DX !!!!!!!!!!!!!!!Kindle DXG看PDF书还是不错的
相关话题的讨论汇总
话题: pdf话题: 字体话题: txt话题: 阅读器话题: 页面