在制作《信息系统项目管理师教程》(第4版)扫描版 PDF 的时候,需要给它添加一个多级目录书签,以便阅读时方便定位。如果完全手动操作的话,工作量会很大(目录内容有 500 多行),这时候就又可以用 Emeditor 来帮忙了。
目录内容可以通过 OCR PDF 页面来获得,但效率慢。更省事的办法是到网上书店(比如“京东”)找到该书的商品页面,直接复制其中的目录文字(下图箭头所指):

不过,要制作多级目录书签,还得在目录文本中加上一些制表符(上图绿框内的右箭头就是制表符)。但最大的问题不是这个,而是其中的页码与 PDF 文件的页面对不上。
比如,目录文本中的第1章的页码是1,而在实际的 PDF 文件中则是第15页(因为前面还有封面页、书名页、版权页、前言页和目录页等内容)。经过观察发现,目录文本中的页码都比实际页面少14。换句话说,要把目录文本中的所有页码都加上14,才能和实际页面相符(如下图):
其中,“查找”内容 (?<=t)d+?$ 的含义是找到位于行尾并且紧跟在制表符后面的数字;“替换为”内容 J +14 是使用了 Emeditor 的 J 模式——可以使用编程语言 JavaScript 的语法, 指代前面查找的内容,+14 是让找到的数字加上 14。
综上所述,整个查找、替换内容的含义是:找到位于行尾并且紧跟在制表符后面的数字(即页码),然后给它们分别加上 14。
本例前面介绍的 Emeditor 方法通用性更强,只要文本中涉及到数字的计算,都可以使用。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/272135.html