Esirn's Blog. Welcome and Goodbye.

PDF中手写字与识别字重叠

2019-10-18
Esirn

阅读:


前言

同学平时上课用iPad记笔记,考试之前导出为PDF发给我后,我用PDF打开,发现可以直接Ctrl+F搜索一些词语。一直不知道是怎么做到的,毕竟里面的字都是手写的,不是键盘敲进去的呀。

当我用“多看阅读”APP(v6.1.1.190928)打开这个PDF时,发现里面的手写字和系统标准字体的字密密麻麻的重叠在一起。于是我猜测,平时表面上看起来这个PDF里只有那些手写的字,但实际上还有一些类似图层的透明东西覆盖在上面,在那里面记录着笔记软件实时OCR出来的标准字。而平时用PC端WPS在PDF中拖拽鼠标选中的,并不是手写字的图片,而是一个个系统透明字。

如果选中那些透明字, Delete掉的话,也许可以解决手写字与识别字重叠的问题。

找到它们

使用PDF编辑软件(笔者用的Adobe Acrobat Pro DC)打开PDF文件,鼠标靠近手写字,会出现方框,其实框的不是手写字,而是透明字, 当鼠标成了编辑状态的形状时点击一下,然后Ctrl+A就会选中这个框内的所有透明字,然后Ctrl+B使字体加粗,就发现他们了。此时按键Delete,就会删掉他们了。

删掉它们

按照前面所说一个框一个框删会很繁琐,但是直接在全局Ctrl+A再删的话会把所有内容全删掉。所以就要用软件的功能了:点击右边的“保护”,然后在顶部点击“删除隐藏信息”,Acrobat会先扫描出所有的隐藏信息,此时取消勾选“元数据”,把剩下的都删掉,另存为一个PDF文件即可。

文字不会重叠了,因为已经没有第二层文字了。代价是,不好搜索了。

参考资料


Comments

Content