我们都知道,很多书是先有纸质版,然后有热心的人把它用扫描仪扫描成了一页页图片,然后从一页页图片转成了PDF文档。这类PDF虽然能用PDF阅读器打开用人眼阅读,但是当你想尝试选中其中的文字时,你发现无论如何都无法选中。有些人不理解,那么当你用电脑打开这篇文章,然后尝试选中下面这张图片上的文字并把它修改为“宋体”字。你试试看是否能够完成。
看下图,有时候当你打开一篇PDF文章或书籍,你看不出这本书是扫描版,但是你使用文本工具无论如何都无法选中其中的文字。为什么会出现这种情况呢?
假设我撰写了一个文档,我发布了它的PDF版本,但是我突然想到如果谁得到我的文档,他们可以很容易的从我的文档上复制走其中的文字,这岂不是便宜他们了?我只想让他们用眼睛看,不希望他们轻松的复制走上面的文字。那么怎么办?有两种方法。
方法一:我把这个文档先转换成一页页的图片,转成图片后图片上的文字就无法选中了,然后再从图片转换成PDF文档。这种PDF文档中的文字就无法直接选中了,因为其中一页一页其实都是图片。你是否想过用鼠标直接复制下图中的文字?不容易吧?
方法二:将文字转换成形状。
我们都知道同样是两个字“你好”,你可以通过输入法输入“你好”,你也可以完全通过绘画工具一笔一笔绘制出“你好”的样子出来。对于人眼来说看到的都是“你好”,但后者是无法选中的。在某些排版软件中把文字转换成形状又叫做“文字转曲”或者“创建轮廓”。排版软件中创造这种功能的目的是为了防止制作的文件在对方电脑中打开时如果对方没有某种特点字体导致文字显示错乱。
有时候我们制作的文档为了避免阅读者能轻易的复制其中的文字,我们也时常在发布文档之前把里面所有的文字转换成形状。这样阅读者就无法选中其中的文字了。
你遇到的无法选中文字的PDF属于上面两类
要么是图片格式的PDF(纯粹的影印版书籍或者先转成图片,然后从图片制作而成的PDF);要么是文字已经转换成形状的PDF。
截图或拍照翻译不是好方法
虽然目前大部分手机或者手机上的很多app都可以拍照后直接识别图片上的文字并给予翻译,但是面对一个几十页的PDF或几百页的PDF书籍,这绝对不是一个好方法。
ocr转换才是推荐的方法
下图是百度百科中关于OCR的解释。用途十分广泛。所谓OCR通俗的说就是根据图形的外观来判断出它是什么文字。
我相信你都知道只要你开车进入一个停车场,它就直接报出你的车牌号了。因为摄像头对拍摄到的图片进行分析,识别出了其中的文字。这就是OCR的一种使用。
图片来源于网络
OCR应用最广的当然就是识别扫描版本的书籍,通过OCR软件分析画面,软件会识别出其中一个个文字,并把文字转换成标准文字的编码。
图片来源于网络
OCR软件是我们科研人员都需要知道的
OCR软件能把扫描的书(图片或PDF格式)、图片格式的书(图片或PDF格式)转换成文字型。OCR软件并非某个特定软件的名称,而是指一类软件。比如办公软件不是某个软件,而是某类软件,同样的道理。word、wps属于办公软件。OCR软件有很多,小编最推荐的是下面两款软件。两款软件所使用的OCR内核都是abbyy的,转换质量(失败准确率)都是数一数二的。
下面这款软件就是PDF x-change,网上能找到的版本分别是PDF-XChange Editor和PDF-XChange Pro,两者均可。PDF-XChange是一款加拿大公司出品的PDF阅读、注释、编辑和OCR功能于一体的软件。推荐使用9.2版,不推荐使用9.3版。9.3版一味提高转换速度,导致需要元素OCR过程不充分。这款软件默认不带中文文档的识别,但是可以自己添加对中文文档的识别,但是中文文档的识别准确率不如万兴OCR。因为PDF-XChange识别的中文文档中会添加很多空格。
下面这款软件是万兴PDF专业版。万兴PDF专业版,是一款国产的PDF阅读、注释、编辑和OCR功能于一体的软件。优点是中文和英文文档OCR都很优秀。缺点是转换速度相比PDF xchange稍慢。
OCR转换速度对比
下面这个PDF有542页。我们分别在同一个电脑中进行转换,并计时。同时电脑上虽然有其他软件开启,但是都是静止状态。两个OCR软件不是同时开启,而是一个转换完成,再转换另外一个。小编已经测试过很多很多次。先后顺序对时间影响几乎没有。测试的PDF xchange版本:9.2.359。万兴OCR专业版版本:8.4.12。
PDF xchange转换完成的时间是4分22秒左右。
下面是完整测试录屏
万兴ocr专业版转换完成时间时候10分36秒左右。
下面是完整测试录屏
软件选用建议:
大部人最经常阅读是的英文文献或英文书籍,如果是中文书籍一般不需要选择其中的文字,因此大部分情况下建议使用PDF x-change。如果你需要使用到中文文档的OCR,我建议使用万兴PDF专业版。
PDF x-change进行OCR转换的方法只需要看下面这张图片即可。尤其注意的是要去掉忽略页面中存在的文本的勾。下图中凡是框选的部分需要注意。其他保持默认即可。对于大部分文献来说,页数一般都在20页以内,转换时间也就是几秒钟到十几秒的事情。
万兴OCR专业版进行文档OCR识别转换的方法只需要看下图即可。如果你转换的文档是中文的,建议勾选语言中的English和简体中文。
转换完毕的PDF文档你可以单独保存,并用其他PDF阅读器打开阅读均可。这时你就发现其中的文字都可以选中了。
除了无法选中文字的PDF需要进行ocr转换之外,你还经常遇到很多其他千奇百怪的情况,比如复制的文字都是?和乱码之类,这类PDF也需要通过OCR转换之后才能正常选中文字进行翻译的哦。
由于传播盗版是不合理的,因此为了版权问题,我们这里就不给大家提供软件了。如果大家有需要可以自己网上去寻找。