当原始文本一旦转换成了PDF格式,PDF就不能更改了。假如PDF文件被设置成“无法截取”或是“不能打印”,那么要提取PDF文档里面的文本,只能是先把PDF转换成图像格式,再进行 oCR(optical character recognition)的光学文字识别才可以把里面的文字提取出来放到类似于Word的文本软件里面进行更改。不过,这么做,你只能提取出文字;所有文字的大小,颜色,和排版都会丢失的。 你需要先用Adobe aCRobat软件把PDF的文件储存为图像格式,然后用oCR软件。对文本资料进行扫描,然后对扫描图像进行分析处理,获取文字及版面信息的提取过程。就好像把报纸放入扫描仪,变成一个jpg的影像图片格式,oCR可以透过光学字符识别科技把报纸上的字完全的提取出来,储存成一个可以让你更改文字的txt格式。这样,你就不需要把报纸的每一个字一个一个的打出来。节省很多的时间。oCR的文字识别准确度可以在95%,不过这个需要看扫描原件的质量和清晰度。 现在较通用的oCR软件识别汉字的有尚书七号、汉王文本王3、清华紫光文通9。现在较通用的oCR软件识别英语的有scansoft、textBrIDge、omnipage和PResto。 假如PDF文档本身没有任何的权限限制,另一个方法是用Adobe aCRobat Professional的版本把PDF格式另储存为rtf(rich text Format)的格式。rtf格式可以保留文字的大小和颜色,但是无法保留PDF的里面排版。不过在储存的时候,aCRobat也会一并把图像存到rtf文件里面,要比上面说的oCR方法方便很多。然后你可以用Word开启rtf格式的文件,在储存为doc格式就可以了。 下面两款软件也可以透过oCR的方式将PDF转换成文本格式,你可以试试看:1)汉王 PDF oCR (简体中文版) v 8/hanwang/online/oCR80/hw_PDF_oCR_80.cn/down.PHP?softID=29304&SUbcatID=53&site=7b&server=7b4 【杰夫转载声明】本人在问问网站上的回答是个人在电脑硬件和软件的经验和各自厂家官方网上收集到的咨询亲手编写。大家都是互相帮忙,互相解决问题,我不介意你们转载我的答案,不过希望能够尊重我的劳苦,转载我的回答请注明信息来源,谢谢。