第1步:打印為圖像文件
使用Adobe Reader打開相關(guān)的PDF文檔,從“文件”菜單下執(zhí)行“打印”命令,此時(shí)會(huì)彈出“打印”對(duì)話框,由于一般情況默認(rèn)的打印機(jī)大多為真實(shí)的物理打印機(jī)而非虛擬打印機(jī),因此請(qǐng)從“打印機(jī)”下拉列表框中選擇“Microsoft Office Document Imaging Writer”,然后單擊“確認(rèn)”按鈕,確認(rèn)后即可將PDF文檔輸出為TIFF格式的圖像文件,如圖1。
圖1 打印文檔
第2步:讀取圖像文件
運(yùn)行Microsoft Office Document Imaging,這個(gè)組件可以從Office程序組的“Office工具”子程序組下找到,打開剛才所打印的圖像文件,選擇“工具→將文本發(fā)送到Word”的命令,此時(shí)會(huì)彈出圖2所示對(duì)話框,如果你不需要更改輸出文件夾,那么直接單擊“確定”按鈕,此時(shí)會(huì)提示“必須在執(zhí)行此操作前重新運(yùn)行OCR。這可能需要一些時(shí)間”,確認(rèn)后即可開始轉(zhuǎn)換操作。
圖2 將文本發(fā)送到Word
稍等片刻,轉(zhuǎn)換完成后,系統(tǒng)會(huì)自動(dòng)打開Word窗口并顯示從PDF文檔轉(zhuǎn)換而來(lái)的文檔內(nèi)容(見圖3),不過(guò)如果PDF文檔比較復(fù)雜的話,某些內(nèi)容例如圖像、表格可能顯示的不太完美。
圖3 PDF文檔轉(zhuǎn)換而來(lái)的文檔內(nèi)容
如果你只是需要獲得PDF文檔中的文字內(nèi)容,那么操作是非常簡(jiǎn)單的,首先使用Adobe Reader打開相關(guān)的PDF文檔,然后從“文件”菜單下執(zhí)行“另存為文本”的命令,在隨之彈出的對(duì)話框中指定保存路徑和文件名,確認(rèn)后需要稍等片刻,保存時(shí)間取決于當(dāng)前文檔的頁(yè)碼),我們很快就可以獲得一份完整的文本文件,至于原文檔中的圖像內(nèi)容,就只能另想它法了。
新聞熱點(diǎn)
疑難解答