PDF文本翻譯中表格處理的方法比較

        發(fā)布時間:2018-07-05 來源: 感恩親情 點(diǎn)擊:


          【摘 要】筆者匯總多次表格翻譯時可能使用的工具和方法,通過近期PDF書籍翻譯時遇到的批量表格為例,對從簡單原始操作到利用工具手動編輯繪制(不考慮CAT軟件在表格翻譯上可發(fā)揮的最佳效果)加以說明。筆者希望不負(fù)此前在表格翻譯處理上所耗時間,利用該文總結(jié)對比所列方式,以期今后翻譯遇到各式表格時能較快選擇最適方案,使翻譯之外的處理效率最大化。
          【關(guān)鍵詞】表格翻譯;PDF文件;轉(zhuǎn)換;排版
          中圖分類號:H159 文獻(xiàn)標(biāo)志碼:A 文章編號:11007-0125(2018)15-0226-02
          (一)試想無軟件輔助下會如何解決表格問題?第一,在word內(nèi)新建表格手動錄入數(shù)據(jù);第二,若表格可選且光標(biāo)滑動有序(圖1),直接在pdf內(nèi)復(fù)制表格選擇性粘貼到word,后利用word“文本轉(zhuǎn)表格”一鍵搞定;第三,word13等版本直接轉(zhuǎn)換打開pdf,后批量替換更改;第四,復(fù)制圖2表格到word,選中“顯示標(biāo)記”按鈕(各版本word中樣式不一,但均位于“段落”框)得到含格式標(biāo)記的文本(標(biāo)記高亮如圖3),識別真空格(如Type和of中間)和制表符(^t,如data和50中間),利用替換功能自填制表符,最后“文本轉(zhuǎn)換為表格”(注意此處選“制表符)得圖4。上述操作處理單張表格時確有優(yōu)點(diǎn)。
          以下借助工具批量處理左圖5表格樣式。圖中可知各行列非等距,還應(yīng)照顧頁眉頁腳和表格倒置的版面。考慮到格式特殊性和后續(xù)批量替換翻譯等問題,先將含表格的頁面單獨(dú)提取成獨(dú)立pdf(避免整體文檔轉(zhuǎn)換時僅表格頁錯亂)。以下為表格處理時可能出現(xiàn)問題的階段及基于各個工具的產(chǎn)出效果:
         。ㄒ唬┲苯永肞DF軟件或在線工具實現(xiàn)pdf轉(zhuǎn)excel表格(處理簡單表格時也可直接復(fù)制粘貼后微調(diào))。優(yōu)點(diǎn):避免復(fù)雜表格轉(zhuǎn)為word時因頁面內(nèi)除表格外因素而造成的紊亂;缺點(diǎn):需重新制作頁眉、頁腳和角注等要素。
         。ǘ┩ㄒ唬⿲崿F(xiàn)pdf轉(zhuǎn)word文檔(優(yōu)缺點(diǎn)與(一)中相反,另可免去下文操作(三))
          A.Nitro Pro 9
          轉(zhuǎn)為excel識別率高,缺點(diǎn)是無法識別不齊整的表格數(shù)據(jù),如單列有多層的標(biāo)題欄(下圖6,上下分別為原圖和識別圖)是此次表格處理的難點(diǎn)和特殊性;縱列數(shù)據(jù)偏移。轉(zhuǎn)為word可直接使用(除標(biāo)題欄稍偏移外)。
          B.Adobe Acrobat X Pro
          轉(zhuǎn)為excel標(biāo)題欄效果差。轉(zhuǎn)為word需微調(diào)但不影響直接使用。
          C.ABBYYFineReader 12 Corporate,或有每日上傳上限的在線免費(fèi)版http://ocr.abbyy.cn/
          內(nèi)容上無法識別符號如箭頭;i與1之間識別度低;無法識別。轉(zhuǎn)為word時最嚴(yán)重的問題還是與下文的DE問題類似,只是反應(yīng)在硬回車上;轉(zhuǎn)為excel時數(shù)據(jù)不齊整、單元格邊框不匹配、遺漏分割等美觀問題。盡管問題不乏,但我們必須熟知ABBYY與眾不同的優(yōu)點(diǎn):1.處理掃描版格式時,該軟件OCR(光學(xué)字符識別)功能的高識別度不容置疑;2.處理更加復(fù)雜圖表時,可根據(jù)提示的疑似錯誤字符直接以對照模式修改,方便直觀;3.可自動按照識別類型(表格、文本、背景圖片等)手動調(diào)整識別區(qū)域,提高生成率。
          D.cloudconvert(免費(fèi))
          僅支持轉(zhuǎn)為word,識別準(zhǔn)確率和結(jié)構(gòu)上都較為匹配,但識別規(guī)則可能僅依從源表的排列模式,對于需合并但分行的信息之間仍存在軟回車,這對后續(xù)批量替換翻譯極為不利。
          E、smallpdf(免費(fèi))
          轉(zhuǎn)為excel時按照表格數(shù)量會自動生成多個工作簿,增加了合并工作簿的操作(使用VBA功能或第三方工具);轉(zhuǎn)為word時頁面效果優(yōu)于cloudconvert,但存在相同問題。
          F.桌面出版(DTP)軟件Adobe Illustrator
          打開翻譯pdf的表格所在頁,利用直接編輯功能(Nitro和acrobat也可不同程度直接編輯)和無法編輯部分重新制作的優(yōu)勢,變更和繪制(注意pdf待譯和譯出字體的間距傾斜加粗等系列問題),完成后保存為EPS(Encapsulated PostScript)格式,便可直接插入word中使用。缺點(diǎn)顯然易見,即處理的精細(xì)度與批量的沖突,一次只可編輯一張表格,所以僅在表格極為復(fù)雜且格式非單一時可考慮使用。按此流程處理則不再僅限于文本翻譯,可歸為本地化。
          (三)表格翻譯在excel中完成后插入word
          少量表格時,復(fù)制粘貼需要注意空格會以方框樣式呈現(xiàn),手動一次性替換即可;或可將excel另存為網(wǎng)頁格式,后打開方式選word即可。
         。ㄋ模┡c表格翻譯相關(guān)含分節(jié)符或分欄符的格式文本
          分節(jié)符本是為了強(qiáng)制中斷前文格式而改成所需格式,該優(yōu)點(diǎn)在處理文檔翻譯時卻搖身成了麻煩。所以此類格式文本的問題是各欄文本間距可調(diào)以及底部文本連續(xù)性,如照此也利用分節(jié)符或分欄符,可能又需要更改適應(yīng)的中文字體、行距等,且任何更改可謂牽一發(fā)而動全身(使用頻率最高的是“下一頁”分節(jié)符)。而我建議重新創(chuàng)建表格,利用表格約束文本布局,使其錯落有致。
          鑒于筆者遇到表格翻譯的次數(shù)及樣式種類有限,以上總結(jié)均非具普遍性,僅作自身和其他譯員的參考,期望得到指正與建議。此外,仍有未嘗試的各類方法待筆者學(xué)習(xí),如Kutools for Excel對于重新排列直接粘貼性表格數(shù)據(jù)的作用,其他含OCR功能的軟件如onenote等。更者,CAT工具處理各類表格的能力及為此所需做的導(dǎo)入前表格處理準(zhǔn)備。筆者在此愿翻譯市場上優(yōu)秀軟件的完善和興起,更望譯者不止于翻譯,能為自己營建更高效的翻譯環(huán)境。
          參考文獻(xiàn):
          [1]陳永杰,邢寶山,張祥合,李桃.利用Adobe Acrobat7.0實現(xiàn)PDF格式文件的轉(zhuǎn)換[J].編輯學(xué)報,2006.
          [2]于曉燕.把PDF文檔應(yīng)用于電子排版領(lǐng)域[J].自動化技術(shù)與應(yīng)用,2005.
          [3]田玲. Word表格文件轉(zhuǎn)換成Excel表格文件中的“選擇性粘貼”命令應(yīng)用研究[J].計算機(jī)光盤軟件與應(yīng)用,2014.

        相關(guān)熱詞搜索:表格 文本 翻譯 方法 PDF

        版權(quán)所有 蒲公英文摘 www.zuancaijixie.com
        91啦在线播放,特级一级全黄毛片免费,国产中文一区,亚洲国产一成人久久精品