最近找論文資料常常會下載一堆相關題目的pdf檔然後慢慢消化,不過這樣實在是很浪費時間,所以週末就想說寫一隻程式搜尋資料夾中所有pdf,然後給它關鍵詞,最後能夠顯示這些關鍵詞在哪幾篇pdf的第幾頁中,如此一來就省事多了。
python的好處就是擴充套件多如過江之鯽,當然光pdf就好多個,這裡挑選的是PyPdf.
安裝完成之後先以取出內容文字為主寫出一段程式測試,測試pdf為中文big5編碼,但除了標題encode("big5")能夠正常顯示中文外,內容卻是一片亂碼,於是把每段文字拆解成char再使用hex code列印出來...
0xb8 0xea ... 這不是big5的"資"嗎?表示編碼是正確的阿!為何print就是有錯誤?
於是我使用一個範例字串 zh = "\xb8\xea" ,print出來是"資"沒錯,但 u"\xb8\xea" 加上unicode就會和上面呈現一模一樣的亂碼。原來PyPdf中PageObject extractText()會將所有內容編碼成unicode,所以我們要把unicode反解回來 str.encode('latin-1') ,嗯正常了^^。
#!/usr/local/bin/python # -*- coding: utf-8 -*- from pyPdf import PdfFileReader input = PdfFileReader(file("infosafe.pdf", "rb")) # Show title from this pdf. print input.getDocumentInfo().title.encode("big5") # Total pages. pages = input.getNumPages() # Loop to print content. for i in range(0, pages): pageObj = input.getPage(i) str = pageObj.extractText() # The extracted text has been set to unicode, therefore, we should transfer it's format to the normal 'latin-1'. print str.encode('latin-1') """ # Print hex code. for j in range(0, len(str)): print hex(ord(str[j])) break """ """ # This is an example. zh = u"\xb8\xea".encode('latin-1') print type(zh) print zh """