PDFからテキストを抽出

Macにおいて表題の通り。

■ 環境

  • poppler
  • Mac OSX El Capitan

■ Automator

Macの標準機能にある”Automator“でも可能であるが、単純にコマンドから実行したかったので調べていくと`poppler`というものに行き着いた。とりあえずインストールして動かしてみる。

$ brew install poppler

コマンドがいろいろインストールされたようである。

$ ls -l /usr/local/Cellar/poppler/0.48.0/bin/
total 1160
-r-xr-xr-x  1 withsin  admin   28656 10 26 19:20 pdfdetach
-r-xr-xr-x  1 withsin  admin   27492 10 26 19:20 pdffonts
-r-xr-xr-x  1 withsin  admin   49724 10 26 19:20 pdfimages
-r-xr-xr-x  1 withsin  admin   42380 10 26 19:20 pdfinfo
-r-xr-xr-x  1 withsin  admin   27136 10 26 19:20 pdfseparate
-r-xr-xr-x  1 withsin  admin  136044 10 26 19:20 pdftocairo
-r-xr-xr-x  1 withsin  admin   97344 10 26 19:20 pdftohtml
-r-xr-xr-x  1 withsin  admin   33968 10 26 19:20 pdftoppm
-r-xr-xr-x  1 withsin  admin   33972 10 26 19:20 pdftops
-r-xr-xr-x  1 withsin  admin   54260 10 26 19:20 pdftotext
-r-xr-xr-x  1 withsin  admin   39228 10 26 19:20 pdfunite
$

とりあえずこの中から`pdftotext`を試す。

$ pdftotext  test.pdf

実行すると同ディレクトリ内にファイル名は同じで拡張子が”.txt“のファイルが作成された。元のPDFファイル次第である気もするが、抽出内容はまぁ察しの通り程度。

以上。

Posted in: Mac | Tagged: