今日は某ボランティア団体の会報のバックナンバーをネットで公開するため、スキャンしたファイルと格闘中です。
昔(約20年前)の会報だと役員名簿などが含まれていたりして、個人情報に配慮されていなかったりします。なので、マスキング(墨消し)作業が必須になります。
ところが、ScanSnap S1500に付属のAdobe Acrobat 9 StandardにはPDFファイルの墨消し機能が無いらしいです。(以下のサイト参照)
PDFのマスキング(墨消し)
> 墨消ししたいところはイメージデータで消して再作成する
> くらいしか無いかと思います。
なので、少々手間がかかるけど墨消しする方法をメモしておきます。
おおざっぱな流れとして、、、
1.PDFファイルの中の墨消ししたい部分を長方形ツールなどで隠す。
2.PDFファイルをページ単位にJPEGなどの画像ファイルに分割する。
3.画像ファイルを結合して再度PDFファイルにする。
4.OCRテキスト認識をかける。
こんな感じになります。(ちなみに4はオプションです。透明テキスト付きPDFにしたい方は実行してください。)
細かい手順は省略しますが、操作自体はそれほど難しくないです。
難点は、ファイルサイズが大きくなることです。ScanSnapでスキャンしたPDFファイルの2~5倍ぐらいになりました。まあ、2MBが10MBになってもファイル数がそれほど多くないので、それほど気にはならないです。
0 件のコメント:
コメントを投稿