2011年1月3日 – Talk Like Singing

年末年始を利用して“自炊”をはじめました。自炊とはいっても、料理のほうではなく、紙媒体としての書籍を電子媒体としての書籍に変換することですね。

我が家には文庫本を中心に300冊ほどあります。これまでにほとんど処分することがなかったので多いのです。古本屋さんに売ってもそんなに高くは買い取ってくれないし、そもそも万が一あるシーンを読みたくなったら…と考えると売れないのです。技術書もわりと多く、これらは尚更高くは買い取ってもらえません。

そういったことに加え、電子ブックリーダーとでも良いのでしょうか、ePUB形式やPDFが快適に読めて、日本語が扱える携帯端末が安く入手できる環境が整ってきたこともあります。これらにより、この年末年始を使って電子媒体化し、紙媒体は破棄して整理していきました。(厳密には現在進行形)

==準備するもの==
===ドキュメントスキャナ===
富士通 S1500(Windows), S1500M(Mac)

最初は既に家にあるフラットヘッドスキャナで済ませようと思ったのですが、情報収集しているうちにドキュメントスキャナがないと効率が悪すぎることが分かり、購入することに。

実際使ってみると便利で大満足です。あとはそれぞれの懐具合などとの相談になると思います。ドキュメントスキャナは S1500 一択のような気がします。電気屋さんで調べてみても、S1500 かこれらの下位モデルになると思います。一度にセットできる枚数や処理速度を鑑みると、S1500を買った方が後々後悔することもないと思います。

===裁断機===
PLUS PK-513L

ドキュメントスキャナを使用する場合は書籍を裁断する必要があります。この裁断機は結構高いですが、値段だけあって結構楽に裁断できます。カッターナイフで少しずつカットすることは考えられません。少数の書籍を裁断するならキンコーズを使用するのも良いと思います。

===ファイルに連番を付与するソフト===

最終的に保存するファイル形式をPDFとするならば、後述しますが1ページ1ファイルとするべきです。S1500は連番を振って保存しますが、目次や本文で番号を振りなおすなどしたい場合に必要になります。私はMacを使っており、Macで動作する “Shupapan” というソフトを使っています。もっ良いソフトがあるのかもしれませんが、こちらで必要十分でした。

===Acrobat===
S1500/S1500Mを購入した場合、Acrobatがバンドルされますので、新たに購入する必要はありません。

===PDF Scissors===
http://www.pdfscissors.com

余白を削除するソフトです。JAVAで動作するようになっていて、ネットを検索するとWindowsで動作しているという情報が確認できるのですが、Macでも問題なく動作しました。

===kdconv===
http://blogger.tempus.org/search/label/kdconv
https://github.com/n-miyo/kdconv

ソニーリーダーを含む各端末のサイズに最適化したPDFファイルを作成します。

==裁断について==
難しいところは何もありません。
ポイントをざっくりいうと、以下の数点になります。
* 分厚い書籍はカッターでノドの部分からカッターで切って分割する。
* ハードカバーは予め取り除く。
* PK-513Lの場合左側のメモリのある方に書籍を押し当て、切り口が直角になるようにする。
* 書籍本体とは別にカバーがある書籍はカバーを外してから裁断する。

==スキャンについて==
スキャンについてもポイントは数点。
* 書籍の上部からスキャナに通します。時間をケチって短辺からスキャナに通すと偶数ページと奇数ページとで天地が逆になります。ドキュメントの方向の自動補正も万能ではないので、面倒なことをしないほうが良ければ、上部からスキャナに通すべきでしょう。
* 解像度: 600dpi(スーパーファイン)
* 保存形式: jpeg

特に保存形式についてはjpeg形式で保存することをおすすめします。(KindleやiPadなどの環境ではどうなのかは分からないですが) ソニーリーダーを使う場合、“ClearScan”という技術を使用することができます。これにより、jpegファイルをPDFに埋め込む場合よりも格段にファイルサイズを小さくすることができます。

ただし問題があり、ClearScan形式に変換中にエラーが発生して変換にに失敗することがあります。失敗するとその時点で処理が停止するだけでなく、認識した結果が破棄されてしまうのです。PDF形式を選択することにより複数ページを認識させた場合にこの影響は甚大です。

そこで1ページ1ファイルとなるjpegファイルとします。

Acrobatは複数ファイルを変換する機能があり、1ファイル(=1ページ)の変換に失敗しても以降のファイルの変換を継続してくれます。

S1500/S1500Mでは一度におおよそ50枚のスキャンができます。あまり欲張らずに50枚程度までに抑える方が紙詰まりなどの心配が少なくなると思います。

スキャンが終わったら、読み取りの終了ボタンを押し、出てきたダイアログの一番左に表示されているフォルダアイコンを選択し、スキャンとしたファイルを保存します。

==ファイル名の変換==

ファイルに連番を付与するソフトを使うなどして適宜ファイル名を変更します。AcrobatでClearScan変換をバッチ処理する際、ファイルの並びはアルファベット順(厳密には)文字コード順にソートします。よって複数のファイル名を一度に変換できるツールを使用し、期待した順序になるようにファイル名が変換できるようにしておくのは必須とも言えます。

==PDFへの変換〜文字主体の場合==
文字が主体の場合、ソニーリーダーで見る場合にはClearScanが個人的には好みです。拡大して表示した場合でもギザギザになることがありません。

===jpeg画像単位でのClearScan===
AcrobatからClearScanによりPDF化します。あるいは文字認識により“透明テキスト”を埋め込んだPDFを作成しても良いと思います。この場合、スキャンしたデータはそのまま画像の埋め込みとなるようで、ファイルサイズもClearScanしたファイルよりも大きくなります。

===PDFファイルの結合===
Acrobatを使って結合します。私は試していないのですが、Macなら“プレビュー”で結合できるらしいですが、試したことがありません。

===余白の削除===
“PDF Scissors”を使って余白を削除します。ソニーリーダーを使う場合、PDFの表示はフォントサイズを変更することができず、拡大表示機能や余白カット機能も使い勝手が良くないので、リーダーに転送するPDFの余白を削除します。

最初と最終ページに“PDF Scissors”を使って変換した旨を示す文字列が表示されるので、必要に応じて加工してください。

** PDFへの変換〜イメージ主体の場合
イメージが主体の場合、ソニーリーダーのサイズ(600×800pixel)に合わせて縮小します。

===jpeg画像をPDFに変換する===
ClearScan形式にしても良いですが、サイズ調整する際に認識した文字情報が消えてしまうので、画像をPDFに変換します。PCから参照したりする場合はClearScanのほうが良いと思います。

===PDF Scissors により余白を削除===
kdconvにより余白を削除することもできますが、より厳密に削除したい場合はこちらで削除します。

===Reader用に変換===
kdconv を使って変換します。Mac向けに作られたシェルスクリプトになっています。Linuxでも動作しているようです。頑張ればWindows + Cygwinでも動作するような気がします。

$ kdconv -f sonyreader

でソニーリーダー用に最適化したPDFを生成します。また、余白を削除する場合は

$ kdconv -t -f sonyreader

とします。これにより、余白を削除してくれるとのことです。(私は -t オプションを使っていません)

私の環境だけかもしれませんが、注意点が2つ。1つ目は、中間ファイル(jpegファイル)がカレントディレクトリにできます。mktempがkdconvが期待するように動作していないのが原因と思われます。2つ目として、入力ファイルと出力ファイルのディレクトリ位置は異なっている必要があるという点。同じだと、出力ファイルに、入力ファイルそのままのものがくっついてきてしまいます。

これら2点が回避できればイメージ主体の変換はkdconvが非常に便利です。コマンドラインから実行できるのでバッチ処理が簡単にできます。

日: 2011年1月3日

“自炊”をはじめました(ソニーリーダーで紙媒体の書籍を読む)