偏読日記@はてな

本を読んだりゲームをしたり、インターネットの話をしたりします。小説も書きます。

EvernoteでエロゲのスクリーンショットをOCRして全文検索

エロゲ/ギャルゲプレイ中の「画面キャプチャ」のススメ(その2) - 偏読日記@はてな
この記事で書いたとおり、俺はPCでプレイするノベルゲーム(エロゲ/ギャルゲ)のプレイ中にスクリーンショットを保存することによりシーンや台詞を保存してあとから見返すのに使っています。ゲームへの没頭を妨げることなくPrintScreenキー一つで気軽に保存できるので、プレイ中の記録を取るのにかなり適した手段だと思っています。
しかし、問題はノベルゲームの文章を記録しているのに保存形式は画像であると言うこと。おかげで特定のシーンを見返そうと思っても一枚ずつ目視して探すほか手段がありません。
ファイルが少ないうちはまだ大丈夫でしょうが、俺の場合2003年からプレイ中画面キャプチャを続けてきた結果としてファイル総数16000超、ファイルサイズ総計4.9GBという恐ろしいことになっていたのです。


エバーノートでの名刺管理が便利すぎる件 - わかったブログ
そんな状態だったところに、この記事についてTwitter「エロゲーのスクリーンショット管理にも使えるかな」と呟いていた方を見かけまして。
Evernote自体は前から使っていたけれどその発想は全くなかったので目を開かれる思いでした。さっそく試してみようとテストとして「恋ではなく」「潮風の消える海に」のプレイ中に撮影したスクリーンショットおよそ2500枚(250MBほど)ほどを読み込んでみました。
これだけ多いと一つずつインポートするのは手間がかかりすぎるので自動インポートフォルダを利用しています。(Evernote for Windows での自動インポートフォルダの作成) インポートフォルダに必要なフォルダを収め、寝て起きたらインポートとOCR処理が終わっていました。


肝心の認識精度はこんなところ。

(クリックで拡大)
「恋ではなく」のスクリーンショットから早狩武志ゲーの定番台詞である「くそっ」を抽出してみました。
検索にヒットした91枚のうち明らかな誤認識は3枚。これだけ出来れば十分ではないでしょうか。
ちなみに今回のテストの副次的効果として早狩武志「くそっ」「クソッ」「くそったれ」「クソッタレ」の4種類を使い分けていることが判ったのは衝撃でした。作中にやたらと頻出する表現だとは気づいていましたが…… しかも使い分けに一貫性が無く、どういう基準なのかがまったく判らない。