OCR処理で出来たテキストデータで資料が生まれ変わる

OCR処理は、スキャンした本の画像やPDFからテキストデータを抽出する処理のことを指します。このテキストデータの精度を更に高めるのが『テキスト化』で、この場合処理後の文字に校正作業を実施させます。

では、抽出したテキストデータはどのように使われるのでしょうか。

よく言われるのは電子化した書籍の中身を検索することで、精度があまり重要でないこの用途が最もスタンダードな目的です。より精度の高いテキスト化が施された場合は、テキストをコピー&ペーストして違う資料などに張り付ける、流用するといったことも可能になります。

しかしインターネットで検索しても、個人はともかく法人レベルの方がOCRをどう活用しているのかはあまり出てきません。今回は実際にそのままスキャンがお手伝いさせていただいたお客様が、一体どんな活用の仕方をしているのか、少しだけ紹介させていただこうと思います。

PDFからのコンバート

テキストデータの活用

そのままスキャンでお手伝いする中で多いのは、WordをはじめとしたテキストファイルやExcelとしての利用などです。

そのままスキャンでは、PDFファイルでの納品の他にWordファイル(.doc)でデータをお渡しすることも出来ます。実は主に法人のお客様に多いのは、PDFではなくこの『Wordファイル』が欲しいというもの。つまり電子書籍のデータそのものより、中身のテキストデータ・情報こそ欲しいのだ、という発想です。

例えば統計や情報の集計を取るにしても、データ化されていない、紙や写真にしか記載されていない項目はどう算出・集計するのか?という時にテキスト化が大きな役割を果たします。ビッグデータ時代と言われるものの、そのデータとなる元情報が紙だけであれば宝の持ち腐れになってしまうのです。

電子化した書籍に適切な設定を施したOCR処理を実施し、さらにOCRで摘出されたテキストを人の目で校正を何度か繰り返す。これにより、機械的にOCR処理を施した場合より遥かに精度の高いテキストデータを作成することが出来、そのままデータベースやシステムへの組み込みが実現出来るということになります。

お名前は出せませんが、戦時中の記録簿をテキスト化しビッグデータへ組み込むという取り組みを某ドキュメンタリー番組で行う事となり、そのままスキャンが電子化からテキスト化までお手伝いさせていただいたことがあります。それまではアナログ情報としてデジタル技術の『外』にあった情報が、テキスト化によって光を浴び、生きたデータとして生まれ変わった形です。番組中では美麗なCGを用いたマッピングで表現。これは全国で放送され、反響を呼びました。それだけ価値のあったデータが長く残されていたということですね。

他にも商品情報を一元化したリストを作ったり、数十年前に絶版となった本を再販する為に原稿を再現したりと色々使い方があるのですが、共通しているのは『紙だった資料をデータ上で再現する』だけではなく『テキストデータをWordやExcelに変換』し、そして『その情報を使って新しい物を作る』のが最終的な目的であること。

電子化して保存だけ出来ればいい、のみならずその向こうを見ておられるお客様が非常に多いのが、そのままスキャンを利用される方々の特徴です。

テキストを活用するには精度が重要

テキストデータの注意点

しかしこの最終目標には壁があります。OCRの精度は完璧じゃないのです。

リストを作るにしろ、更に飛んでビッグデータを作成するにしろミスだらけの情報が含まれていれば信頼たり得ませんが、しかしOCRソフトの読み取り能力には限界があります。どれだけ高精度なソフトを使っても、原本の紙の状態がパーフェクトとは限らず、また文字が癖の強い手書きだったりすると絶望的で、実は殆ど読み取れないというケースも珍しくありません。

AIの発達等で手書き文字の認識精度も大きく向上してはいますが、某年金機構で深刻な事件が発生したように、未だソフト単体では課題があります。

正確な、完璧に限りなく近いテキストデータをお求めなら何重にも校正編集作業の入った、もっと言えばOCR処理の前に最適なスキャニングをしてくれる(そのノウハウを知っている)プロに依頼するのが無難と言えます。スキャニング、OCR処理のデメリットや資料の状態に応じた向き不向きについて深い知識を持ち合わせているので、まずは相談されてみることをお勧めします。

ちなみにそのままスキャンのページはこちら。ただし、OCRサービスの説明はどうしても専門の業者で似てしまうところがありますので、実際にご利用いただいたお客様のお声を見ていただいた方が、よりイメージをしやすいかも知れません。様々なOCRサービスを試された方のリアルなお声になりますので、是非インタビューをご一読ください。

OCR処理は活かし方次第で非構造化データを大きく蘇らせます。ただ処理を施せるだけでなく、その有効な活用法や用途までアドバイス出来る所を探してみてください。

追記:テキスト化のサービスがリニューアル

そのままスキャンが従来展開していた4種類のOCR(テキスト化)サービスに加え、新たに最高精度99.99%の文字精度を実現した『そのままテキスト化』を公開致しました。

99.99%は、これまでそのままスキャンの最高精度だった99.96%のテキスト化サービスにプロの校正者による校正・編集作業を加えることで実現出来た数値です。これにより出版を考えている方にもご利用いただけるレベルを達成しました。詳しくはこちらをご覧ください