高精度なテキスト化サービス『そのままテキスト化』はじめました

そのままTEXTはじめました

この度そのままスキャンでは、既存のOCR処理サービスから独立した高精度のテキスト化サービス、そのままテキスト化を公開しました。

OCR処理では届かない精度を実現

なぜテキスト化するの?

テキスト化とは何でしょうか。

書籍の電子化に関してはOCR処理とセットで使われますが、意味は少し違います。

OCR処理はOCRソフトを使用し、PDFファイルや画像上に写っている文字を“認識”して、そこに透明文字を付与しテキストデータを作成するものになります。テキスト化は、そのOCR処理で作成されたテキストデータをより精密にする作業を指します(厳密に言えば音声からの『文字起こし』等もテキスト化に含まれますが、ここでは割愛します)。具体的には人の目による文字の校正作業などが該当します。

一見すると『透明文字を付与してテキストデータを作成』出来るなら、OCR処理だけで十分な精度が得られるのではないかと思われがちですね。しかしテキストの用途によっては、単なるソフトの使用だけでは不十分なのです。

処理を施すファイルの原本、つまり紙の書籍や資料には、その数だけ様々な状態が見られます。黄ばみ、文字の掠れ、フォントサイズの大小、旧字体や数式の混合などがある場合は、ハイテクなOCRソフトを施しても正確な文字を付与出来る確率が著しく下がります。ここで発生するのが文字の誤認識です。

特にそのままスキャンで承るのは、劣化や痛みの激しい貴重書、手書き文字のある資料、原稿が紛失された絶版本、戦前に作成されたリストなど、経年劣化や書き手の癖があり、かつ失敗したらやり直しのきかないという類のものが中心です。言ってしまえばOCR処理には最も向いていない資料です。当然文字の認識率は高くなく、PDF内のキーワード検索に使う程度ならまだしも、そのままOCR処理を施しただけではテキストデータを“活用”するレベルにどうしても及びません。特に手書きの文字はそもそもOCR処理が施せず、『文字起こし』つまり最初から人の手で書き起こしていく作業が必要になることもあります。
(因みにOCR処理の誤認識率がいかにクリティカルかは、SAY企画の事件で浮彫りになりました

よく『OCR処理を掛ければそのままそっくりテキストデータが出来る』とお考えの方もいらっしゃるのですが、例え状態が良くても認識率が100%になることはまずありません。ここに、OCR処理を施したファイルに人の目を入れる意義があります。ただOCR処理を施しても実際に活用できる精度のものにはならず、その後の校正作業やチェック・最適化が無ければ、信頼できる正確さを備えたデータにはなり得ないのです。

多くの情報が検索ボタン一つで見つかる時代。しかし紙の原本しか残っていない情報は、全世界に十億以上あると言われるWebサイトやインターネット上のデータをいくら巡っても出てきません。また、データ化されていないということはDBへのインポートや表計算ソフトでの利用も叶いません(所謂『非構造化データ』のひとつ)。

求められるテキストの精度を実現するには、文字認識出来るソフトに加え、その不足分を人の目で補う必要があるのです。

最大精度99.99%

そのままテキスト化の精度一覧

そんな背景から、そのままスキャンでは従来4種類のOCR処理(テキスト化)サービスを提案してきました。精度順に価格が上がっていく仕様になっていますが、実はそのうち『テキスト化』に当たるサービスは2つのみ。残りは純粋なOCR処理を最適な方法で実施するものとなっています(『最適』とは、例えばスキャニング時に解像度を上げる、OCRソフトを使う前にレイアウト等の設定を行うといった技術的な方策のこと)。

今回『そのままテキスト化』では、その4段階の上へ更に『テキスト化プレミアム』という最高精度のテキスト化サービスを新たにご用意しました。その精度なんと99.99%以上。従来最高精度だった99.96%のサービスにプロフェッショナルの校正者による修正を加えることで、この上ない精度を保証する事が出来るようになりました。因みにその他校正者も、校正の素人ではなく日々あらゆるタイプの文章の校正を行っている熟練の経験者が中心です。

主に絶版本を再販したい出版社様など、文章の販売を目的としている方を想定していますが、もちろんどなたでもご利用はいただけます。

この『テキスト化プレミアム』を筆頭に、『そのままテキスト化』では計3種類のテキスト化サービスを提案させていただきました。これまで私たちのOCRサービスはスキャニングを前提にしてきましたが、とにかくテキストの精度に拘りたいという方にご利用いただければと思います。

他にもサイト内では、テキスト化のメリット、従来のテキスト化の課題、弊社がテキスト化サービスで具体的にお手伝いした事例なども簡潔にまとめています。ビッグデータ時代になり、益々データの重要性が増している今、『非構造化データ』の中でも最もアナログな紙や書籍の電子化は急務です。貴重資料を上手く活用し切れず悩んでいる、という方はぜひご覧ください。

そのままテキスト化

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です