全盲の方の強い味方・テキストデータとその課題

2018.03.14

久方ぶりの更新となってしまいました。現在繁忙期末期で、皆さんの会社もそうだと思いますが今は多忙の極み、サイトリニューアルと重なってブログまで手がまわりませんでした(汗

何とか時間を見つけて電子化業界の情報を発信していきたいと思います。

さて先日R-1ぐらんぷりが開催されましたが、今年は優勝者がとりわけ話題になりましたね。

今年の優勝者はよしもとに所属している濱田祐太郎さん。生まれつき全盲に近い弱視をお持ちという他の芸人とは違ったバックグラウンドのある方です。

私は未だには濱田さんがR-1で披露したネタを拝見してないんですが()、近年奇抜な格好やインパクト重視のネタが続いた中、正当な漫談、すなわちRを表してもいる落語で頂点を取るとは確かな実力をお持ちなんですね。よしもとの養成所に入る前から同コンテストで準決勝まで進むなど、元々お笑いの才能があるんでしょうか。

さて今回お話したいのは濱田さんの魅力ではなく、濱田さんのように視力の低い方が使う音声読み上げという機能です。

そのままスキャンへ

読み上げソフトとその課題

タブレットを見る女性

視覚的な困難を抱えている方がどのように本を読んでいるかというと、いわゆる音声読み上げソフト、点字等を使って耳や手先で書籍を読むのが一般的です。

音声読み上げソフトは、現在皆さんお持ちのスマートフォンにも標準搭載されている身近な機能。ハンディキャップをお持ちでない方はあまり使う機会の無いものですが、町で見かけたことのある方もいらっしゃるのでは。最近ではYoutubeの動画にも使われることが多いですよね。フリーソフトも無数に存在します。

非常に大雑把に読み上げソフトの仕組みを説明すると、テキストデータとして埋め込まれた文字を機械が読み上げてくれるシステムです(大雑把過ぎか)。ここで一つの問題が発生します。

紙の本はどうする?

紙の書籍

テキストデータを読み上げるということは、言い換えればデータじゃない文字を読み上げることは出来ないということになります。

最近は書籍の電子版が当たり前になってきましたが、数十年前に販売された古い本や自費出版の書籍など、そのコンテンツがデータとして公開されていない、もしくは残っていないものも大量に存在するのです。

点字化されていない本が無数に存在するのは言うまでもありません。

つまり、例えば蔵書数万という巨大な図書館で書籍を無料で閲覧・貸し出しすることが出来るとしても、視力にハンディキャップを持っている方はその何十分の一ほどの恩恵しか届かないという意味になります。デジタル化や電子化が遍く利益をもたらしてくれる中、これは不公平ですね。

電子化+OCR処理で乗り越える

立教大学図書館様

実際にそのままスキャンにご依頼いただいた立教大学様は、まさに同じ様なお悩みをお抱えでした。

100万冊を優に超える蔵書を抱えている同大学の図書館様。ご依頼いただいた時点で全盲の学生さんからテキストデータでの提供を要望されたものの、古い資料にはテキストデータが付与されておらず新たに作成する必要がありました。お馴染み書籍の電子化です。

関連: OCRとは?

ただ紙の資料を電子化するだけなら人員を動員すれば出来ないこともありません。しかしそれでは時間が掛かりますし、ただスキャンしただけの電子書籍は画像データですから、文字のテキストデータがありません。OCR処理ソフトを使用する必要があります。

更に言えば、そのOCR処理も精度は100%ではありません。このままでは学生さんが音声を聴いて訳の分からない文章になってしまう…ということで、生成されたテキストデータについて目視で校正することも重要ですね。というより、検索用ではなく正にテキストデータが欲しいならば校正は必須です。

しかし当然ここまでテキスト化に時間を費やしてしまうと、日ごろの業務と並行して進めるのは不可能です。上記、すべてそのままスキャンで対応させていただきました。
(詳しくはインタビューページをご覧ください)

このように、若干工数はありますが古書でもテキストデータ化して音声読み上げソフトに対応させることで、ハンディキャップをお持ちの方でも同じようにコンテンツに触れることが出来るのです。

テキストデータの普及を

オーディオブックを聴く女性

民間では電子化やテキスト化が急速に普及していますが、限られた予算や人員の中でやりくりしなければならない行政や教育機関では大変な作業になります。

関連: 【デジタル教科書】2019年4月の導入を閣議決定

一方で視覚以外の感覚から情報を得ている方々にとっては大幅な機会損失です。

通常スキャン業者が電子化やテキスト化を語る時はどうしてもコスト削減だ利便性だとやらしい話になりがちですが、こういった公共性が極めて強い側面を認知させていくこと、これもまたテキストデータの普及には不可欠なファクターではないでしょうか。

コストパフォーマンスで選ばれる高精度OCR処理サービス

  1. 本を裁断せずにスキャニング
  2. 精度99.96%のテキスト化処理を1ページ150円から
  3. 国立研究機関や大学様からの実績多数
  4. 効率化された作業フローで短納期のご相談にも対応可能
OCRのイメージ

詳しく見る