インターネットを通じて共同で文字校正支援
日本IBMは8月1日、国立国会図書館の全文テキスト化システム・プロトタイプを開発したことを発表した。
日本語文献の画像からの全文テキスト化は、日本語に特有の表現の多様性が、アルファベットに比べ格段に実現を困難にしてきたが、インターネットを通じて多くの人々が特定の目的達成支援を行うというアプローチを組みいれることで、全文テキスト化の作業を効果的に進めようとするもの。
*画像はニュースリリースより
作業効率アップのためのインターフェースを提供
「共同校正機能」では、Web経由で多数の文字校正者が同時に作業を行うことができ、スキャン画像や図書情報から文字を読み取るOCRの精度向上もあわせて実現する。共同文字校正インターフェースは、OCRで同じ文字として認識された文字群が一覧表示されることで、効率よく校正を行うことが出来き、さらに、作業結果を再学習することで徐々にOCR精度を向上させることができるという。
また、「共同構造化機能」により、視覚障がい者などが読み上げソフトを使って書籍を読む際に重要となる構造化を実施するため、構造情報付加機能と読み上げ順序修正機能の2つの機能を提供、作業の軽減を目指す仕組みを提供する。
日本IBM ニュースリリース