AIとデータを取り巻く様々な課題の解決

従来の分析で外部データを活用するのと異なり、AI、機械学習の場合は、

外部データが形を変え学習結果として永続する事でその持つ価値が大きく異なります。

当協議会はアノテーション含めAIを取り巻く様々な課題に取り組んでいきます。

Slider

紙文書活用SWG

AIで活用したい情報であっても、紙に印刷された文書の形でしか入手できないものがある。そうした情報をAIから活用できるように電子化することが望ましい。そうした電子化のための基盤を提供することが本SWGの目的である。ディープラーニングを用いた情報検索などの活性化につながることを期待している。

対象とする情報は、出版社や学会が所有する校閲済みの書籍や査読済みの論文から開始するが、徐々に企業内ドキュメントに対象範囲を広げる。書籍や論文については一般社団法人 日本電子出版協会(JEPA)と協働で収集する。企業内ドキュメントについては、広く企業、公官庁、地方自治体、研究機関などに提供を求める。

電子化には文書認識の技術を用いるが、一般にいう文書認識とは異なる点がある。第一に、AIで使いやすい形の電子化文書であることが重要である。第二に、編集可能である必要は必ずしもない。第三に、紙のレイアウトを再現できる必要はないが、構造化は必要。

本SWGが考える基盤では、紙文書提供者、電子化文書提供者、情報活用者の三種類のプレーヤを想定する。

  • 紙文書提供者は、紙に印刷された文書を提供するプレーヤである。
  • 電子化文書提供者は、紙に印刷された文書を受け取って電子化文書を提供するプレーヤである。
  • 情報活用者は、電子化文書を受け取ってAIなどに活用するプレーヤである。

本SWGは、上述の三種類のプレーヤが協力するためのハブとなり、規定を開発する。

  • 紙文書をスキャンした結果の画像形式
  • 見本としての文字画像形式 (外字など)
  • 電子化した後の文書の表現形式

電子化のためには文書認識の技術を用いるものと想定しているが、本SWGでは文書認識の研究開発は行わない。それは、電子化文書提供者が自分の責任で研究開発すべきものである。ただし、知的所有権が発生しない共通的な部品や単なる情報共有についてはこの限りではない。

■コンテンツ専門家会議メンバー

高野 明彦 国立情報学研究所 コンテンツ科学研究系 教授
美馬 秀樹 東京大学 大学院 工学系研究科 国際工学教育推進機構 准教授
井佐原 均 豊橋技術科学大学 情報メディア基盤センター 教授
田丸 健三郎 日本マイクロソフト 業務執行役員 NTO
村田 真  慶應義塾大学 特任教授 (サブリーダー)
下川 和男 イースト株式会社 取締役会長 (リーダー)

■研究用コンテンツ提供者

医学書院 症例関連医学論文 教師用50点、画像PDF 50点【論文、横組み、二段】
医学中央雑誌刊行会(医中誌) 医学用語シソーラス3万件
岩波書店 全集アーカイブス(第1期) 126冊 【文学書、縦組み、総ルビ】
有斐閣 ジュリスト(1980年代)、法律学全集など【法令と法令解説、縦二段組み】
吉川弘文館 日本歴史 創刊~150号(1940~50年代) 【歴史学術書、縦二段組み】

Scroll to Top