Our Story

夢みたいだねで終わらせない。 未来のサービスは私達が作る。

技術に情熱をそそぐことにおいてはどこにも負けません。そのアイデア、インフォディオならできるかも。

図面にペンで書き込んでいる様子

インフォディオで独自開発した AI-OCRエンジンの誕生秘話を お届けします。

自社プロダクトスマートOCR健康診断書の管理画面
請求書
AI-OCR Engine AI-OCR Engine AI-OCR Engine AI-OCR Engine
AI-OCR Engine AI-OCR Engine AI-OCR Engine AI-OCR Engine

はじまりは閉塞感の中で出た
無理難題から。

インフォディオはもともと親会社であるアイリックコーポレーションのシステムを受託開発することを主力事業とする会社でした。
安定した売上は確保できてはいたものの、主力事業が受託開発だのみでは会社が成長し続ける絵を描くには心もとないと社長の勝本は感じていました。
インフォディオの成長を考えて、新たな事業の立ち上げ、成長戦略を描くことが必要なため、新たな事業の柱を創出するよう、取締役の小池にミッションが与えられました。
このときから、当時ハードルが高いとされたAIを用いたWebシステムの事業開発を小池は考えるようになったのです。

未来を連想させる画像

AIをどう使えばよいのかを 模索する日々。

小池はこれからAIの時代が来ることには確信を持っていましたが、AIを使って何を作ればよいのか具体的なイメージがわかず悶々とする日々を送っていました。
そんなとき、保険クリニックを展開する親会社のアイリックコーポレーションの社員からの「お客様の保険証券を写真に撮り、自動でデータ化し、保険の比較分析を自動化してお客様への提案につなげられるシステムがあったら良いよね」という一言に「これだ!」とひらめきが走ったのでした。
当時、保険クリニックでは、来店したお客様が現在どのような保険に入っているか保険証券の情報を手入力し、比較分析を行ったうえで提案するという営業手法をとっていました。

しかし保険証券ごとに内容やフォーマットが異なる上、入力する内容も多岐にわたるため、その入力作業は属人的で、その教育にも時間がかかるという課題を抱えていました。
そこで小池はAI技術を使って、写真の文字情報をデータ化する仕組みを導入すれば、解決でき、これを製品化して他業界を含め様々な企業、官公庁に展開できると考えたのです。
親会社の業務を改善するシステムをベースとして製品化して横展開する戦略こそが、インフォディオの成長戦略になると小池が決意した瞬間でした。

終身保険の書類

AIで何をつくるかを決めたもの、インフォディオのエンジニアの誰もが実現性に否定的でした。なぜなら、フォーマットが異なる様々な保険証券撮影画像からデータを取り出すためには、画像の歪み補正技術、文字列の検出技術、文字列の構造化技術、マッピング技術などハードルが高い多くの技術を克服しなければならなかったからです。
AI-OCRの開発は簡単なことではありません。ましてや保険証券のような複雑な書類を正確に読み取るなんて、AI-OCRとしても難易度の高いであろう仕組みを自分たちがつくるなんて、全く想像ができないという声であふれていたのです。

もちろん小池も成功させる根拠なんて持ち合わせてはいませんでした。しかし、小池には自分ならやり遂げてみせるという自信だけはありました。その熱意は次第に社長の勝本にも伝わりAI開発プロジェクトがスタートしたのです。
小池はすぐさまプロジェクト開始とともに、AI-OCRの開発ができるエンジニアを外部から集め、社内からも登用して少ないながらも開発チームを結成しました。

はじめは、GoogleCloudのCloud Vision APIという出来合いのAI-OCRエンジンを利用して開発することを目論みました。Cloud Vision APIを利用すれば短期間でAI-OCRを組み込んだサービスを作ることができると考えたからです。ところがCloud Vision APIでは思うような文字認識率を得ることができず、認識した文字も構造的なデータとしてうまく取り出すことが難しいという壁にぶつかったのです。また、Cloud Vision APIのアップデートに振り回されて、安定した業務利用には不向きであることもわかりました。

AI-OCRエンジン、
開発の難しさに立ち向かう。

いざ、AI-OCRエンジンを開発しようとしてみると、そこには思いもよらぬ壁が次から次へと立ちふさがりました。

  • 発注書。領収書。健康診断結果報告書などの書類
    01

    非定型帳票へのアプローチ

    小池がつくろうとしていたAI-OCRは「非定型帳票」と呼ばれるレイアウトの定まっていない帳票へのアプローチでした。従来の座標でエリア指定して文字を読み取る「定型帳票」型のAI-OCRエンジンでは、汎用性に限りがあるだけでなく、スマホで撮った写真からの読み取りが難しいという問題です。スマホで撮影したゆがんだ写真の画像を読み取れることと汎用的な読み取りができることに、小池はどうしてもこだわりたかったのです。

    しかし、「非定型帳票」型のAI-OCRは、文字を単純にデータ変換するだけでなく、読み取った文字の意味を項目として取り出さなくてはいけないため、難易度が非常に高いものとなりました。(「定型帳票」型は座標指定したエリアに対しラベリングするため、読み取り後のデータ分類処理は「非定型帳票」ほど難しくありません。)当初は文字エリア認識をロジックで切り出すことを試したのですが、思うような成果を得ることはできませんでした。そこでAI-OCRエンジンに自然言語処理を施した、独自のAI-OCRエンジンの仕組みを開発するなど、試行錯誤を繰り返していきました。

  • 読み込みずらい請求書の画像
    02

    画質が悪い画像の帳票はOCR処理が難しい問題

    写真やFAXの帳票からOCR処理をかける場合、文字のゆがみからAI-OCRが認識できないという課題にぶつかりました。そのため、OCR処理の前に文字画像のゆがみを補正し、文字をまっすぐにすることでOCR読み取り精度を格段に向上させることに成功しました。

  • 手書きの文字
    03

    手書き文字の読み取り

    活字文字の読み取りは比較的早い段階で実現できたのですが、手書き文字の読み取りには学習用のサンプルデータを大量に用意する必要があり、苦労しました。社員総出で手書き文字のサンプルを書いたことは記憶に新しいです。人生であれほどまでに文字を書いたことはありませんでした。

    最終的には社外のあらゆる方面から手書きデータを集めることに奔走し、手書き文字認識の精度向上につながりました。その甲斐あってこそ、統計センター様の国勢調査における調査票の読み取りという案件の受注につながったともいえます。

  • パフォーマンスの高さを連想させる画像
    04

    OCRの処理速度

    どれだけハイスペックなGPUを使用しても、同時にたくさんの文字を処理するには限界がありました。一つのエリアを処理するのが0.01秒だったとしても、それが1,000個あれば10秒になり、10,000個あれば100秒かかってしまうことになります。実務の現場で利用するためには、かなりの高速化が求められました。

    根本ロジックの改善に根気強く向き合っていくことで、最終的にはA4サイズの帳票1枚を数秒で処理できるようにまでなりました。終わってしまえばあっという間にも感じましたが、当時のプロジェクトメンバーにとってはこれらの問題を解決するまでの時間はとても長いものにも感じました。

一つ解決しても、
また次の問題が発生することの繰り返しで、
時間やお金がかかり続けるも、
製品はなかなか完成しない状況というのは
精神的にもきつかったのが正直なところです。
そして様々な困難に直面しながらも、
ついには完成にこぎつけました。

AI-OCRを汎用的にした スマートOCRに発展させ、 様々な業務でAIによる自動化を実現。 自動化を実現。

保険関係書類だけじゃない。
様々な複雑な業務もAIで自動化。

インフォディオが開発したシステムでは、保険店舗のスタッフがスマホアプリで保険証券を写真に撮るだけで、AI-OCRにより文字認識・データ抽出が行われ、素早く容易に診断できるようになりました。

このAI-OCR技術を汎用的にした「スマートOCR」に発展させ、現在は他の企業や官公庁にも広く展開しています。スマートOCRは、請求書、領収書、決算書、注文書、通帳、名刺、健康保険証、免許証をはじめとした様々な書類の文字認識・データ抽出にご利用いただいております。

自社プロダクトの管理画面
自社プロダクトの管理画面
自社プロダクトの管理画面
自社プロダクトの管理画面
自社プロダクトの管理画面
自社プロダクトの管理画面

私たちの目指す方向 Our Goal

AI-OCR 2.0へ更なる進化。
全業界に活用の幅を広げていきます。

誰もがAI-OCRを簡単に扱える時代へ

リリースした「AI-EX」は、AI-OCRエンジンで多種帳票のデータ化が誰にでも簡単に実現でき、事務作業効率が飛躍的にアップします。「スマートOCR」では定型・非定型の様々なフォーマットの帳票を汎用的にデータ化することが可能で、すでに多くの企業でご利用いただいておりますが、「AI-EX搭載スマートOCR」では、面倒な帳票定義をAIが帳票に合わせて行っ ていくので不要となります。 ユーザが取り出したい項目をクリックするだけで、抽出項目の特徴量が機械学習され、学習モデルを基に自動的にデータ抽出できます。AI-EXは大きな前進であり、我々はこれをAI-OCR 2.0と定義して進めています。