【東芝デジタルソリューションズ】映像に特化したAIテロップ文字認識「モジメタ®」の提供を開始

株式会社 東芝

~複雑なデザインや配色を含む文字情報も高い精度で認識し、放送局の映像確認作業をサポート~

2025-6-18
東芝デジタルソリューションズ株式会社
 
映像に特化したAIテロップ文字認識「モジメタ®」の提供を開始
~複雑なデザインや配色を含む文字情報も高い精度で認識し、放送局の映像確認作業をサポート~
 
 東芝デジタルソリューションズ株式会社(本社:神奈川県川崎市、取締役社長:島田 太郎、以下 当社)は、映像コンテンツを扱う放送局などのメディア企業向けに、AIテロップ文字認識「モジメタ®」の提供を本日から開始します。映像に含まれるテロップなどの文字情報を高い精度で認識しデジタルデータ化することで、特定シーンの抽出作業の迅速化や、テロップミスや不適切表現の自動検出による映像の確認作業の品質向上など、文字情報に関わる幅広い業務をサポートします。
 
図1:文字情報に関わる課題と「モジメタ®」のユースケース

 近年、日本の放送局には、開局から60周年を超える局が増えており、貴重な映像資産を再編集・再活用するなど、映像資産のマルチユースが積極的に進められています。しかしながら、膨大な映像資産が蓄積されている各局の映像アーカイブシステムでは、番組単位またはシーン単位でメタデータ注1を付与して管理していることが多く、タイムコードなどフレーム単位で映像を抽出することが求められる映像編集の現場などでは、目的の場面の迅速かつ正確な抽出が課題となっています。また、番組制作プロセスの企画、制作、編集からオンエアまでそれぞれのステップで、制作会社や放送局のさまざまな部署が映像のチェックを行いますが、テロップの多くは映像の一部として合成されておりテキストデータとして抽出することができないため、直接目視により映像の確認が行われています。さらに、放送に相応しくない表現のテロップ表示や、人物名の誤表示などの誤報によって社会から信用を失うこともあり、確認作業の効率化と品質向上の両立が課題となっています。

 「モジメタ®」は、映像に含まれるテロップなどの文字情報を、1秒に数フレーム注2の細かい間隔で認識し、高い精度でデジタルデータに変換することで、どのタイミングで映像のどの位置にどのサイズのテロップが表示されているかを抽出することができるサービスです。東芝グループが50年以上培ってきたOCR技術のノウハウに最新のディープラーニング技術を融合させた東芝独自の文字認識技術注3を採用することで、非常に高い文字認識精度を実現しました。一般的なOCRでは正確な認識が難しいテロップ特有の飾り文字やフォント、複雑な配色や背景、低解像度の映像などにも対応が可能です。
 また、「モジメタ®」がデジタルデータ化したテロップと放送局が独自に定めている放送に不適切な用語辞書注4とを照合して確認作業を標準化することや、当社の顔認識AI「カオメタ®」注5と組み合わせることで映像内の人物に対して正確なテロップが付与されているかを効率的に確認することも可能です。

 今回、「モジメタ® 」の開発にあたり、放送局の協力を得て、番組の最後に流れるエンドロールのデジタルデータ化業務への適合性を評価しました。エンドロールは限られた時間内に、スタッフ名や楽曲名、技術・ロケの協力先名など多くの情報を表示し、中には高速で表示する番組もあり、人手による書き起こし作業に多くの時間が費やされていました。ドラマ、バラエティ番組、映画などさまざまな番組の形式が異なるエンドロールの書き起こし作業を、「モジメタ®」を利用して行ったところ、正確かつ迅速にデジタルデータ化することが確認できました。


●「モジメタ®」の主な特長
1.テロップ特有の文字認識に対応
テロップ特有の装飾の多いフォントや、縦横混在文字のデザインなど、テロップに特化した学習済みのモデルを採用。

2.人名・地名の珍しい漢字にも幅広く対応
人名や地名の珍しい漢字にも幅広く対応、「高」と「髙」、「崎」と「﨑」のような異体字も高精度に認識。

3.圧縮率の高い映像も高精度に認識
低レゾの映像も高精度に認識可能。

4.複数フレームにわたるテロップを統合
複数フレームにわたって表示される同一テロップを、統合して出力する「マージ処理」機能により、解析しやすいデータ出力を実現。
 
図2:「モジメタ®」が提供するテロップ認識処理の流れ

 当社は、今後も、放送局の貴重な映像資産であるアーカイブ映像のマルチユースの促進や、番組制作現場の負荷軽減など、放送局の業務に寄り添う機能の拡充を進めていきます。


注1:メタデータ
データを効率的に管理したり検索したりするために、放送映像の属性や関連する情報を記述したデータのこと。
注2:フレーム
動画を構成する一枚一枚の静止画のこと。
注3:東芝独自の文字認識技術
近接した文字の正確な抽出や文字の座標の推定などの特許も取得しており、定型・非定型の帳票認識で多くの実績があります。
https://www.global.toshiba/jp/products-solutions/ai-iot/mojigazou.html
注4:不適切な用語辞書
視聴者に配慮した適切な放送を行うために、放送にふさわしくない言葉や注意が必要な言葉をまとめた辞書のこと。
注5:顔認識AI「カオメタ®」
当社が提供するメディア向け顔認識AIサービス。映像に映る人物の顔を高い精度でリアルタイムに認識します。 
https://www.global.toshiba/jp/products-solutions/industrial-ict/kaometa.html


■AIテロップ文字認識「モジメタ®」
https://www.global.toshiba/jp/products-solutions/industrial-ict/kaometa/option01.html

*モジメタは、東芝デジタルソリューションズ株式会社の日本またはその他の国における登録商標または商標です。
*その他、本文章に記載されている社名および商品名はそれぞれ各社が商標または登録商標として使用している場合があります。
*ニュースリリース/トピックスに掲載されている情報(サービスの内容/価格/仕様/関連リンク/お問い合わせ先など)は、発表日現在の情報です。予告なしに変更されることがありますので、あらかじめご了承ください。
*東芝デジタルソリューションズ株式会社は株式会社東芝の100%子会社です。

その他のリリース

話題のリリース

機能と特徴

お知らせ