エッジAI音声技術

エッジ・オフラインで動作する軽量な音声系技術

 特徴 

音声を中心としたソフトウェア技術をフルスクラッチ開発

音声認識、ノイズリダクション、音響イベントの検出、話者認証、感情分類/音声分類、対話制御技術、音声クローン等多彩な音声技術を提供可能

組み込み端末(Arm9等)やNPUでも動作する軽量なエンジンからサーバシステム用の大規模エンジンまで移植してご提供可

フルスクラッチ開発,ファインチューニング, 強化学習, 蒸留, 量子化等、最適な開発を実施の上、ご提供可

 機能 

  • 大規模モデルを開発し、ターゲット環境で動作する軽量な手法に蒸留
    Arm9(240MHz), NPU(1TOPS/512MB LPDDR4)等で動作実績あり

音声認識

  • Time delay neural network (TDNN)による英語・日本語向け連続音声認識技術

  • NPU、モバイル端末等多くの環境でご利用頂けるよう複数種類のパラメータサイズの音響モデル及び言語モデルを開発し、導入コストを低減

ノイズリダクション

  • ノイズを低減し、人間の声を強調するノイズリダクション技術

  • 組み込み端末での利用を想定し、軽量なモデルを開発。低スペックな端末上に移植してご利用可能

音響イベント検出

  • Audio Spectrogram Transformerによる音響イベント検出モデル及びMobileNet の改良手法による軽量モデルを開発

  • 527クラスの分類が可能であり、さらに独自クラスの追加も可能

話者認証

  • xVector の改良手法による話者認証モデルを開発

  • 軽量なため、ターゲット端末上で認証対象話者の登録処理も可能

感情分類 / 音声分類

  • 1D-CNN+Transformerによる感情分類モデルを開発

  • 8クラス("anger", "disgust", "fear", "happiness", "sadness", "surprise", "neutral", "calm")の分類が可能であり、さらに独自クラスの追加も可能

対話制御

  • 端末上で動作可能な対話制御技術。

  • ローカル生成AI技術と組み合わせることでモバイル端末上で音声対話による操作が可能

音声クローン

  • 僅か数秒の音声データから個人の声の特徴を再現するZero/Few-shot学習により、自然で感情豊かな音声を生成する音声生成技術

  • ターゲット話者の数秒の音声データとテキストデータのみでターゲット話者を再現した音声を生成可能

 活用事例 

  •  

一次産業向けエッジ音声ソリューション

 【音響イベントの検出】豚の咳検知システム 

  •  

豚の咳を検知することで、呼吸疾患のクラスタ発生を防止

重騒音下向けエッジ音声ソリューション

 【ノイズリダクション】重騒音対応ノイズリダクション 

  •  

重騒音下でもクリアな通話を実現

 仕様情報 

お客様環境に移植させて頂きます。詳細はお問合せください。

 ※ 提供機能によって必要となる動作環境は異なります。

お問い合わせよりご連絡ください。

お問合せはこちら