大規模モデルを開発し、ターゲット環境で動作する軽量な手法に蒸留
Arm9(240MHz), NPU(1TOPS/512MB LPDDR4)等で動作実績あり
Time delay neural network (TDNN)による英語・日本語向け連続音声認識技術
NPU、モバイル端末等多くの環境でご利用頂けるよう複数種類のパラメータサイズの音響モデル及び言語モデルを開発し、導入コストを低減
ノイズを低減し、人間の声を強調するノイズリダクション技術
組み込み端末での利用を想定し、軽量なモデルを開発。低スペックな端末上に移植してご利用可能
Audio Spectrogram Transformerによる音響イベント検出モデル及びMobileNet の改良手法による軽量モデルを開発
527クラスの分類が可能であり、さらに独自クラスの追加も可能
xVector の改良手法による話者認証モデルを開発
軽量なため、ターゲット端末上で認証対象話者の登録処理も可能
1D-CNN+Transformerによる感情分類モデルを開発
8クラス("anger", "disgust", "fear", "happiness", "sadness", "surprise", "neutral", "calm")の分類が可能であり、さらに独自クラスの追加も可能
端末上で動作可能な対話制御技術。
ローカル生成AI技術と組み合わせることでモバイル端末上で音声対話による操作が可能
僅か数秒の音声データから個人の声の特徴を再現するZero/Few-shot学習により、自然で感情豊かな音声を生成する音声生成技術
ターゲット話者の数秒の音声データとテキストデータのみでターゲット話者を再現した音声を生成可能
豚の咳を検知することで、呼吸疾患のクラスタ発生を防止
重騒音下でもクリアな通話を実現