音声分類システム

2021年技術ブログ集

音声分類システムその1
①音声データの特徴値抽出と②学習用データ生成

機械学習の応用として音声データの特徴値をモデル化し、分類推論を行うシステムを作っていきます。

機械学習の活用の全体像

機械学習による音声分類予測(推論まで)の手順と開発プログラム

音声データかあら特徴値を抽出する手順

マイク音源の処理は、Windows-PCのオーディオインターフェースを利用して収集します。収集したwaveデータにFFT処理を行いスペクトラム表示と帯域別特徴抽出,可視化するFFTグラフを表示します。

音声データと特徴値の抽出グラフ

音声データのスペクトラム画像生成  AI用データを生成する目的(今回は実施しませんでした)

検証用音声データ(7分類)例

音声データの分類(7分類)と特徴値
音圧の大きさにより0-6分類を適用

機械学習用データ数拡大:オリジナル音源を分割してデータ数を5倍に拡大

オリジナル音源ファイル(7~10秒サンプリング)を1秒間で分割

44KHzで10秒間収集したwavファイルを先頭から1秒単位で切り出しました。
下図は7~10秒のWAVEデータを1秒単位で取り出し生成した5波形データを示しています。
5000Hzまでの周波数特性は粗同様な波形が得られています。

解析で得られた帯域別SN比(dB)はx1,x2,,,,,,,x10で音圧値(dB)はx11としてログファイル(logdata.txt)に保存します。

機械学習用特徴値抽出ソフトウェア

音声分類システムその2
③RandomForestによる分類のモデル化

分類モデル化と説明変数感度解析のプログラムコード

RandomForest分類モデルの精度
モデル予測結果  testresult.csv

推論予測値の正解値の比較

RandomForestによる説明変数の感度解析

RandomForestモデルの回帰制度は、R2>0.9が得られており
感度解析では500~1500Hzの帯域で分類感度が高いことが判りました。

音声分類システムその3
④推論モデルによる異音分類予測(推論)

音声分類システムの概要図と推論の関係

オンライン推論プログラム  wavinference

オンライン推論プログラム「wavinference」は、マイク入力プログラム「ppmic」からのwavデータの特徴値を抽出し、機械学習済のRandomForestモデルを参照して、その音が何の音なのかをオンラインで判断します。

オンライン分類予測プログラム  wavinference

オフライン分類予測(wavinference)の動作検証と確認方法

(推論結果の確認方法)waninferenceから出力される解析結果グラフで確認する

別音源で分類した各1サンプルサンプルを使ってオフライン分類予測を行った結果を示します。

(音声データのカテゴリー分類と機械学習モデルの生成)
・音圧で粗い粗く[0]~[6]の7分類。7分類した音源から各1秒間隔で5回分を切り出し全105組のwavデータを切り出し、帯域別SN比と音圧の11説明変数を特徴値として抽出しました。
・7カテゴリに対して11説明変数105組のデータを使ってRandomForest分類を行いました。
 結果、正解率は105/105(100%)でした。

(推論モデルによる分類予測)
・現場で録音したWAVデータから直接推論を行うプログラム(wavinference)を開発しました。
・推論検証は各カテゴリの音源を再利用しました。予測正解は6/6(100%)を確認しました。

タイトルとURLをコピーしました