ailia SDKを試す<第14回> YOLOを利用した動画のオブジェクト検出

 今回は,前回紹介(https://interface.cqpub.co.jp/ailia013/)した静止画に対するオブジェクト検出の続編として,動画入力に対するオブジェクト検出を取り上げます.

 

●今回もYOLO11を利用する
 前回の静止画入力の場合はYOLO11を利用しましたが,今回もYOLO11を使用します.YOLO11には,用途やリソース条件に応じて複数のバリエーションが用意されています.具体的には,
******
・YOLO11n-seg
・YOLO11s-seg
・YOLO11m-seg
・YOLO11l-seg
・YOLO11x-seg
******
などがあり,処理速度と識別精度のバランスを選択可能です.
 今回はその中で最も軽量なYOLO11n-segを用いて検証を行います.他のモデルについては,処理精度や速度の比較を含めて,後日あらためて紹介する予定です.
 なお,今回は環境構築方法などの詳細には立ち入りません.実行環境のセットアップ,基本的な実行方法や静止画での動作確認などについては,前回分を参照してください.

 

●動画の作成方法
 今回は静止画像を編集/結合し,動画を作成して検証を行いました.動画入力では,各フレームの検出精度に加え,処理速度(FPS)を計測しました.動画作成や解像度などの条件については,次に示します.
******
・動画作成方法:Microsoft Clipchampを使用し,各静止画を4秒間表示する形式で30fpsの動画を作成
・解像度:縦長480×720,横長 852×480
******
 ほかにも,前回の静止画検証で用いた画像を素材とすることで,静止画と動画での検出の変化を検証します.
******
・イベント風景:多数の人物が写っており,人の検出性能を確認.
・新幹線ホーム風景:人物と新幹線を区別して検出可能かを確認.
・複数オブジェクト・リスト(生成AI作成):多様な物体が含まれており,正しく検出できるかを検証.
******

 

●検証する
▲1,イベント風景
 オブジェクト検出結果を図1に,詳細の結果を表1に示します.


図1 イベント風景の検出結果

項目 クラス 件数
検出結果 person 14
backpack 2
frisbee 2
handbag 1
合計 19
FPS 4

表1 結果詳細

 

 人物以外にも,バッグやバックパックといった小物類を正しく検出できていることが確認できました.処理速度は約4FPS であり,CPU実行環境においても簡易なリアルタイム確認が可能です.
 一方で,パーティション・ポールの土台をフリスビー(frisbee)と誤認するケースが見られました.これは学習データにポールやポール部品が含まれていないためであり,誤認としても妥当な結果と考えられます.
▲2,新幹線ホーム風景
 オブジェクト検出結果を図2に,詳細の結果を表2に示します.

 


図2 新幹線ホーム風景の検出結果

項目 クラス 件数
検出結果 person 3
train 1
合計 4
FPS 8.3

表2 結果詳細

 

 人物と新幹線を区別して検出できており,静止画検証と同などの結果が得られました.処理速度は約8FPSと比較的高速で,動画入力でも安定した性能が確認できました.
▲3,複数オブジェクト・リスト(生成AI作成)
 オブジェクト検出結果を図3に,詳細の結果を表3に示します.

 


図3 複数オブジェクト・リストの検出結果

項目 クラス
検出結果 person car motorcycle airplane
train fire hydrant stop sign parking meter
bench dog dog couch
sheep cow zebra 未検出
backpack 未検出 person
tie
couch
chair
未検出 couch
chair
person tv
 
合計 24件
FPS 4

表3 結果詳細

 

 オブジェクト数が多い場面でも安定して検出が行われましたが,一部オブジェクト(snowboard)が未検出となるケースが確認されました.
▲4,各検証のまとめ(比較表)
 最後に,今回検証した内容をまとめると表4になります.

検証対象 検出件数[件] 主な検出対象 FPS 備考
イベント風景 19 person,backpack,frisbee,handbag 4 小物類も含め検出
新幹線ホーム風景 4 person,train 8.3 静止画と同等の結果
複数オブジェクト・リスト 24 多様な物体(snowboard未検出) 4 静止画と同程度だが,一部未検出あり

表4 結果の比較

 

●まとめ
 今回は,YOLO11n-segを用いた動画オブジェクト検出を検証しました.結果を整理すると次の知見が得られました.
▲検出精度
 検出精度として,次の知見が得られました.
******
・静止画検証とほぼ同等の結果となった.
・イベント風景では人物以外にバッグやバックパック,複数オブジェクト・リストでは多様な物体を安定して認識した.
・一部のオブジェクト(例:snowboard)は未検出となり,静止画を動画に変換した際にイメージの変化が影響した可能性が見られた.
******
▲処理速度(FPS)
 処理速度としては,次の知見が得られました.
******
・シーンの複雑さに応じてFPSは変動した.
・CPU実行環境でも4〜8FPS程度を維持でき,簡易なリアルタイム処理が可能であることが確認できた.
******
▲総合的な知見
 総合的な知見としては,次となります.
******
・軽量モデルを利用することで,静止画と同等の精度を動画入力でも維持可能であることが分かった.
・ただし,検出対象やシーンの複雑さにより処理速度に差が生じる点は留意が必要.
******
 今後は,他のモデル(YOLO11s/m/l/x-seg)を用いた検証を行い,精度と速度のトレードオフをさらに明らかにしていく予定です.

 

氏森 充(うじもり・たかし)
約30年間,(株)構造計画研究所にてIoT,ビッグデータ,機械学習,AI関連のシステム開発や実務応用に従事.退職後はLLM(大規模言語モデル)関連の情報収集や技術動向の調査・発信に注力し,雑誌「Interface」でもLLM技術に関する記事を執筆中.