VC
VisionCount AI
検証ブログドローン・航空
Verification Report

高度140mドローン上空映像での検証:汎用YOLOv8の限界と専用モデルの必要性

2026-04-22

検証映像サンプル

実際の解析に使用した映像
高度140mドローン上空映像での検証:汎用YOLOv8の限界と専用モデルの必要性 映像サンプル

▲ 実際の検証に使用した映像(抜粋)。この映像をそのままアップロードして解析しています。

検証条件

場所韓国・ソンド国際ビジネス地区 交差点A(ドローンD1)
カメラ高度140m UAVドローン 3840×2160 / 30fps(上空垂直俯瞰)
撮影時間60秒(1,800フレーム、6fps処理で約360フレーム解析)
解析プロンプト乗用車・バン・バス・トラック・バイクをすべてカウントして

検証結果

項目AI計測手動計測精度
乗用車・バン2611023.6%
バス3475.0%
トラック040%
バイク070%
合計2912523.2%

考察・ポイント

  • 01高度140mからの真上(垂直俯瞰)映像では、車両が画面内で約40×25ピクセル(4Kスケール)のシルエットとして映る。YOLOv8がinference時に640pxへリサイズするため、実際の検出サイズはさらに縮小される。
  • 02COCOデータセットは主に水平・斜め方向から撮影された車両で訓練されており、真上からの車両形状(屋根面のみ)との特徴差が大きい。これが乗用車検出率23.6%の主因。
  • 03GTの生成に使用されたgeo-traxフレームワーク(KAIST・EPFL共同開発)は高高度UAV用に最適化された検出・追跡モデルを使用しており、同じ映像で高精度を達成している。汎用COCOモデルとの性能差がそのまま精度差に現れた。
  • 04バイク・トラックの検出はゼロ。バイクは車体が小さく、トラックは上から見ると屋根面積が大きいため逆に「建物の一部」として誤認識される。高空映像ではクラス分類精度も大幅に低下する。

Songdo Trafficデータセットとは

Songdo Trafficは2022年10月にKAIST(韓国科学技術院)とEPFL(スイス連邦工科大学ローザンヌ校)が共同実施した大規模ドローン実験から生まれたオープンデータセットです。10機のドローンが韓国・仁川市ソンド地区の20か所の交差点を同時監視し、12TBの4K映像を収録。各車両の軌跡はgeo-traxフレームワークで自動追跡・アノテーションされており、約70万台のユニーク追跡データを持つ世界最大級の航空交通データセットのひとつです。

本検証では交差点A・ドローンD1の60秒映像を使用し、PM5セッション(午後5時台)の最初の60秒間に対応するGT 125台と比較しました。GTはDrone_ID=1のフレームのみをフィルタリングして算出した厳密な値です。

なぜ低精度になったのか:3つの技術的理由

① スケールの問題
高度140mから撮影された4K映像では、乗用車は約40×25ピクセルで映ります。YOLOv8はinference前にフレームを640×640pxにリサイズするため、実質的な車両サイズはわずか6〜8ピクセル程度まで縮小されます。COCOモデルが高精度を維持できる最小物体サイズ(一般的に32×32px以上)を大きく下回ります。

② 視点の問題
YOLOv8(COCO学習済み)は水平・斜め方向から撮影した車両の特徴(フロントグリル・側面形状・タイヤ・窓)を学習しています。真上からの映像では車両屋根面のみが見え、これらの特徴が完全に欠如しています。「形としては長方形のシルエット」しか見えないため、地面・建物・その他の矩形物体と区別できないケースが多発しました。

③ クラス分類精度の低下
バイクは屋根がなく、上から見るとほぼ人物と同じシルエットに見えます。トラックは屋根面積が広く、建物の一部として誤分類されやすい。汎用モデルでは高空映像でのクラス分類精度も著しく低下します。

専用モデルとの性能差

同じ映像でGTを生成したgeo-traxフレームワークは、高高度UAV映像専用に最適化されています。このフレームワークは高高度映像専用の検出・追跡モデルを使用しており、本検証とはまったく異なる精度を発揮します。実際、70万台のGTが生成できていること自体が、専用モデルの高精度を証明しています。

汎用COCOモデル(YOLOv8m)vs 専用フレームワーク(geo-trax)の精度差は、「一眼レフカメラで水中写真を撮る vs 水中カメラ専用機」に似た関係です。道具がシナリオに合っていなければ、優れたアルゴリズムも性能を発揮できません。

どのカメラ高度・角度が最適か

これまでの4本の検証から、カメラタイプ別の精度傾向が見えてきました:

  • 道路脇固定カメラ(水平視点):M-30で91% — 最も高精度。COCOモデルの学習データと最も近い視点。
  • 橋上俯瞰カメラ(低高度・斜め視点):M-30-HDで87% — ライン設定の工夫で高精度を達成可能。
  • 交差点固定カメラ(水平・多方向):Urban1で37% — 信号停止・多方向交通が障害。単一ライン設定の限界。
  • 高高度ドローン(垂直俯瞰 140m):Songdoで23% — 汎用COCOモデルでは精度不足。専用モデルが必須。

VisionCount AIが最も力を発揮するのは、地上から10〜30m程度の高さに設置された水平〜斜め視点のカメラです。高高度ドローン映像を高精度で分析したい場合は、geo-traxのような専用フレームワークとの組み合わせをご検討ください。