高度140mドローン上空映像での検証：汎用YOLOv8の限界と専用モデルの必要性

2026-04-22

検証映像サンプル

実際の解析に使用した映像

高度140mドローン上空映像での検証：汎用YOLOv8の限界と専用モデルの必要性映像サンプル

▲ 実際の検証に使用した映像（抜粋）。この映像をそのままアップロードして解析しています。

検証条件

場所韓国・ソンド国際ビジネス地区交差点A（ドローンD1）

カメラ高度140m UAVドローン 3840×2160 / 30fps（上空垂直俯瞰）

撮影時間60秒（1,800フレーム、6fps処理で約360フレーム解析）

解析プロンプト“乗用車・バン・バス・トラック・バイクをすべてカウントして”

検証結果

項目	AI計測	手動計測	精度
乗用車・バン	26	110	23.6%
バス	3	4	75.0%
トラック	0	4	0%
バイク	0	7	0%
合計	29	125	23.2%

考察・ポイント

01高度140mからの真上（垂直俯瞰）映像では、車両が画面内で約40×25ピクセル（4Kスケール）のシルエットとして映る。YOLOv8がinference時に640pxへリサイズするため、実際の検出サイズはさらに縮小される。
02COCOデータセットは主に水平・斜め方向から撮影された車両で訓練されており、真上からの車両形状（屋根面のみ）との特徴差が大きい。これが乗用車検出率23.6%の主因。
03GTの生成に使用されたgeo-traxフレームワーク（KAIST・EPFL共同開発）は高高度UAV用に最適化された検出・追跡モデルを使用しており、同じ映像で高精度を達成している。汎用COCOモデルとの性能差がそのまま精度差に現れた。
04バイク・トラックの検出はゼロ。バイクは車体が小さく、トラックは上から見ると屋根面積が大きいため逆に「建物の一部」として誤認識される。高空映像ではクラス分類精度も大幅に低下する。

Songdo Trafficデータセットとは

Songdo Trafficは2022年10月にKAIST（韓国科学技術院）とEPFL（スイス連邦工科大学ローザンヌ校）が共同実施した大規模ドローン実験から生まれたオープンデータセットです。10機のドローンが韓国・仁川市ソンド地区の20か所の交差点を同時監視し、12TBの4K映像を収録。各車両の軌跡はgeo-traxフレームワークで自動追跡・アノテーションされており、約70万台のユニーク追跡データを持つ世界最大級の航空交通データセットのひとつです。

本検証では交差点A・ドローンD1の60秒映像を使用し、PM5セッション（午後5時台）の最初の60秒間に対応するGT 125台と比較しました。GTはDrone_ID=1のフレームのみをフィルタリングして算出した厳密な値です。

なぜ低精度になったのか：3つの技術的理由

①　スケールの問題
高度140mから撮影された4K映像では、乗用車は約40×25ピクセルで映ります。YOLOv8はinference前にフレームを640×640pxにリサイズするため、実質的な車両サイズはわずか6〜8ピクセル程度まで縮小されます。COCOモデルが高精度を維持できる最小物体サイズ（一般的に32×32px以上）を大きく下回ります。

②　視点の問題
YOLOv8（COCO学習済み）は水平・斜め方向から撮影した車両の特徴（フロントグリル・側面形状・タイヤ・窓）を学習しています。真上からの映像では車両屋根面のみが見え、これらの特徴が完全に欠如しています。「形としては長方形のシルエット」しか見えないため、地面・建物・その他の矩形物体と区別できないケースが多発しました。

③　クラス分類精度の低下
バイクは屋根がなく、上から見るとほぼ人物と同じシルエットに見えます。トラックは屋根面積が広く、建物の一部として誤分類されやすい。汎用モデルでは高空映像でのクラス分類精度も著しく低下します。

専用モデルとの性能差

同じ映像でGTを生成したgeo-traxフレームワークは、高高度UAV映像専用に最適化されています。このフレームワークは高高度映像専用の検出・追跡モデルを使用しており、本検証とはまったく異なる精度を発揮します。実際、70万台のGTが生成できていること自体が、専用モデルの高精度を証明しています。

汎用COCOモデル（YOLOv8m）vs 専用フレームワーク（geo-trax）の精度差は、「一眼レフカメラで水中写真を撮る vs 水中カメラ専用機」に似た関係です。道具がシナリオに合っていなければ、優れたアルゴリズムも性能を発揮できません。

どのカメラ高度・角度が最適か

これまでの4本の検証から、カメラタイプ別の精度傾向が見えてきました：

道路脇固定カメラ（水平視点）：M-30で91% — 最も高精度。COCOモデルの学習データと最も近い視点。
橋上俯瞰カメラ（低高度・斜め視点）：M-30-HDで87% — ライン設定の工夫で高精度を達成可能。
交差点固定カメラ（水平・多方向）：Urban1で37% — 信号停止・多方向交通が障害。単一ライン設定の限界。
高高度ドローン（垂直俯瞰 140m）：Songdoで23% — 汎用COCOモデルでは精度不足。専用モデルが必須。

VisionCount AIが最も力を発揮するのは、地上から10〜30m程度の高さに設置された水平〜斜め視点のカメラです。高高度ドローン映像を高精度で分析したい場合は、geo-traxのような専用フレームワークとの組み合わせをご検討ください。

← 一覧に戻る検証依頼・お問い合わせ →