複数シーンにおけるロボットへの転移学習に基づくステレオマッチングアルゴリズムの適用
Scientific Reports volume 13、記事番号: 12739 (2023) この記事を引用
1982 年のアクセス数
5 オルトメトリック
メトリクスの詳細
両眼視に基づくロボットビジョン技術は、3Dシーン再構築、目標検出、自動運転など、さまざまな分野で大きな発展の可能性を秘めています。 しかし、ロボット工学で使用されている現在の両眼視手法には、高コスト、複雑なアルゴリズム、さまざまなシーンで生成される視差マップの信頼性の低さなどの制限があります。 これらの課題を克服するために、本論文では、転移学習に基づく両眼視用のクロスドメイン ステレオ マッチング アルゴリズムを提案しました。このアルゴリズムは、クロスドメイン適応および転移学習ネットワーク (Ct-Net) と名付けられ、複数のロボット シーンで貴重な結果を示しています。 まず、この論文では、ドメイン適応ステレオ マッチング タスクのための豊富な一般特徴情報を抽出するための一般特徴抽出器を紹介します。 次に、機能アダプターを使用して、一般的な機能をステレオ マッチング ネットワークに適合させます。 さらに、ドメイン適応コスト最適化モジュールは、マッチング コストを最適化するように設計されています。 視差スコア予測モジュールも組み込まれており、視差の探索範囲を適応的に調整し、コスト配分を最適化します。 全体的なフレームワークは段階的戦略を使用してトレーニングされ、トレーニング戦略の有効性を検証するためにアブレーション実験が行われました。 プロトタイプの PSMNet と比較して、KITTI 2015 ベンチマークでは、すべての領域と非遮蔽領域の Ct-Net の 3PE-fg はそれぞれ 19.3 % と 21.1% 減少しました。一方、ミドルベリー データセットでは、提案されたアルゴリズムによりサンプル誤り率が改善されました。少なくとも 28.4% (階段サンプル)。 Middlebury、Apollo、およびその他のデータセットから得られた定量的および定性的な結果は、Ct-Net がステレオ マッチングのクロスドメイン パフォーマンスを大幅に向上させることを示しています。 現実世界のシーンでのステレオ マッチング実験により、複数のシーンで視覚的なタスクに効果的に対処できることが示されました。
近年、ロボットは、3D シーンの再構築、目標検出、自動運転など、さまざまな分野で不可欠なアシスタントとなっています。 ロボット技術はさまざまな業界に広く応用されており、現代生活におけるロボット技術の不可欠な役割に貢献しています。 コンピュータービジョンは、人間の視覚システムをエミュレートし、収集した画像情報をターゲット視差情報に変換するテクノロジーであり、ロボットがタスクを完了するのを支援する上で重要な役割を果たします。 現在、大多数のロボットは、高精度の視差情報を取得するために高価なレーザーレーダー装置に依存しています。 しかし、人間の物体観察方法を厳密に再現する両眼視の原理は、数多くの視覚作業に広く利用されています。 両眼ステレオマッチングアルゴリズムは、両眼視理論の基本コンポーネントであり、ロボットのターゲット検出の精度に直接影響します。 両眼視理論を採用することで、ロボットはターゲットシーンの二次元情報を三次元情報に変換し、正確なターゲットシーン情報を取得できます。
ステレオ マッチング アルゴリズムは、3D シーンの理解と再構成に不可欠であり、ロボット ナビゲーション 1、自動運転 2、仮想現実 3 など、さまざまな分野で広く使用されています。 これらのアルゴリズムは、2 つの修正されたステレオ ペア内の対応するピクセルの水平方向の変位を表す視差を計算することを目的としています。 従来の方法では、多くの場合、画像の事前知識に依存して、高密度視差マップの生成を可能にするステレオ マッチング関数を構築します4。
現在、畳み込みニューラル ネットワーク (CNN) は、物体検出 5 や画像分類 6 などを含む強力な特徴表現機能により、さまざまな視覚タスクで広く使用されています。 近年、CNN に基づく教師ありステレオ マッチング アルゴリズムにより、ステレオ マッチングのパフォーマンスが大幅に向上し、現在の主流の研究方向となっています。 CNN に基づく教師ありステレオ マッチング アルゴリズムの主な手順には、特徴抽出、コスト構築、コスト最適化が含まれます。