物体検出【ビジネス成長のためのAI用語】
2024.4.16
株式会社Laboro.AI リードマーケター 熊谷勇一
用語解説
物体検出とは、画像分類やセグメンテーションなどと並ぶ画像認識技術のタスクの一つで、画像に写っている特定のクラス(例えば、人間、動物、野菜、自動車など)の物体を、コンピュータによる計算で検出する技術です。一般的には四角形(バウンディングボックス。矩形領域とも)で物体を囲んで位置を特定します。身近な例としては、スマートフォンのカメラが人間の顔を認識して枠で囲って表示するのも物体検出です。ちなみにセグメンテーションは似たタスクですが、対象をバウンディングボックスではなくピクセル単位で検出します。
物体検出の結果は、検出したクラス名と、バウンディングボックスの位置と大きさの組で表示されます。物体検出の目的は、物体のクラスの識別、おおよその位置と大きさを知ることであり、バウンディングボックスの位置や大きさが少しずれていることはさほど重要ではありません。
応用&詳細解説
物体検出には、大まかな物体の位置を特定した後、その物体クラスを識別する2段階モデルと位置の特定とクラスの識別を同時に行う1段階モデルがあります。1段階モデルは処理を単純にできるため、高速な処理を実現できることが期待されています。
この1段階モデルで高速化に取り組んだモデルに、2015年に公開されたYOLO(You Only Look Once)があります。2024年2月にYOLOv9が公開されるまでに多くののバージョンが発表され、その間に推論コストに影響を与えずに高速化と高精度化に成功したアプローチが実装されたり、YOLOv5では数行のコードで学習・推論が可能に、YOLOv8では新たに実装されたyoloコマンドによりコードを書かずにYOLOモデルの学習や推論が可能になったりしたなど、ユーザビリティの高さが多くの開発者から支持されています。
ビジネス応用
物体検出は、外観の異常を検出することによる外観検査や、カメラ映像から不審者や不審物を検出することによる防犯、CTやMRIによるスキャン画像から腫瘍や病巣の可能性を検出することによる医療など、さまざまな業界・目的に応用されています。既にある程度確立されているAI技術とも言えるでしょう。
一方、画像認識はさまざまな手法が開発・提案されていることから、選択する手法によって開発コストや得られる成果に違いが出やすいことには注意が必要です。そのため、解くべきタスクを正確に定義し、どのようなアルゴリズム、AIモデルを選択・適用すべきかにはしっかりとした検討をしないと、オーバスペックのシステムを開発してコストの無駄を発生させることなどが起こり得ます。例えば、当社事例の場合、チップを吸着して基板に配置するためのノズルに詰まりが生じていないかどうかを判別するには、詰まりの物体の種類や大きさ、位置まで分かる必要はなく、詰まりという異常があるかどうかの2値分類ができる画像分類タスクで十分、という具合です。
さらに、画像中に写っている特定の物体を数えることだけに特化し、例えば施設・会場での来場者数の把握や、農作物の収穫量や家畜頭数の把握ができる「物体カウント」というソリューションも登場しています。
当社事例
Laboro.AI「防衛装備品の製造におけるAIによる外観検査」
Laboro.AI「物体カウントソリューション」
参考
高橋海渡ら『図解即戦力 AIのしくみと活用がこれ1冊でしっかりわかる教科書』
日本ディープラーニング協会監修『ディープラーニングG検定公式テキスト第2版』
ソフトバンク「リアルタイムの物体検出器「YOLO」シリーズの変遷を解説」