これまでのカメラにおけるAIは、手振れ補正のように、どちらかといえば機械側の都合で動くものだった。それがここにきて、少し変わってきている。ドローン大手のDJIが展開する Osmo Pocketシリーズは、カメラとジンバルを統合した、カメラ側でどう撮影するかアシストする可能性を秘めたカメラだ。シリーズ4製品めとなったOsmo Pocket 4は、AI機能をハードウェアとファームウェア、スマホアプリを含むソフトウェアの両面で進化させ、AIが単に映像を整えるのではなく、「誰を撮りたいのか」「どう見せたいのか」といった撮影者の意図に入り込んできている。
今回、Pocket 4を使用する機会を得て、中国の製造設備展示イベントITES会場で撮影してみた。Pocket 4を使っていて感じたのは、カメラが使い手の意図をサポートする、その進化がかなり分かりやすい、かつ無理のない形で現れていることだった。
従来のカメラでは、「どこを向けるか」「構図をどう維持するか」「いつシャッターを切るか」といった判断が常に必要だった。どう撮るかを考えるのは頭と目だが、実際の撮影中はカメラを操作する腕や指に注力する必要がある。または、自然に操作できるようになるまで身体にカメラ操作をなじませる必要がある。それに対してPocket 4では、とりあえずカメラを向けておけば、ある程度まではカメラ側が処理してくれる。
この変化は、センサーを含むハードウェアの進化と、それを前提にしたアプリ側の処理の両方によって成立している。

▼前機種Pocket 3 に比べてズーム等のボタンが増えた。発売は4月22日。Osmo Pocket 4 エッセンシャルコンボが7万7660円
カメラ任せにしても意図を汲んでくれる
OSMO Pocket 3と4のサイズはほぼ同じだが、4の方が少し大きくなっている。(縦:+4.5 mm 横:+2.2 mm 厚み:同じ。重量は10gほど増加)
Pocket 4のセンサーサイズはPocket 3と同じ1インチだが、新設計されたものを採用し、ダイナミックレンジや色の再現性が大きく向上した。それと同時に、ActiveTrackのエンジンも刷新され、7.0となった。
この2つが合わさることで、撮影時の前提が変わっている。
従来のトラッキングは「追う」機能だったが、Pocket 4では性質が少し違う。マニュアル上ではActiveTrack 7.0に加えて、ダイナミックフレーミングモードや被写体ロック追跡といった機能が用意されているが、実際に使ってみると、被写体を指定した時点で「その位置関係を維持する」挙動になる。
たとえば、この動画はプレゼンしている人の頭をActiveTrackの対象にし、かつ「プレゼンしている人が右下にいる構図」にダイナミックフレーミングで撮影した動画だ。
▼カメラ側で対象を追いかけ、構図も担保してくれる
展示会のように人が多い環境では、同じ場所で撮影し続けることが難しいし、フレーム内に別の人が入り込むことが避けられない。それでもカメラは対象を見失わず、構図を保ったまま撮り続ける。また、過去のActive Trackに比べて、対象が横や後ろを向いても追尾を続けてくれるし、前を人が通った程度では途切れない。AIのアルゴリズムが進化し、対象の顔だけでなく存在全体を意識して追いかけているのを感じる。
筆者はこのような製品説明シーンをスマホ動画で撮ることも多いが、その場合は「きちんと撮る」ことに気がとられて、説明の内容からは意識が逸れがちだ。Pocket 4であればある程度カメラ任せにすることができる。
Active Track 7.0は人間以外も追いかけてくれる
筆者はあまり、カメラ側の自動トラッキングや自動フォーカスにいい印象がない。カメラ側で自動フォーカスをしてくれるのは、圧倒的に人間の顔が多い。が、筆者が撮影するのはハードウェア製品がほとんどなので、「製品が撮りたいのに、説明員の顔にフォーカスが当たってしまって、思ったように撮れない」ケースがとても多く、機能をOffして使うこともしばしばだ。
Pocket 4のActive Track 7.0では、静物へのトラッキングが実用的になったことで、その印象が大きくかわった。
▼中央の黄色いセンサーを追いかけ続けてくれる
産業用の光電センサーを展示しているブースで、中央の安全機器をトラッキング対象にして、その周囲を回り込むように撮影すると、対象をフレームの中央に保ったまま動きを補正してくれる。従来であればスライダーやジンバル操作が必要だった動きを、適当にカメラを動かすだけで実現できる。
対象が小さすぎる/大きすぎる、まわりと区別のつきづらいものだとトラッキングは難しいが、ロボットや製品を追いかけられるようになるのは助かる。
動画から、写真クオリティの静止画を切り出せる センサーの進化とActive Track7.0
OSMO Pocket 4は1インチセンサーを採用している。アクションカメラ的な製品にも関わらず、1インチ化によってボケが出るようになり、映像に奥行きが生まれている。その一方で、フォーカスの置きどころがさらに重要になり、撮影者の意図を反映させなければならない。Active Track 7.0はこのフォーカス固定でも役立ってくれ、さらにカメラの用途を変えつつある。
従来は、静止画は静止画として、シャッターのタイミングとピントを合わせて撮る必要があった。それに対してPocket 4では、まず動画として記録しておき、後から必要なフレームを切り出すという使い方が成立する。

▼動画から任意の4K静止画が切り出せる。
上の写真は、展示会場で撮影した動画からスマートフォンアプリ「DJI Mimo」で切り出したものだ。静止画として見ても、そのまま使えるクオリティになっている。
照明が安定しない展示会場で、LEDなどの発光体を含む被写体に対して、F2.0、1/190s、ISO 100といった条件でピントとタイミングを合わせるのは、通常であればそれなりに難しい。少なくとも筆者がカメラを操作すると、もっと悪い写真になる。それが、気になる対象にActive Track 7.0でフォーカスを合わせたまま動画として記録しておくだけで成立してしまう。
ここでは、撮影者は「いつシャッターを切るか」を考えていない。代わりに、「何を撮りたいか」だけを決めている。あとはカメラがそれを維持し続け、後から最適な1枚を取り出せる。
新しいセンサーが実現したスローモーション
4K 240fpsのスローモーションも、このカメラのインテリジェントな性格をよく表している。スローモーションは「時間を引き延ばす」機能ではなく、「時間を細かく記録する」機能だ。そのためには、センサーが一瞬のうちに大量の情報を読み出し続ける必要がある。単にフレームレートを上げれば実現できるわけではなく、センサーの読み出し速度と内部処理の両方が追いついて初めて成立する。Pocket 4では、この高速処理が小型のボディに収まっている点が特徴的だ。
ロボットや人の動きをスローで切り出すと、普段は見えない動きが現れる。
▼左右がシンクロしつつ、高速で回転する工作機械のデモを等速で撮影
▼同じものをスローモーション撮影
これは「時間を後から編集できる」という意味で、撮影段階で決める必要が減っていることを示している。

▼スローモーション撮影した動画からも、クオリティの高い静止画を抽出することができる。
さらにスローモーション動画から静止画を切り出すことで、後からシャッターチャンスを決める自由度が上がる。
スペック向上によって生まれた「あとから作る」編集余地
このように撮影された映像は、そのまま完成品になるわけではない。Pocket 4ではむしろ、編集の余地を残した状態で記録される。
10bit色深度とD-Logに対応したことで、映像には後処理の余裕がある。ハイライトやシャドウの情報が残っているため、スマートフォン上のアプリで色を大きく動かしても破綻しにくい。これまでPCで行っていたカラーグレーディングが、そのままスマートフォン上に降りてきている。

▼色補正した後で静止画を切り出すことも可能
4Kで撮影していることもあり、動画から任意のフレームを切り出して静止画として使うこともできる。スクリーンショットによる静止画は、撮影時にシャッターのタイミングを合わせる必要がなくなっていることを示している。
さらに、AIによる自動編集も用意されている。イベントの流れを踏まえてクリップをつなぎ、ある程度まとまった映像を生成する。AI編集のクリップでは、編集の知識がなくても、見られる形に整えられている。しかも、クリップの差し替えや文字の追加などもスマホアプリ上で行える。
▼その日のOverviewを伝えられるような動画が生成できる
ここでもやはり、「どう編集するか」という判断の一部がカメラ側に移っている。
ハードウェアとAIの分業が生んでいるもの
こうして見ていくと、Pocket 4で起きている変化は、単なる機能追加ではない。
ハードウェアの進化が、撮影した映像に余裕を持たせ、その余裕を使ってアプリ側のAIが編集を担う。この分業が成立している。
高度なことを簡単にする、というよりも、機械が人間の意図を反映しやすくする方向に設計が寄っている。
この構造は、Avata 360のような他のDJI製品とも共通している。飛行時にすべてを決めるのではなく、とりあえず記録しておいて後から視点や構図を決めるという考え方だ。
Pocket 4では、それがカメラ単体の撮影体験として実装されている。
カメラは「撮影アシスタント」になっていくのか
ActiveTrackによる構図の維持、空間オーディオによる音の位置記録、アプリ側のカラー処理や自動編集。これらをまとめて見ると、カメラは単に記録する装置ではなくなりつつある。
撮影者は細かい操作を行うのではなく、「何を撮りたいか」を渡すだけでよくなる。あとはカメラ側がそれを解釈して、ある程度の形にしてくる。
操作しているのは自分だが、撮影と編集の多くはカメラ側が担っているという感覚がある。
AI機能があってジンバルでカメラが動くことで、より「ロボット化」したといえる。その延長線上には、被写体やシーンに応じてフレーミングや構図を自動で判断する「撮影アシスタント」のような存在が見えてくる。
Pocket 4は、その途中にある製品のように見える。





