一つの技術から、世界が見えてくる。〜「ふーん」で終わらない頭の中〜
突然ですが、皆さんは何か新しい技術に出会ったとき、どう感じますか?
「へぇ、こんなことできるんだ」とか、「自分には関係ない」とかで終わるんじゃないでしょうか。私はどうやら、そこで終われないタイプの人間らしい、ということに最近気づきました。
この記事は、ある小さなアプリを作ったことをきっかけに、私の頭の中がどう転がっていったかの記録です。技術的にすごい話ではありません。一つの技術が、どうやって世界を広げる窓になるのか、それを改善紀に記します。
この記事を読んでわかること
- 「ありきたりな技術の組み合わせ」に、どこで価値が生まれるのか
- デモは動くのに現場で使えない「ラストワンマイル」の正体
- なぜ私は、いろんなものに手を出さずにいられないのか
きっかけは、ノリで作った「入退場カウンター」だった
Vibe Coding でCode Appsが作れるのが楽しすぎる。今日も今日とて新しいもんを作ろかな。「そうだ、プロ開発の世界だと当たり前だけど、Power Appsの人たちが見るとびっくり行天するようなすげえものを作りてえ」
ということで、カメラに映った人を検知して、ラインを跨いだ向きで「IN(入場)」「OUT(退場)」を自動でカウントしてくれるアプリを作りました。

正直、めちゃくちゃ感動しました。在室人数までリアルタイムで出るし、処理はぜんぶ端末の中で完結していて外部送信はゼロ。(らしい)
同時に、頭の片隅では冷静な自分が「いやでもこれ、既存技術の組み合わせだよな。人体検知も追跡もライン通過判定も、その筋では教科書に載ってるやつだし(多分)、ありきたりかもな」と言っていました。
でも、価値って誰かと比較するもんじゃないのでは?
面白さは、新しいアルゴリズムを発明したことではなくて、「どこで動いているか」と「誰が作れたか」のほうにありました。普通こういう人流カウントは、専用の機材を用意して専門家がコードを書いて……となるところを、ブラウザだけで、しかも私のような土木技術者がノリで作れてしまった。要素技術がありきたりでも、実現コストを劇的に下げる組み合わせ方には、ちゃんと新しさがある。
てか、普通にめっちゃおもろいじゃん。
「めっちゃおもろい」のその先に
たぶん多くの人は、ここで「面白いの作ったね」で終わると思います。でも私の場合、ここからが本番のようです。
まず最初にぶつかったのが、しょうもないけど切実な壁。一人だと、ちゃんと検証できない笑
人体検知って、いろんな体型・動き・照明・混雑度を浴びせて初めて本当の精度がわかるのに、一人だと自分が画面の前を行ったり来たりするしかない。一人の人間が万能のテストデータにはなれないのです。(ああ、自分の分身をつくるパーマンの人形とかほしい・・。何ならいろんな容姿になってくれたら、検証環境として最適なのに。)
あと、技術的に実装するのは、実はそんなに難しくない。難しいのは、現場の無数の条件に対応することのほうだと、どこかで聞いたような気がします。
たとえば現場で人をカウントしたいとして。普通に歩く人だけならいい。でも、ハイハイで通る人がいるかもしれない。極端な話、エクソシストみたいにブリッジで走り抜ける人だっているかもしれない(いないけど)。そういう例外に対応できないと、「使い物にならない」と判定されてしまう。
デモは8割の力で動くけれど、残りの2割──現実の例外処理──に、実装コストの大半が吸われていく。一番地味で、一番難しくて、一番評価されにくいゾーン。あらゆる技術の「ラストワンマイル」って、ここなんだなと思いました。同時にここが一番おもろいところだと私は思っています。意外とこの辺って力技でどうにかなるところがあって、スマートな方法だけじゃなくて、力技まで合わせ持つことが一番面白いところだなと思っています。
一つの技術が、どんどん世界を広げていく
ここから先は、もう連想が止まりませんでした。
「学習データに無いものは検知できない」という壁を見て、ふと思う。最近の生成AIなら、存在しない画像も大量に作れる。じゃあ、データが無い対象でも、生成した画像で学習させてしまえばいいのでは? 3Dシミュレーションの中で大量のデータを作ってモデルを学習させる、実用最前線の動画を見たことある気がする。重機のように形が決まっているものなら3Dモデルが既にあるので、相性も良さそう。(やってみよかな笑)
カメラはどこから撮るのがいいんだろう。真上から頭を数えるのがいい場面もあれば、横からだと人が重なって隠れてしまう。「どこから撮るか」でアルゴリズムの難易度が変わるなら、賢いモデルを作るよりカメラの位置を工夫するだけでええやん、ってこともありそう。(カメラいっぱい買おうかな笑)
そして極めつけに、こんな感覚に行き着きました。カメラの映像って、結局ただのデータなんだ、と。だとすれば「似ているものを探す」ような処理ができるはずで、今の人体検知も、その延長線上にあるんじゃないか。実際、画像とテキストを同じ空間で扱える技術を使えば、学習データが無い対象でも「○○」と言葉で指定して探せる方向の研究もあるそうです。(って、Claude が言ってました)
要素技術の名前はどうでもよくて。大事なのは、たった一つの小さなアプリが、こんなにも遠くまで思考を連れていってくれる、ということでした。 これだから新しいものを試したり、実装してみたりするのがやめられないんだろうな。(ベクトル検索を知りたいと最近よく思います笑。ベクトル検索、ベクトル検索。なんかかっこいい。)
そして、現場のことばかり考えている自分に気づく
連想がひとしきり伸びたあと、私の思考はいつも同じ場所に着地します。土木現場です。
「現場で写真を撮って、危険なポイントをAIに指摘してもらう」という取り組みがあります。多くは汎用のAIをそのまま使っていて、建設に特化はしていない。じゃあ特化させたいなら、専用モデルをゼロから作る(コストが高すぎる)のではなく、汎用モデルにエージェントを噛ませて、安全法令の知識や、建設現場ならではの知識を持たせればいいのでは──と、ここまでは割とすぐ出てきました。
でも、もう一歩踏み込んだとき、自分の現場経験がありありと思い出せました。
たとえばバックホー(油圧ショベル)。同じ「重機の近くに人がいる」という状況でも、危険度はまったく違う。後方旋回半径の大きい0.7BHなら、旋回したときにカウンターウェイトが人にあたり危ない。一方で小型の0.2BHは、側溝の据え付けで手元の人がすぐ横にいるのが普通の仕事の風景だったりする。
つまり、危険かどうかは「距離」では決まらない。「今どんな作業をしているか」で決まる。
ここで、コストの違和感が逆にひっくり返りました。仕様の細かい違いまで読み込ませる価値は、「稀な事故を拾うこと」より、むしろ「正常な作業を正常と見抜いて、無駄に警告しないこと」にある。
そして気づいたんです。重機の仕様の違いを理解させることは、その重機がどんな仕事をするのかを理解させることにつながる。これはネットのどこにもまとまっていないし、汎用のAIも知らない。建設のドメイン知識がガチで必要な領域で、だからこそ、むしろ私たちのような人間がやるべきなのかもしれない、と。
(あとこういうのを、理屈のように着想して、あれもこれも考えていくのが一番おもろい気がしてきた・・笑)
なぜ私は、そうせずにはいられないのか
ここまで書いてきて、自分でもようやく腑に落ちたことがあります。
私はたぶん、特定の技術やツールそのものには、それほど執着していない。私が本当に惹かれているのは、技術ではなくて、建設会社のメインの仕事である「現場」が、良くなっていくことのほうだ。ツールは手段の一つでしかない。
私はキャリアの最初の5年を、現場の施工管理として過ごしました。年齢も、歩んできた人生も、私とはまるで違う人たちと一緒に働いて、それぞれが自分の仕事に誇りを持っていて、うまくいかないこともたくさんあって。あの数年でもらったものは、たぶん知識というより、ものの見方そのものになっています。
だから、現場を離れて何年経っても、0.2BHの横に立つ手元の姿が、考えなくても出てくる。あれは思い出しているんじゃなくて、今も現場の世界を見ている、ということなんだと思います。
そう考えると、私が次から次へといろんな技術に手を出して、実装してみて、試さずにはいられないのも、説明がつきます。一つの技術に出会うたびに、私はこう思ってしまうんです。「これ、明日話すあの人の、何かを解決できるかもしれない」と。
現場の人と私が会うのはもうそれが最後かもしれない。次会うのは半年後かもしれない。じゃあ会うタイミングで、一番いい状態になっていれば、私がその人に提供できる価値は最も高まるんじゃないか。そう思うと、今探求せずにはいられない。これはやれと言われなくてもやってしまうことなんだと思います。
新しい技術は、私にとって「できること」が増えるだけじゃない。自分の手札が一枚増えること、誰かを助ける手段が一つ増えることなんですよね。だから、探求せずにはいられない。
そしてそれが、誰かのためだけじゃなくて、自分自身が一番おもろいと思っているからこそ、継続ができている気がします。
あと意外と伏線回収をしている笑
人体検出を知ったのは、2ヶ月前です。その時はローカルでしか実装できなかったのですが、Code Apps を手にしてから思い出して実装してみました。昔はここまでしかできなかったけど、今はここまでできるじゃないか。やりたかったことが全部できるという、過去の点を今まで結んでいくっていうことを、めっちゃやってます。
まとめ:技術は「できること」ではなく「世界を見る窓」
一つの技術は、それ単体だと「ふーん、こんなことできるんだ」で終わります。でも、そこで終わらずに転がしていくと、思いがけないくらい遠くまで──データの作り方、カメラの置き方、現場の安全、そして自分が何に惹かれているのかという問いまで──連れていってくれます。
技術はどんどんコモディティになっていきます。差がつくのは、そこに何のドメイン知識を流し込むか、そして何のためにそれを使いたいのか、のほうなんだと思います。
皆さんも、何か小さな技術に出会ったら、「ふーん」で閉じずに、ちょっとだけ転がしてみてはいかがでしょうか。思っているより、ずっと遠くの景色が見えるかもしれません。
(熱しやすく冷めやすいけど、一本芯は通っている。そんな人間になりたいなと思います。)
伏線回収事例2:社内版名刺管理アプリ
2025年6月のポストが伏線です。
2026年5月24日 Claude Code によるVibe Coding を手に入れてついに実装。341日越しの伏線回収〜!
