Tools
PR

「自分には関係ない」と思っていたClaude Codeで、手書き日記のOCRができた話

tantan_tech
記事内に商品プロモーションを含む場合があります

今回分かったこと

  • Claude Codeってどんなものなのか
  • Claude Code を使うことの何がそんなにすごいのか
  • 「AIと一緒に仕事をする」ためのお作法

はじめに:土木出身の私が、ローカルLLMを動かしたなんて!

学生時代にはコンクリートを作って破壊する研究をしていたような人間です。(鉄筋も組んでました・・)

そんな人間が、自分のパソコンの中だけでAIを動かす ことができるようになりました。(これがローカルLLMというやつか)

今回は、Claude Codeに関する記事を読んだ人間の体験記です。技術的にすごいことをやった、というよりも、「記事きっかけでやってみたら、こんなことができて、こんなことが分かった」という記録として読んでいただければ幸いです。


きっかけは1本のQiita記事

https://qiita.com/minorun365/items/114f53def8cb0db60f47

前から、Claude Codeは聞いたことはあったけど、自分には関係ないと思っていました。

でも、記事を読んで「自分もやってみたい!!」と思いました。

とりあえず試しに旅行の計画を一緒に立ててみましたが、なんかイマイチよくわかりませんでした・・


ふと思い出した。「手書き日記をデジタルにしたい」

話は変わりますが、私には記録魔のようです。

結構前から手書きで日記をつけていて、それをスキャンしてPDFに保存していました。何となく「いつかこれをデータにして、なんかできそう」と思ってました。

でも、自力で文字起こしするなんて無理だし、外注して中身を見られるぐらいなら・・・・

そういえば、噂に聞いているローカルLLM。それならできるのかな。LM Studioはやってみたことがあるけど、どうすればいいのか良く分からんから無理か。。そう思ってました。


そうだ、Claude Codeに相談してみればいいじゃん

「記事みたいにやれば、自分にもできるのでは・・?」

ということで、音声入力で要件をダンプしました。

はじめてCursorをインストールして使った笑

ちなみに、ダンプと聞くと私は10tDTとみなします。要件を音声入力でダンプ??
「元請け手配のRC-40を積んだダンプを、しょうがないから卸し場に誘導してダンプアップさせる」みたいなこと?

Claude Code にはダンプしたPLAN.mdをもとに、SPEC.mdを作ってもらいました。具体的な構成(こんな感じらしいです)

  • Ollama: 自分のMac上でAIを動かすためのツール
  • qwen2.5vl: 画像から文字を読み取るAIモデル(Alibaba製。日本語の手書きに強いらしい)
  • pdf2image: PDFを1ページずつ画像に変換するためのライブラリ
  • Pythonスクリプト: 全ページを自動で処理して、Markdownファイルに出力する

最終的に「ターミナルでコマンドを入力するだけで、全ページの処理が自動で走る」状態まで作ってもらいました。


動いた。手書きの文字がテキストになった

実際に試してみると、自分の手書き文字がMarkdownテキストになって出てきました。

M4 MacBookで1ページあたり約1分ぐらい。放置すれば自動で終わります。元々の字が汚いので精度はまあって感じのところもありますが、「良い」レベルで出力されました。MacBookは珍しく熱くなっていて、やっとこのスペックを活用してやりました。

黒い画面が動いているじゃないか
文字起きてる・・すごい

何より仕事の任せ方が勉強になった

技術的なことよりも、Claude Codeと一緒に仕事をする上でのお作法を知ることができたことが、一番よかったです。

Qiitaの記事みたいにできるよう、あらかじめClaude に学習してもらっています。CLAUDE.mdっていうファイルに、その辺のルールが書き込まれています。この辺も全部Claude Codeが自分で書いてくれている。

このTODO.mdやKNOWLEDGE.mdがあることで、後日再開するときも「どこまでやったか」が一目でわかる。Claude Codeに「前回の続きとか」「前と同じ感じ」と言えば、そのファイルを見て文脈をすぐに引き継いでくれそう。(人任せ)

「AIと一緒に仕事をする」ってこういうことか、と初めて実感した瞬間。ただチャットで生成してもらうだけじゃない。プロジェクトを一緒に進める感覚。これが、私にとっては一番大きな収穫でした。


まとめ:「自分には関係ない」と思っていたけど、できた

記事を読んで、「とりあえずやってみよう」と動いてみたら、私でもローカルLLMを使ったOCRシステムを動かすことができました。

技術的に大したことをやった、という話ではありません。でも「やってみたらできた」「AIが一緒に考えてくれた」「エンジニアの仕事の作法まで学べた」という体験は、今後の私の人生を大きく変えると思います。(Claude Code が楽しすぎて、ずっとやっていたい笑)

皆さんも、ぜひClaude Codeと何かをやってみてはいかがでしょうか。

(全ページ処理には120時間ぐらいかかる計算なので、しばらく後回しに・・)


参考リンク

ほえ〜と思ったら、いいねお願いします!

ABOUT ME
tantan_tech
tantan_tech
淡々と改善している人
建設会社にて、現場の施工管理からDX推進、データ利活用や機械学習を経て、現在は社内の市民開発(Power Platform)を推進しています。
記事URLをコピーしました