🔬 不器用パパの休日

取り込んだAI会話を、そのまま信じない ── Obsidian × AI 前処理の話

AIとの会話を779件、Obsidianに集めた。

前回はそこまでを書いた。ChatGPT、Claude、Copilotに散らばっていた会話を、ひとまず自分の手元に戻した。これで「あの話、どのAIにしたっけ」はかなり減った。

ただ、集めた瞬間に別の問題が出た。

入れただけでは、まだ使えない。

タグは揺れている。日付も表記もそろっていない。AIが勝手に付けた分類も混ざる。自分で書いたメモと、AIが清書したメモの境目も曖昧になる。これを放置したままAIに読ませると、AIはそれっぽく答えてくれる。けれど、その答えの足元がぐらつく。

今回は第5弾。テーマは「前処理」だ。派手な話ではない。むしろ地味すぎる。でもここを飛ばすと、Obsidian × AI はすぐに信用できない道具になる。

この記事は、ObsidianにAI会話やメモを集め始めたけれど、「入れた後、どう整えるのか」で止まっている人向けです。完成した知識管理の話ではなく、ぐちゃっと集めたものを、後から探して使える形に近づけるための記録です。

集めたAI会話を、タグ正規化、出どころ確認、Decision Record、vault-checkで前処理してから使う流れ

やってみた理由

取り込みが終わったとき、少しだけ達成感があった。

779件。数字としては十分に大きい。過去の会話が手元にある。検索もできる。これでかなり進んだように見えた。

でも、実際に中を見ていくと、すぐに分かった。

これは「倉庫に運び込んだ」だけで、まだ棚に並んでいない。

整備士の感覚で言うと、部品箱を全部作業場に持ってきた状態に近い。ネジもクリップもセンサーもある。でも、サイズも用途も混ざっている。箱に入っているからといって、そのまま作業に使えるわけではない。

AIに読ませるデータも同じだった。

「AI」「ai」「ChatGPT」「chatgpt」「claude」「Claude Code」。同じものを指しているのに表記が違う。タグも増える。古い判断と新しい判断が同じ重さで並ぶ。さらに、自分が書いた言葉なのか、AIが整えた言葉なのかも、油断すると混ざる。

このままでは、後からAIに聞いたときに困る。

「前に決めたルールは何だっけ?」

そう聞いたとき、AIが古い案を拾ってきたら意味がない。タグが増えすぎて、どれが正しい分類か分からなくなっても困る。だから、会話を入れた後にやったのは、記事としては地味な前処理だった。

やったこと

1. タグを増やしすぎないようにした

最初に気になったのはタグだった。

Obsidianはタグを付けるのが簡単だ。簡単すぎる。思いついた言葉をそのままタグにすると、あっという間に似たタグが増える。

たとえば、自分のVaultでは過去にこんな揺れが出た。

  • secondbrain
  • second-brain
  • セカンドブレイン
  • 知識管理

どれも近いことを指している。でも分かれていると、後から探すときに漏れる。AIに読ませても、「これは別の概念です」とまでは言わないかもしれないが、分類の軸は確実にぼやける。

そこで、タグの語彙表を作った。使ってよいタグを先に決め、似たものは統合する。新しいタグを作るときも、その場の勢いで増やさず、いったん語彙表を見る。

正直、面倒だ。

でも、タグは増やすより減らすほうが難しい。後から片付けるのはもっと面倒になる。だから、最初に小さく制限をかけることにした。

2. AIが書いてよい場所と、書いてはいけない場所を分けた

第3弾でも書いたが、自分のVaultには「人間の領域」と「AIの領域」を分けている。

ここは前処理でも重要だった。

AIに清書させると、文章はきれいになる。だが、きれいになるほど危ない。自分が悩んで書いた言葉と、AIが整えた言葉の見分けがつかなくなる。

だから、AIが書いたものには source: claudesource: chatgpt のように出どころを残す。逆に、人間の考えを書く場所には、AIが勝手に書き込まないようにする。

これは気持ちの問題だけではない。

後からAIに「自分の考えをまとめて」と頼むとき、AI自身が書いた文章を「本人の考え」として拾ってしまうと、だんだん自己増殖する。AIが書いた要約を、またAIが読んで、さらにそれっぽくする。見た目は整うが、中身は自分から離れていく。

それを避けるために、出どころを残すことにした。

3. Decision Recordで「なぜ決めたか」を残した

次にやったのは、判断の記録だ。

フォルダ構成を変える。タグを統合する。AIに触らせる範囲を決める。こういう判断は、その場では理由を覚えている。でも数日後には忘れる。

そして忘れると、また同じところで迷う。

「なんでこのタグ、廃止したんだっけ」

「なぜこのフォルダにはAIを書かせないんだっけ」

「ローカルLLMをすぐ入れなかった理由は何だっけ」

こういう問いに戻れるように、Decision Record を残すことにした。決めたことだけでなく、なぜそうしたか、何を捨てたか、あとで見直すならどこかを書く。

これも地味だ。でも効果は大きい。後からAIに聞くときも、単なる最新ファイルではなく、判断の経緯を一緒に見られる。

4. vault-checkで機械的に見張るようにした

最後に、機械チェックを入れた。

人間がルールを作っても、毎回守れるとは限らない。自分も守れないし、AIも守れない。だから、最低限の違反はスクリプトで見つけるようにした。

自分のVaultには vault-check.py というチェック用のスクリプトがある。最初は小さなものだったが、今は次のような確認をする。

  • 人間の領域にAIが書いていないか
  • frontmatterに必要な項目があるか
  • 未承認タグが増えていないか
  • Decision Record のつながりが壊れていないか
  • 孤立ノートやリンク過多が増えていないか

全部を完璧に止めるものではない。警告止まりのものもある。けれど、「見落としたまま進む」よりずっといい。

整備で言えば、トルクレンチやチェックリストに近い。腕を信用しないための道具ではなく、疲れている日でも同じミスを減らすための道具だ。

うまくいった点

一番よかったのは、AIに任せる前の地面が少し固くなったことだ。

AIに「このVaultを見て整理して」と頼むとき、何でも自由に読ませるのではなく、出どころ、タグ、判断記録、禁止領域がある。これだけで、返ってくる答えの信用度が変わる。

タグ語彙表も効いた。似たタグが増えそうになったとき、「これは既存タグに寄せる」と判断できる。小さなことだが、後で検索する自分を助ける。

Decision Record も、自分には合っていた。判断を一回で終わらせず、あとから理由ごと見直せる。特にObsidianの整理は、正解が一つではない。だからこそ、「なぜそのときそうしたか」が残っている意味がある。

失敗・課題

もちろん、まだきれいではない。

  • タグ語彙はまだ揺れている。 主観判断が必要なタグは残っている。全部を機械的には決められない。
  • vault-checkも完成ではない。 警告止まりの項目があり、厳密な検査というより見張り役に近い。
  • 前処理に時間がかかる。 入れるだけなら早い。使える形にするには、地味な手入れが必要になる。
  • ローカルLLMはまだ主役ではない。 ここを飛ばしてローカルLLMに任せると、整理されていない材料を高速で混ぜるだけになる。

特に最後は、自分への釘でもある。

RTX 5090もある。ローカルLLMも試せる。すぐに「全部ローカルで回すぞ」と言いたくなる。でも、材料がぐちゃぐちゃなままなら、速く回してもぐちゃぐちゃが増えるだけだ。

今回、いちばん腑に落ちたこと

Obsidian × AI で大事なのは、賢いAIを選ぶことだけではない。

AIに渡す前の材料を、どれだけ信頼できる状態にしておくか。

ここを飛ばすと、AIは古い判断も、新しい判断も、自分の言葉も、AIの清書も、同じ顔で並べてくる。答えはなめらかでも、根拠が混ざる。

だから、自分にとって前処理は、きれい好きのための整理ではない。AIを信用しすぎないための下準備だ。

整備で言えば、エンジンをかける前に、工具と部品と作業指示をそろえること。そこを飛ばして「とりあえず動かす」と、あとで原因不明の不調になる。

次にやること

  • MOCと想起の運用を書く。 ただ置くだけでなく、後から思い出せるようにする話。
  • 生活メモ処理へつなぐ。 音声メモをdaily、CEO宿題、ブログ素材、調査候補に分ける運用を試し始めている。
  • ローカルLLMは、前処理が安定したところから使う。 いきなり全部任せず、分類やASR補正のような確認しやすい処理から固定化する。

関連記事

締め

779件を取り込んでも、それだけでは脳にはならなかった。

タグをそろえ、出どころを残し、判断の理由を書き、機械チェックで見張る。どれも地味だ。だが、この地味な前処理がないと、AIに渡す材料を信用できない。

ObsidianをAIと使うというのは、魔法の検索窓を作ることではない。

自分の考えと、AIの言葉と、過去の判断が混ざらないように、毎回少しずつ整備することなのだと思う。

情報室

「考えが消えていく」── Obsidian × AI で自分の脳を組み直すことにした話

AIを使うほど考えることが増えて、同じことをまた一から考え直していた。「考えが消えていく」「会話が埋もれる」を解決するため、Obsidian × Claude Code で自分の脳を組み直すシリーズの第1弾。

情報室

世界の Obsidian × AI、どこまで進んでいるか調べてみた ── 自分の位置を確認するための現状マップ

第2弾。第1弾で「過去の自分を救い出す」と決めた。でも世界はもう先に進んでいるかもしれない。日本語圏と英語圏を調べて、自分が陣取れる場所を5軸で確認した話。

情報室

三層構造を作ったけど、正直まだ腑に落ちていない ── Obsidian × AI 環境構築の話

第3弾。Obsidianに三層構造を作り、CLAUDE.mdを設計した。でも正直、まだ自分の手に馴染んでいない。借り物の構造を自分の工具箱に組み直すまでの、つまずきの記録。

情報室

「あの話、どのAIにしたっけ」をなくしたかった ── AIとの会話779件を一か所に集めた話

第4弾。ChatGPT・Claude・Copilot・Gemini……AIツールをまたいで会話が散らばり、「あの話どこでしたっけ」になっていた。数年分の会話779件をObsidianの一か所に集めて、探せるようにした話。やってみて「エクスポートは万能じゃない」と分かった、つまずきの記録。

情報室

「この本、代わりに読んでくれたらいいのに」を、自分で作った話 ── OCR→TTSオーディオブック自作のまとめ

子どもの読み聞かせで寝落ちする父親が、手持ちの本をOCR→TTSで音声化するパイプラインを自作した記録。更新が止まっていたブログを再開できた理由から、OCRの文字化け、LLMの暴走、完全自動化を諦めるまでをまとめた総集編。