完全自動化はあきらめた。それでいいと思った話
PDFから音声まで16ステップのパイプラインを作った。完全自動を目指したが、辞書登録と品質確認は人間がやるほうがいい——と気づくまでの話。
BUKIYOU-PAPA LAB
AIで作る側になるまでの積み上げログ。
試して、壊して、また作る。そんな休日の記録。
4つのカテゴリで積み上げ中
最近やってみたこと
PDFから音声まで16ステップのパイプラインを作った。完全自動を目指したが、辞書登録と品質確認は人間がやるほうがいい——と気づくまでの話。
TTS音質の壁にぶつかり、ComfyUIで音声クローンとVoiceDesignを試し、Whisperで品質を自動検証する仕組みを作った話。
VOICEVOX・Style-Bert-VITS2・Qwen3-TTSの3エンジンに同じ「吾輩は猫である」を読ませた。読みの正確さと自然なイントネーションは両立しない——と気づくまでの話。
家族4人で16タイプ性格診断をやってみた体験記。息子の「やりかけ放置」や娘の「反応の薄さ」の理由が見えてきた。AIと組み合わせることで、大人向けの診断が子育てのヒントに変わった。
OCR校正用のローカルLLMを選ぶのに、OOM・タイムアウト・thinking暴走を経験した。最終的にQwen3 32Bのthinking抑制で14.6倍の速度改善を得た話。
tmuxとは何か、なぜ必要かを理解するところから、Claude Codeのサブエージェント・エージェントチームの違い、セキュリティ設定、使い方までをまとめた非エンジニア向けガイド。
不器用パパの実験環境
Windows 11
メインOS
RTX 5090
GPU推論・ローカルLLM
WSL2 + Docker
開発環境
ローカルLLM
Ollama / llama.cpp
Claude Code
AI駆動開発
Bambu Lab A1
3Dプリンタ