🔬 不器用パパの休日

「この本、代わりに読んでくれたらいいのに」AIで実現できるか挑戦を始めた話

子どもが小さかった頃、毎晩の読み聞かせで気づけば自分が先に寝落ちしていた。「この本、代わりに読んでくれたらいいのに」——ずっとそう思っていた。AIが一気に進化した今、それを自分で作れるかもしれない。そう思って、開発への挑戦を始めた。

やってみた理由

きっかけは、ずっと感じていた3つの「読みたいのに読めない」問題だった。

  1. 読み聞かせで自分が先に寝てしまう — 寝かしつけているはずの父親が先に寝落ちする、あるあるの状態がずっと続いていた
  2. 読みたい本の音声版がない — 朗読サブスクを試したが、「これが読みたい」という作品がなかったり、全巻そろえると高額だったり、サブスク対象外だったりと満足できなかった
  3. 目が疲れて読み進められない — 長く読んでいると目が滑って内容が入ってこない。出かける時に耳で続きが聞けたらどれだけ便利かと思っていた

YouTubeの「音読してみた」動画も使っていたが、「今、目の前にあるこの本を読んでほしい」という気持ちには応えてくれない。通勤中はラジオや音声コンテンツをよく聴いていて、耳で聴くことの良さはずっと実感していた。

そんな中、AIが一気に進化してきた。音声生成モデル、テキスト編集モデル、OCRのオープンソース。これらを組み合わせれば、「自分が読みたい本を、自分のために読んでくれる仕組み」が作れるのではないか。そう思って挑戦を始めた。

読み聞かせていた本

やったこと

まず「本当に自分が考えていることは実現できるのか」を調べるために、AIに相談してみた。

やりたいことを整理して伝えた:

  • 紙の本をOCRでテキスト化する
  • テキストをTTSで音声に変換する
  • この一連の仕組みを自分のPC(RTX5090 / WSL2環境)で動かす

すると、「それは可能です」と返ってきた。

次に、どんなモデルが使えるのか、自分のPC環境で動かせるのかを整理した。スペックをまとめてAIに伝えると、より具体的なステップを作ってくれて、開発の道筋が一気に見えてきた。

結果

AIとの相談で、以下の道筋が整理できた:

  • OCR:オープンソースのモデルで紙の本をテキスト化できる
  • TTS:音声生成モデルで自然な読み上げが可能
  • 環境:RTX5090 + WSL2の自分の環境で十分動かせる

頭の中のぼんやりしたアイデアが、具体的な手順に変わった。「可能か不可能か」の目安がついたのが一番の収穫だった。

うまくいった点

  • AIに相談して”言語化”できた — 漠然と「できたらいいな」と思っていたことが、相談することで具体的な技術要素と手順に分解できた
  • 自分の環境で現実的にできると確認できた — ハイスペックPCを持っている強みを活かせる場面だとわかった
  • 開発の全体像が見えた — OCR→テキスト整形→TTS→音声出力という流れが明確になった

失敗・課題

  • まだ何も動かしていない — 相談しただけで、実際にソフトウェアを触っていない。ここからが本番
  • 精度の不安 — OCRの精度やTTSの自然さは、実際に試してみないとわからない
  • 著作権の整理が必要 — 個人利用の範囲を確認しておく必要がある

次にやること

  • 必要なソフトウェアを一つずつダウンロードして、実際に手を動かす
  • まずOCRから試して、紙の本がどの程度テキスト化できるか検証する
  • うまくいけばTTSに進み、実際に音声を生成してみる

この実験で使った機材 【PR】