🤖 AI実験室
「この本、代わりに読んでくれたらいいのに」AIで実現できるか挑戦を始めた話
子どもが小さかった頃、毎晩の読み聞かせで気づけば自分が先に寝落ちしていた。「この本、代わりに読んでくれたらいいのに」——ずっとそう思っていた。AIが一気に進化した今、それを自分で作れるかもしれない。そう思って、開発への挑戦を始めた。
やってみた理由
きっかけは、ずっと感じていた3つの「読みたいのに読めない」問題だった。
- 読み聞かせで自分が先に寝てしまう — 寝かしつけているはずの父親が先に寝落ちする、あるあるの状態がずっと続いていた
- 読みたい本の音声版がない — 朗読サブスクを試したが、「これが読みたい」という作品がなかったり、全巻そろえると高額だったり、サブスク対象外だったりと満足できなかった
- 目が疲れて読み進められない — 長く読んでいると目が滑って内容が入ってこない。出かける時に耳で続きが聞けたらどれだけ便利かと思っていた
YouTubeの「音読してみた」動画も使っていたが、「今、目の前にあるこの本を読んでほしい」という気持ちには応えてくれない。通勤中はラジオや音声コンテンツをよく聴いていて、耳で聴くことの良さはずっと実感していた。
そんな中、AIが一気に進化してきた。音声生成モデル、テキスト編集モデル、OCRのオープンソース。これらを組み合わせれば、「自分が読みたい本を、自分のために読んでくれる仕組み」が作れるのではないか。そう思って挑戦を始めた。

やったこと
まず「本当に自分が考えていることは実現できるのか」を調べるために、AIに相談してみた。
やりたいことを整理して伝えた:
- 紙の本をOCRでテキスト化する
- テキストをTTSで音声に変換する
- この一連の仕組みを自分のPC(RTX5090 / WSL2環境)で動かす
すると、「それは可能です」と返ってきた。
次に、どんなモデルが使えるのか、自分のPC環境で動かせるのかを整理した。スペックをまとめてAIに伝えると、より具体的なステップを作ってくれて、開発の道筋が一気に見えてきた。
結果
AIとの相談で、以下の道筋が整理できた:
- OCR:オープンソースのモデルで紙の本をテキスト化できる
- TTS:音声生成モデルで自然な読み上げが可能
- 環境:RTX5090 + WSL2の自分の環境で十分動かせる
頭の中のぼんやりしたアイデアが、具体的な手順に変わった。「可能か不可能か」の目安がついたのが一番の収穫だった。
うまくいった点
- AIに相談して”言語化”できた — 漠然と「できたらいいな」と思っていたことが、相談することで具体的な技術要素と手順に分解できた
- 自分の環境で現実的にできると確認できた — ハイスペックPCを持っている強みを活かせる場面だとわかった
- 開発の全体像が見えた — OCR→テキスト整形→TTS→音声出力という流れが明確になった
失敗・課題
- まだ何も動かしていない — 相談しただけで、実際にソフトウェアを触っていない。ここからが本番
- 精度の不安 — OCRの精度やTTSの自然さは、実際に試してみないとわからない
- 著作権の整理が必要 — 個人利用の範囲を確認しておく必要がある
次にやること
- 必要なソフトウェアを一つずつダウンロードして、実際に手を動かす
- まずOCRから試して、紙の本がどの程度テキスト化できるか検証する
- うまくいけばTTSに進み、実際に音声を生成してみる
この実験で使った機材 【PR】
- パンどろぼうとなぞのフランスパン — 子どもに読み聞かせていた絵本。これがすべてのきっかけ