DrowseBook 入梦书 · 05 · 技术选择：为什么首版只用 Apple 系统 TTS

听书产品最容易被“更像真人的声音”诱惑，然后把架构推向云端 TTS、API key、网络队列、费用计量和隐私解释。DrowseBook 首版刻意没有走这条路。

AVSpeechSynthesizer 的优势不在营销，而在系统整合：离线可用、无需上传文本、支持后台音频、能接锁屏和控制中心，也能使用用户已经安装的系统语音。

这个选择体现了一个独立产品的取舍：先把稳定的闭环做出来，再评估是否增加更高品质的可选语音，而不是一开始就把核心体验绑到外部服务。

开发细节补充：这篇记录放在 DrowseBook 入梦书的产品日记里，不是为了把一个功能包装成故事，而是把“05 · 技术选择：为什么首版只用 Apple 系统 TTS”放回真实项目推进中看。它要同时回答三件事：用户为什么需要这个点，开发时哪些边界必须先定住，以及这个选择会怎样影响上架、推广和后续课程复盘。平台口径是 iPhone / iOS / 端侧，当前公开状态是 App Store / v1.1 已通过 / 无追踪，所以文案不能脱离真实发布进度。

对应的 docs 线索主要来自 DrowseBook 产品策略、格式解析和加载架构记录、v1.1 迭代总记录、外部提审与本地完成度审计。公开页面不会照搬内部工作记录，而是把可公开、可学习、不会泄露私密路径和账号信息的事实整理出来。DrowseBook 的 docs 很完整：开发哲学、22 条痛点功能清单、UI 结构、格式语言覆盖、定价买断、外部提审和完成审计都有记录。开发计划连续记录了 EPUB、PDF、TXT、MOBI、AZW3 的格式对齐，惰性加载、章节热区、图片管线和阅读听书进度统一。 v1.1 记录把导入文件夹、音景、继续阅读、收费墙口径和多语言上架放在同一轮迭代里，说明它已经进入真实产品修补阶段。公开文章要把这些工程事实翻译成用户能理解的选择：为什么本地、为什么系统 TTS、为什么一次买断、为什么少打扰。

从产品功能看，DrowseBook 入梦书关联的能力包括：支持 EPUB、PDF、TXT、MOBI、AZW3、Apple 系统语音朗读、环境声和睡眠计时、无账号、无广告、无追踪。写这类日记时，不能只说“做了什么”，还要说明为什么先做这些、为什么暂时不做另一些。比如一个按钮、一个导入流程、一个本地模型开关或一段截图文案，放在代码里只是小改动，放在产品里却会影响用户理解、审核员复现和后续推广素材。

从工程推进看，这篇日记对应的检查点是：本地文件导入、TTS 和睡眠场景；v1.1 已于 2026-06-21 用户确认审核通过；生活工具类 App 的产品页案例。真实开发最容易失真的是中间过程，因为最后页面看起来只有一个结果，但实际会经历方案取舍、权限确认、素材准备、测试设备、审核备注和发布节奏。把这些过程写下来，后面做同类产品时才不会重新踩同一个坑。

从隐私和合规看，当前约束是：书籍文件、阅读位置和设置保存在 App sandbox，不使用账号和第三方追踪。这类信息必须前置到开发日记里，因为独立产品的可信度不是靠口号建立的，而是靠数据在哪里处理、用户能不能退出、功能是否离线可用、商店页怎么承诺、隐私政策是否与实现一致这些小事实积累出来的。

从课程和复用看，这篇内容可以沉淀到 iOS 本地阅读、TTS、安静产品设计、App Store 隐私标签。它的价值不只是给访问者看一个产品，而是展示一个独立开发者怎样把想法转成可验证的产品：先收窄场景，再选技术路径，再做体验最小闭环，最后把审核、推广、运营数据和失败教训都纳入下一次迭代。

本地阅读工具要先建立可信边界，再用格式支持、性能和安静体验证明价值。这也是为什么每篇产品日记都要写到足够长：不是为了凑字数，而是为了把“证据、决策、实现、边界、复盘”都放在同一页，让读者看到一个判断是怎样被逐步验证出来的。最难的是让多格式阅读、TTS、进度、性能和睡眠场景互相配合，而不是变成功能堆叠。

所以这篇日记的结论不是“功能已经写完”，而是把一个阶段的判断公开化：哪些证据足够支撑继续推进，哪些资料还需要回到源码、商店材料、公开文案或运营观察里补齐。这样的记录会比单纯的发布公告更慢，但也更真实，能让产品页、发布记录和课程内容保持同一条事实线。

验收时我会把它拆成四个层次：第一层是用户路径能不能走通，第二层是异常状态有没有被诚实处理，第三层是页面上的按钮、状态、截图和文案是否对应真实发布渠道，第四层是公开证据能否支撑这个判断。只要其中一层对不上，产品看起来再完整，也不能算真正进入下一个阶段。

交接时也要保留边界：源码、构建、测试、商店元数据、公开文案、平台反馈和运营观察分别保存原始资料。产品日记只把这些事实翻译成读者能理解的过程，不替任何私有记录保存原始材料。

把这些内容公开出来，还有一个很现实的原因：AI 教程如果只展示成功结果，很容易让人误以为产品是一次生成出来的。真实情况恰好相反，真正可学习的是一次次收窄、验证、失败、补证据和重新提交。日记越具体，后续读者越能看到判断的脉络，而不是只看到一个漂亮的截图。

为什么不用云 TTS

云 TTS 的音色可能更吸引人，但会引入几个根本问题：用户书籍文本需要离开设备，播放依赖网络，API 成本会变成计费压力，隐私政策也必须说明第三方处理链路。

对 DrowseBook 来说，这些代价和产品哲学冲突。它不是语音模型展示 App，而是一个把用户文件稳定读出来的本地工具。

句级队列比整段喂入更可控

听书不能只是把整章文本扔给系统语音。更好的做法是把文本切成句子队列，每句播放完推进下一句，并同步当前句高亮、进度和跳转。

这样可以处理暂停、继续、上一句、下一句、章节切换和睡眠定时。播放起点也能和当前可见页面一致，避免用户点播放后突然从旧位置开始读。

后台播放是产品级能力

用户听书时经常会锁屏。DrowseBook 需要正确设置音频会话、Now Playing 信息和远程命令，让锁屏、控制中心、耳机和车载音响都能控制播放。

这比在界面上做一个漂亮播放按钮更重要。真正的听书体验发生在屏幕熄灭之后。

保留未来语音升级，但不让它支配 v1

未来可以评估本地高品质 TTS 或用户自带语音模型，但它必须是可选增强，不能破坏离线、隐私和买断承诺。

这也是技术选择的纪律：不要把一个还没验证的亮点技术放到产品主路径上。首版先让用户安心听完一本书。