之前预告的 iOS 系统双语字幕 App,终于完成了。废话不多说,直接展示效果。目前的实现是通过 iOS 系统接口进行的,作为一个 baseline,后面也可以接入第三方开源方案。文末有项目链接,各位道友自取。

模块流程

graph LR A[捕获系统播放音频] --> B[语音识别ASR] B --> C[语言翻译] B --> D[双语字幕] C --> D

效果展示

一些感想

这也是第一个完全 AI Coding 的项目,有了 AI Coding 后有了一种自己无所不能的错觉。作为一个大龄程序员,已经放弃抵抗了,打不过咱就加入。

AI 是放大器

在做这个 Project 的过程中,对我来说最大的困难是 UI 部分。关于 AICoding 的一些感想和后续的规划 中提到的,AI 的能力约等于使用者自身的能力。最近听到"AI 是放大器"这个说法,这个比喻可真的是贴切形象了。假如 AI 可以放大 10 倍,如果应用在你熟悉的领域是 10 分,放大后就是 100 分;如果应用在你不熟悉的领域,比如 iOS 客户端开发,对我来说约等于 0 分,放大后也是约等于 0 分。那这个时候就看天吃饭了,AI 给什么就吃什么,就算有问题我也无法判断,更别说是纠正 AI 了。所以网上一堆零基础开发一个 App 上线并产生收入的,真的可能吗?难道我的使用姿势不对?

狠狠地用起来

虽然对于自己不熟悉的领域,使用 AI 产生可用代码的偶然性挺大的,不过作为 AI 协作者,AI 在学习人类的代码,人类也可以学习 AI 的代码。在这个项目中,对于自己不熟悉的客户端 UI 部分的代码,我就会让 AI 给我讲解一遍,从语法到架构、为什么这么写。在提问 → 学习 → 再提问 → 再学习的不断迭代过程中,也在慢慢提高 AI 输出自己不熟悉代码的可控性和判断力。

现在是将想法落地最好的时代。以前你可能会卡在某个问题因为找不到有效的解答而不了了之,或者因为某个技术不懂而不能落地,但是现在你随时可以通过 AI 大模型得到你想要的答案,协助你实现自己的 idea。要像大神 Karpathy 一样,因为 token 没用完而感到焦虑,不停去跟 AI 交流、提问、讨论,落地想法。去尝试将 AI 嵌入到自己的工程流程中,这个我也还没找到方向,但是我觉得这个方向是没错的。狠狠地、使劲用起来吧。

项目链接

DoubleSubtitleUseSystemAPI