2024-10-09

大家好今天给大家介绍一下

open AI新出的这个Realtime API

这个东西其实已经出了好几天了

但是嗯

一直没有去

就是去关注他这个东西

这个东西干什么的呢

其实很简单

就是啊

主要是为了服务这种跟AI模型

这种语音通信

这种交互的这种场景

就是过去呢

我们在跟AI模型打交道的时候

如果你要去通过声音说话对吧

然后驱动它去做什么事情的时候

这里面有很多的步骤

跟这个环节最少有五步

第一步是什么呢

就是首先它要有一个

AI里面有一个阶段叫ASR

什么意思呢

就是呃Audio哼speech recognization

就是声音的识别

声音识别出来之后的结果是什么呢

就是它会变成一个TXT

就变成文本

就是所有的底层的跟AI模型打交道

其实都是文本

为什么呢

就是因为你跟他打交道的

今天的所有所谓的AI模型都是什么

都是大语言模型

就全是基于文本的语言模型

所以呢必须是文本跟他交互

那所以交互完之后呢

这个大语言模型出来的东西也是TXT的

就是文本的

这时候呢

他要说播放给你听的时候

就需要另一个AI能力叫什么

叫TTS就是text to speech

就是说白了文本再到语言对吧

所以你会发现

其实从我们说话

然后到驱动AI 模型做事情

然后再出来的时候

他再说给你听

其实里边呢

牵扯了至少5步

这个关键的一个步

骤对吧但是呢

这个东西有什么问题呢

就是一个是网络延迟

另外一个呢

就是latency(时延)

什么意思呢

就是从你说话

他可能要过去呢

可能要停顿

可能10秒或多少秒

今天可能压缩到

好比说啊3秒压缩到1秒或者怎么样

或通过很多过去呢

他这个Latency(时延)很长的时候

会通过一些产品性的这种设计

比如说通过一些“哔~”

然后有一个时间

然后拉长

那其实这个东西其实啊

没有做任何事情

他只是为了让你从感官上觉得

说他在做事情

但其实啊

只是为了把这个东西时间的压

压缩到很短的一个时间

这样的话给你的反馈就是说你说完话

他马上就给你反反应对吧

如果这个这个时间很长的时候

就会你觉得说啊你要等

这样就就交互上不是很自然对吧

所以呢

今天OpenAI推的这个东西呢

其实是目的呢

就是把这个东西呢

全都压到一个里边去

哈哈说白了

就是你不需要自己处理

各种AI模型之间的这些东西

然后它跟你压缩成一个API

这样的话目的就是什么啊

你你你只要去输入

然后拿到输出

然后整个事情就搞定了

甚至于中间的所有这些优化

Latency(时延)优化对吧

时间的优化它都帮你搞定

然后你只要通过说啊

webrtc或是或是WebSocket的这种协议

去跟这个API通信就可以了

这样的话你在你打造产品的时候

说白了

这些基础设施东西

你就不用care(关心)了

对吧你要干的永

远是根据场景来做产品

哈哈就是什么英语学习啦对吧

然后一对一对话啦

所有这些东西

就是你直接调(用)它就好了

他现在唯一目的

唯一的一个问题是什么呢

就是太贵了

哈哈就是就是TOKEN太贵了

为什么呢

就是他会把所有的

就是你跟他语音说话这些东西的TOKEN

全都每一次都压到这个模型里面去

那这样的话说白了

它的TOKEN其实一直在增长

所以呢就是表现出来的这个

这个现在这个API就是比较贵

将来可能随着算力了或者模型的升级

可能会降下来

这个时候

可能就会出现一个比较繁荣的

基于AI的一个产品的一个生态

所以这就是今天跟大家介绍的

这样一个东西

说白了这个对于将来呃

人类真正的很自然的通过说话对吧

然后跟人家模型打交道

这样一个(场景)是一个比较

你可以认为它是一个一个比较

里程碑的一个东西

但其实本质上来讲

它是其实把过去做的事情

做了一个优化

然后进行了一个封装

让大家在做产品的时候

用它的时候比较方便

就做了这么一个事情

返回(Go Back)

向扶墙老师提问

如果有任何架构相关的问题,也欢迎通过点击或者扫描二维码提问

欢迎加入「福强私学」

一起探索「技术、商业与人」

footer img for kb.afoo.me