大家好今天给大家介绍一下
open AI新出的这个Realtime API
这个东西其实已经出了好几天了
但是嗯
一直没有去
就是去关注他这个东西
这个东西干什么的呢
其实很简单
就是啊
主要是为了服务这种跟AI模型
这种语音通信
这种交互的这种场景
就是过去呢
我们在跟AI模型打交道的时候
如果你要去通过声音说话对吧
然后驱动它去做什么事情的时候
这里面有很多的步骤
跟这个环节最少有五步
第一步是什么呢
就是首先它要有一个
AI里面有一个阶段叫ASR
什么意思呢
就是呃Audio哼speech recognization
就是声音的识别
声音识别出来之后的结果是什么呢
就是它会变成一个TXT
就变成文本
就是所有的底层的跟AI模型打交道
其实都是文本
为什么呢
就是因为你跟他打交道的
今天的所有所谓的AI模型都是什么
都是大语言模型
就全是基于文本的语言模型
所以呢必须是文本跟他交互
那所以交互完之后呢
这个大语言模型出来的东西也是TXT的
就是文本的
这时候呢
他要说播放给你听的时候
就需要另一个AI能力叫什么
叫TTS就是text to speech
就是说白了文本再到语言对吧
所以你会发现
其实从我们说话
然后到驱动AI 模型做事情
然后再出来的时候
他再说给你听
其实里边呢
牵扯了至少5步
这个关键的一个步
骤对吧但是呢
这个东西有什么问题呢
就是一个是网络延迟
另外一个呢
就是latency(时延)
什么意思呢
就是从你说话
他可能要过去呢
可能要停顿
可能10秒或多少秒
今天可能压缩到
好比说啊3秒压缩到1秒或者怎么样
或通过很多过去呢
他这个Latency(时延)很长的时候
会通过一些产品性的这种设计
比如说通过一些“哔~”
然后有一个时间
然后拉长
那其实这个东西其实啊
没有做任何事情
他只是为了让你从感官上觉得
说他在做事情
但其实啊
只是为了把这个东西时间的压
压缩到很短的一个时间
这样的话给你的反馈就是说你说完话
他马上就给你反反应对吧
如果这个这个时间很长的时候
就会你觉得说啊你要等
这样就就交互上不是很自然对吧
所以呢
今天OpenAI推的这个东西呢
其实是目的呢
就是把这个东西呢
全都压到一个里边去
哈哈说白了
就是你不需要自己处理
各种AI模型之间的这些东西
然后它跟你压缩成一个API
这样的话目的就是什么啊
你你你只要去输入
然后拿到输出
然后整个事情就搞定了
甚至于中间的所有这些优化
Latency(时延)优化对吧
时间的优化它都帮你搞定
然后你只要通过说啊
webrtc或是或是WebSocket的这种协议
去跟这个API通信就可以了
这样的话你在你打造产品的时候
说白了
这些基础设施东西
你就不用care(关心)了
对吧你要干的永
远是根据场景来做产品
哈哈就是什么英语学习啦对吧
然后一对一对话啦
所有这些东西
就是你直接调(用)它就好了
他现在唯一目的
唯一的一个问题是什么呢
就是太贵了
哈哈就是就是TOKEN太贵了
为什么呢
就是他会把所有的
就是你跟他语音说话这些东西的TOKEN
全都每一次都压到这个模型里面去
那这样的话说白了
它的TOKEN其实一直在增长
所以呢就是表现出来的这个
这个现在这个API就是比较贵
将来可能随着算力了或者模型的升级
可能会降下来
这个时候
可能就会出现一个比较繁荣的
基于AI的一个产品的一个生态
所以这就是今天跟大家介绍的
这样一个东西
说白了这个对于将来呃
人类真正的很自然的通过说话对吧
然后跟人家模型打交道
这样一个(场景)是一个比较
你可以认为它是一个一个比较
里程碑的一个东西
但其实本质上来讲
它是其实把过去做的事情
做了一个优化
然后进行了一个封装
让大家在做产品的时候
用它的时候比较方便
就做了这么一个事情
向扶墙老师提问
如果有任何架构相关的问题,也欢迎通过点击或者扫描二维码提问