后台是在什么时机调用大模型的呢? 是用户语音输入后 停顿N秒? 调大模型的时候会传哪段时间范围内的图片帧呢? 如果用户没有语音输入,会调用大模型吗?
后台是在什么时机调用大模型的呢?
是用户语音输入后 停顿N秒?
调大模型的时候会传哪段时间范围内的图片帧呢?
如果用户没有语音输入,会调用大模型吗?