ChatGPT又更新了:语音和图像交互即将面世。
昨晚,OpenAI在一篇最新的博客中表示,ChatGPT将推出新的语音和图像功能。
用户不仅可以在文本框中输入提示,还可以通过语音或图像与ChatGPT交流。
据 OpenAI 称,新功能将在未来两周内向 ChatGPT 付费用户推出,不久之后会推广到其他用户。
ChatGPT新增语音和图像功能
据介绍,用户只需轻轻点击一个按钮,然后提出问题,便可以与ChatGPT进行语音交流。
ChatGPT将迅速将这些口述的问题转换成文本,并将其输入至大型语言模型中。随后,ChatGPT会将这些答案再次转化为语音来回答问题。
这一体验类似于与 Alexa 或谷歌助手对话,但 OpenAI 致力于不断改进底层技术,提高回答问题的质量。
语音转文本的任务由OpenAI的Whisper模型提供支持。同时,该公司正在引入一款全新的文本转语音模型,据称可以通过仅几秒钟的语音样本生成与人类相似的音频。
用户还可以从5个不同的选项中选择ChatGPT的声音。
此外,OpenAI 正在与 Spotify 合作,将播客内容翻译成其他语言,同时保留播客主持人的声音。
图片搜索功能类似于 Google Lens。
用户只需拍摄感兴趣的照片,ChatGPT就可以解读照片中的信息并提供相应的答案。