OpenAI 的新 ChatGPT 语音和图像选项令人兴奋

苹果的 Siri 和亚马逊的 Alexa 现在在 OpenAI 最新版本的 ChatGPT 中拥有强大的竞争。聊天机器人现在具有新功能,允许用户与它交谈并接收音频响应。

根据 OpenAI 在其网站上的发行说明:

“我们开始在 ChatGPT 中推出新的语音和图像功能。它们提供了一种新的、更直观的界面类型,允许您进行语音对话或向 ChatGPT 展示您在谈论的内容。

“在旅行时拍一张地标性建筑的照片,并就它的有趣之处进行现场对话。当你在家时,拍下你的冰箱和食品储藏室的照片,弄清楚晚餐吃什么(并提出后续问题,以获得一步一步的食谱)。晚饭后,通过拍照,绕着问题集转圈,并让它与你们俩分享提示,帮助您的孩子解决数学问题。

对于聊天机器人来说,这是一个引人入胜的飞跃,可能会为数百万用户打开一个信息世界。首席执行官山姆·奥特曼(Sam Altman)在工作中付出的努力令人震惊,据《纽约杂志》(New York Magazine)报道,他非常努力地建造了他的第一个项目Loopt,以至于他患有营养不良并患上了坏血病——一种维生素C缺乏症,源于没有吃足够的水果和蔬菜。

现在,在以超过 40 万美元的价格出售这家初创公司十多年后,Altman 的公司允许 iOS 和 Android 上的 Plus 用户使用他们的声音与 ChatGPT 进行双边对话。’

“在旅途中与它交谈,要求睡前故事,或解决餐桌辩论,”该公司在公告中表示。

要通过语音使用该应用程序,请前往移动应用程序上的“设置”→“新功能”并选择加入语音对话。然后,点击位于主屏幕右上角的耳机按钮,然后从五种不同的声音中选择您喜欢的声音。

OpenAI 还宣布,Plus 用户现在可以向 ChatGPT 展示一张或多张图片。

“解决烤架无法启动的原因,探索冰箱中的内容以计划一顿饭,或分析与工作相关的复杂图表。要专注于图像的特定部分,您可以使用我们移动应用程序中的绘图工具。

要使用此功能,请点击照片按钮以拍摄或选择图像。您还可以讨论多张图片或使用我们的绘图工具来指导您的助手。如果您使用的是 iOS 或 Android,请先点击加号按钮。

OpenAI 解释说,图像理解由多模态 GPT-3.5 和 GPT-4 提供支持。

“这些模型将其语言推理技能应用于各种图像,例如照片、屏幕截图以及包含文本和图像的文档,”该公司表示。

当然,亚马逊周一宣布,它将向Anthropic投资高达4亿美元,Anthropic是一家由前OpenAI员工Dario和Daniela Amodei兄弟姐妹创立的AI初创公司。

据 The Verge 报道,与 Microsoft 迄今为止向 OpenAI 投资的 13 亿美元相比,这笔交易相对较小。

OpenAI 认识到其技术固有的风险并解决了这些问题。该公司表示,其目标是“建立安全且有益的AGI”。

该公司还表示,它相信“逐步提供我们的工具,这使我们能够随着时间的推移进行改进和完善风险缓解措施,同时也让每个人都为未来更强大的系统做好准备。

当然,这种策略在涉及语音和视觉的高级人工智能模型中变得更加重要。

OpenAI 的新技术能够从几秒钟的真实语音中制作出逼真的合成语音,为许多创造性和以可访问性为重点的应用程序打开了大门。然而,该公司承认,这些功能也带来了新的风险,“例如恶意行为者冒充公众人物或进行欺诈的可能性。

出于这个原因,Open AI解释说,它正在使用他们直接合作的配音演员,并以与Spotify类似的方式进行合作,Spotify正在使用这项技术来试点其语音翻译功能。

OpenAI承认,基于视觉的模型也“带来了新的挑战,从对人的幻觉到依赖模型对高风险领域图像的解释。

在更广泛地部署该技术之前,该公司表示,它测试了该模型“在极端主义和科学能力等领域的风险,以及一组不同的阿尔法测试人员”。

这项研究使该公司能够在重要和敏感的领域校准该技术,以确保它可以负责任地使用。

OpenAI 表示,它已采取“技术措施来显着限制 ChatGPT 分析和直接陈述人的能力,因为 ChatGPT 并不总是准确的,这些系统应该尊重个人的隐私。

由于用户可能依赖 ChatGPT 进行研究等专业主题,该公司表示,它对 AI 模型的局限性是“透明的”,因此不鼓励将其用于敏感领域,当然也无需验证。

技术方面的这一巨大进步显然伴随着巨大的风险,但兴奋是显而易见的,希望好处将超过威胁。

我们迫不及待地想看看接下来会发生什么!

作者:

喜欢围棋和编程。

 
发布于 分类 百科标签

发表评论

邮箱地址不会被公开。