北京时间 2024 年 5 月 14 日凌晨,OpenAI 在线上举办了“春季更新”活动,活动中发布了新旗舰模型“GPT-4o”。OpenAI 发布了新旗舰模型 GPT-4o,引起了广泛关注。GPT-4o 可以实时对音频、视觉和文本进行推理,在图像和音频理解方面表现出色。
GPT-4o具体如下核心特点:
增加语音交互:GPT-4o 最大的特点是增加了语音交互功能,响应时间更快,可以减少延时,更接近和真人对话的节奏。
全能模型:GPT-4o 中的“o”代表“omni”,意为全能。它可以接受文本、音频和图像的三者组合作任意输入内容,并生成文本、音频和图像的任意组合输出内容。
在视觉和音频理解方面表现出色:与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。
实时推理:GPT-4o 可以在音频、视觉和文本中进行实时推理。
训练了跨文本、视觉和音频的端到端新模型:这是 OpenAI 第一个结合所有这些模式的模型。
内置了跨模式的安全性:通过过滤训练数据和训练后改进模型行为等技术,GPT-4o 在设计中内置了跨模式的安全性,并创建了新的安全系统,为语音输出提供护栏。
与外部专家开展广泛的合作:GPT-4o 还与来自社会心理学、偏见和公平、错误信息等领域的 70 多名外部专家开展广泛的外部红队合作,以识别新增加的模式引入或放大的风险,提高与 GPT-4o 互动的安全性。
在音频输入方面,GPT-4o 可以在 232 毫秒内对音频输入做出反应,与人类在对话中的反应时间相近。在录播视频中,机器人能够从急促的喘气声中理解“紧张”的含义,并指导进行深呼吸。
图像输入方面,GPT-4o 也展现出了强大的能力。演示视频显示,它可以轻松完成一元方程题,还能实时解读代码和电脑桌面。
性能方面,根据传统基准测试,GPT-4o 在AI写作、推理和编码等方面实现了与 GPT-4 Turbo 级别相当的性能,同时在多语言、音频和视觉功能方面的表现分数也创下了新高。
总的来说,GPT-4o 的发布是人工智能领域的一次重要进展,为更自然、更智能的人机交互提供了新的可能性。未来,GPT-4o 有望在各个领域得到广泛应用,推动人工智能技术的发展和创新。