OpenAI 发布 GPT-4o：实时推理，迈向更自然人机交互

北京时间 2024 年 5 月 14 日凌晨，OpenAI 在线上举办了“春季更新”活动，活动中发布了新旗舰模型“GPT-4o”。OpenAI 发布了新旗舰模型 GPT-4o，引起了广泛关注。GPT-4o 可以实时对音频、视觉和文本进行推理，在图像和音频理解方面表现出色。

GPT-4o

GPT-4o具体如下核心特点：

增加语音交互：GPT-4o 最大的特点是增加了语音交互功能，响应时间更快，可以减少延时，更接近和真人对话的节奏。

全能模型：GPT-4o 中的“o”代表“omni”，意为全能。它可以接受文本、音频和图像的三者组合作任意输入内容，并生成文本、音频和图像的任意组合输出内容。

在视觉和音频理解方面表现出色：与现有模型相比，GPT-4o 在视觉和音频理解方面尤其出色。

实时推理：GPT-4o 可以在音频、视觉和文本中进行实时推理。

训练了跨文本、视觉和音频的端到端新模型：这是 OpenAI 第一个结合所有这些模式的模型。

内置了跨模式的安全性：通过过滤训练数据和训练后改进模型行为等技术，GPT-4o 在设计中内置了跨模式的安全性，并创建了新的安全系统，为语音输出提供护栏。

与外部专家开展广泛的合作：GPT-4o 还与来自社会心理学、偏见和公平、错误信息等领域的 70 多名外部专家开展广泛的外部红队合作，以识别新增加的模式引入或放大的风险，提高与 GPT-4o 互动的安全性。

在音频输入方面，GPT-4o 可以在 232 毫秒内对音频输入做出反应，与人类在对话中的反应时间相近。在录播视频中，机器人能够从急促的喘气声中理解“紧张”的含义，并指导进行深呼吸。

图像输入方面，GPT-4o 也展现出了强大的能力。演示视频显示，它可以轻松完成一元方程题，还能实时解读代码和电脑桌面。

性能方面，根据传统基准测试，GPT-4o 在AI写作、推理和编码等方面实现了与 GPT-4 Turbo 级别相当的性能，同时在多语言、音频和视觉功能方面的表现分数也创下了新高。

总的来说，GPT-4o 的发布是人工智能领域的一次重要进展，为更自然、更智能的人机交互提供了新的可能性。未来，GPT-4o 有望在各个领域得到广泛应用，推动人工智能技术的发展和创新。

热门阅读