多模态GPT-4o发布，调用及测试/ ai #35

lemooljiang (73)蒋老师in STEEM CN/中文 • 22 days ago

今天又被OpenAI刷屏了！多模态GPT-4o的发布和演示又一次引发了大众的热情！看了官方的演示，我觉得还好：有些进步，但也谈不上有多兴奋！大概是兴奋期过去了，除非是革命性的进展，否则有些难打动我啰！

与其临渊羡鱼,不如退而结网。自己亲自动手测测才有发言权。在它的文档中，和gpt-4-vision-preview一样有个 image_url的参数，这是支持传入图片。演示中的语音功能看来是用别的模型实现的。

以下是测试代码：

GPT-4o

GPT-4o (“o” for “omni”) is our most advanced model. It is multimodal (accepting text or image inputs and outputting text), and it has the same high intelligence as GPT-4 Turbo but is much more efficient—it generates text 2x faster and is 50% cheaper. Additionally, GPT-4o has the best vision and performance across non-English languages of any of our models. GPT-4o is available in the OpenAI API to paying customers. Learn how to use GPT-4o in our text generation guide.

GPT-4o （"o "表示 "omni"）是我们最先进的型号。它是多模态的（接受文本或图像输入并输出文本），具有与 GPT-4 Turbo 相同的高智能，但效率更高--生成文本的速度快 2 倍，成本低 50%。此外，GPT-4o 在非英语语言方面的视觉和性能也是我们所有型号中最好的。

import OpenAI from "openai"
import dotEnv from "dotenv"

dotEnv.config()
const apiKey = process.env.API_KEY

const Openai = new OpenAI({
  apiKey: apiKey
})

async function main() {
  const response = await Openai.chat.completions.create({
    model: "gpt-4o",
    messages: [
      {
        role: "user",
        content: [
          { type: "text", text: "图片里有什么" },
          {
            type: "image_url",
            image_url: {
              "url": "https://ipfs.ilark.io/ipfs/QmadtZxXPTVS9q2qArZHpZaRjYmF9o5HMxj6Hdgc59dGpR",
            },
          },
        ],
      },
    ],
  });
  console.log(635, response.choices[0])
}
main()

例图如下：

回复：
content: '图片中展示了一个手工工艺品的工作台面。主要物体是一个带有复杂雕刻的绿色陶瓷花瓶，花瓶高大且装饰华丽。周围还有一些其他陶瓷物品，包括一个盖碗和几只小碗。背景中可以看到一些工具、材料和一个正在工作的空间。工作台上比较凌乱，显示出这是一个正在进行手工制作的场景。'

从回复中可以看出GPT-4o基本上理解了这个场景和物体，主次分得挺清的，确实不错！基于图像功能的应用设计也在考虑中，希望能够在实际的场景中应用。GPT-4o的更新会是近几天调试后在AI·Joe上添加，敬请期待。

#cn #cn-reader #ai #agi #assistants #openai #gpt4o

STEEM 0.27

TRX 0.11

JST 0.030

BTC 71077.17

ETH 3807.29

USDT 1.00

SBD 3.47

多模态GPT-4o发布，调用及测试/ ai #35

GPT-4o

Coin Marketplace