多模态GPT-4o发布,调用及测试/ ai #35

in STEEM CN/中文22 days ago

今天又被OpenAI刷屏了! 多模态GPT-4o的发布和演示又一次引发了大众的热情!看了官方的演示,我觉得还好:有些进步,但也谈不上有多兴奋!大概是兴奋期过去了,除非是革命性的进展,否则有些难打动我啰!

与其临渊羡鱼,不如退而结网。自己亲自动手测测才有发言权。在它的文档中,和gpt-4-vision-preview一样有个 image_url的参数,这是支持传入图片。演示中的语音功能看来是用别的模型实现的。

以下是测试代码:

GPT-4o

GPT-4o (“o” for “omni”) is our most advanced model. It is multimodal (accepting text or image inputs and outputting text), and it has the same high intelligence as GPT-4 Turbo but is much more efficient—it generates text 2x faster and is 50% cheaper. Additionally, GPT-4o has the best vision and performance across non-English languages of any of our models. GPT-4o is available in the OpenAI API to paying customers. Learn how to use GPT-4o in our text generation guide.

GPT-4o ("o "表示 "omni")是我们最先进的型号。它是多模态的(接受文本或图像输入并输出文本),具有与 GPT-4 Turbo 相同的高智能,但效率更高--生成文本的速度快 2 倍,成本低 50%。此外,GPT-4o 在非英语语言方面的视觉和性能也是我们所有型号中最好的。

import OpenAI from "openai"
import dotEnv from "dotenv"

dotEnv.config()
const apiKey = process.env.API_KEY

const Openai = new OpenAI({
  apiKey: apiKey
})

async function main() {
  const response = await Openai.chat.completions.create({
    model: "gpt-4o",
    messages: [
      {
        role: "user",
        content: [
          { type: "text", text: "图片里有什么" },
          {
            type: "image_url",
            image_url: {
              "url": "https://ipfs.ilark.io/ipfs/QmadtZxXPTVS9q2qArZHpZaRjYmF9o5HMxj6Hdgc59dGpR",
            },
          },
        ],
      },
    ],
  });
  console.log(635, response.choices[0])
}
main()

例图如下:

回复:
content: '图片中展示了一个手工工艺品的工作台面。主要物体是一个带有复杂雕刻的绿色陶瓷花瓶,花瓶高大且装饰华丽。周围还有一些其他陶瓷物品,包括一个盖碗和几只小碗。背景中可以看到一些工 具、材料和一个正在工作的空间。工作台上比较凌乱,显示出这是一个正在进行手工制作的场景。'

从回复中可以看出GPT-4o基本上理解了这个场景和物体,主次分得挺清的,确实不错!基于图像功能的应用设计也在考虑中,希望能够在实际的场景中应用。GPT-4o的更新会是近几天调试后在AI·Joe上添加,敬请期待。

Coin Marketplace

STEEM 0.27
TRX 0.11
JST 0.030
BTC 71077.17
ETH 3807.29
USDT 1.00
SBD 3.47