老大,是这样的,目前AI大家都已经支持多模态了,这就涉及到把文件或者图片传给AI的问题,像GPT4-vision这种或者国产KIMI都是有传文件的一点额外参数的,老大您看您要不要content从原来的传纯文本变成可以传一个列表,至于列表内的内容我们可以自己在动作内灵活的自己写:
以下以kimi为例(和GPT接口保持一致):
一般纯文本GPT:
{
    "messages": [
        {
            "role": "user",
            "content": "测试"
        }
    ],
    // 是否开启联网搜索,默认false
    "use_search": true,
    // 如果使用SSE流请设置为true,默认false
    "stream": false
}
解读文档:
{
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "file",
                    "file_url": {
                        "url": "https://mj101-1317487292.cos.ap-shanghai.myqcloud.com/ai/test.pdf"
                    }
                },
                {
                    "type": "text",
                    "text": "文档里说了什么?"
                }
            ]
        }
    ],
    // 建议关闭联网搜索,防止干扰解读结果
    "use_search": false
}
解读图片:
{
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://www.moonshot.cn/assets/logo/normal-dark.png"
                    }
                },
                {
                    "type": "text",
                    "text": "图像描述了什么?"
                }
            ]
        }
    ],
    // 建议关闭联网搜索,防止干扰解读结果
    "use_search": false
}
总的来说,诉求就是让我们的content从原来的传纯文本变成可以传一个列表,这样就可以有更强的自由度,适配现在前沿的各种多模态的GPT。