老大,是这样的,目前AI大家都已经支持多模态了,这就涉及到把文件或者图片传给AI的问题,像GPT4-vision这种或者国产KIMI都是有传文件的一点额外参数的,老大您看您要不要content从原来的传纯文本变成可以传一个列表,至于列表内的内容我们可以自己在动作内灵活的自己写:
以下以kimi为例(和GPT接口保持一致):
一般纯文本GPT:
{
"messages": [
{
"role": "user",
"content": "测试"
}
],
// 是否开启联网搜索,默认false
"use_search": true,
// 如果使用SSE流请设置为true,默认false
"stream": false
}
解读文档:
{
"messages": [
{
"role": "user",
"content": [
{
"type": "file",
"file_url": {
"url": "https://mj101-1317487292.cos.ap-shanghai.myqcloud.com/ai/test.pdf"
}
},
{
"type": "text",
"text": "文档里说了什么?"
}
]
}
],
// 建议关闭联网搜索,防止干扰解读结果
"use_search": false
}
解读图片:
{
"messages": [
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {
"url": "https://www.moonshot.cn/assets/logo/normal-dark.png"
}
},
{
"type": "text",
"text": "图像描述了什么?"
}
]
}
],
// 建议关闭联网搜索,防止干扰解读结果
"use_search": false
}
总的来说,诉求就是让我们的content从原来的传纯文本变成可以传一个列表,这样就可以有更强的自由度,适配现在前沿的各种多模态的GPT。