清华等开源工具学习基准ToolBench,微调模型性能超越ChatGPT

2023-06-06 0 890

撰稿:LRS

【新智元编者按】辅助工具自学的开放源码黄金时代来了!

人类文明具备缔造和借助辅助工具的潜能,使他们能冲破皮肤的管制,积极探索更宽广的当今世界。

人工智慧此基础数学模型也类似于,假如单靠体能训练期获得的权重股,采用情景就会十分受到管制,而前段时间明确提出的辅助工具自学(tool learning),将某一应用领域的专用辅助工具与小规模此基础数学模型并重,能同时实现更高的工作效率、操控性。

但是现阶段辅助工具自学的有关科学研究还不如深入细致,也缺少有关的开放源码统计数据和标识符。

前段时间,北大大学语义处置生物医学等全力支持的开放源码街道社区OpenBMB (Open Lab for Big Model Base)正式发布了ToolBench工程项目,能协助开发人员构筑开放源码、小规模、高工作效率的命令Listary统计数据,推动构建具备通用型辅助工具采用潜能的小型词汇数学模型。

清华等开源工具学习基准ToolBench,微调模型性能超越ChatGPT

库房镜像:https://github.com/OpenBMB/ToolBench

ToolBench库房中提供了有关统计数据集、体能训练和评估脚本,以及在ToolBench上松动的功能数学模型ToolLLaMA,具体特点为:

1. 全力支持单辅助工具和多辅助工具方案

其中单辅助工具设置遵循LangChain提示风格,多辅助工具设置遵循AutoGPT的提示风格。

含数学模型的思维链过程、辅助工具执行和辅助工具执行结果

3. 全力支持真实当今世界级别的复杂性,全力支持多步辅助工具调用

4. 丰富的API,可用于现实当今世界中的情景,如天气信息、搜索、股票更新和PowerPoint自动化

5. 所有的统计数据都是由OpenAI API自动生成并由开发团队进行过滤,统计数据的创建过程很容易扩展

但是需要注意的是,现阶段正式发布的统计数据还不是最终版本,科学研究人员仍然在对统计数据进行后处置来提高统计数据质量,并增加真实当今世界辅助工具的覆盖范围。

ToolBench

ToolBench的总体思路是基于BMTools,在有监督统计数据中体能训练小型词汇数学模型。

清华等开源工具学习基准ToolBench,微调模型性能超越ChatGPT

库房中包含31.2万次真实API调用获得的9800条统计数据,涵盖单辅助工具情景和多辅助工具情景,下面是单辅助工具的统计信息。

清华等开源工具学习基准ToolBench,微调模型性能超越ChatGPT

其中每行统计数据都是一个json dict,包含统计数据创建的提示模板、辅助工具采用的人工命令(查询)、中间思维/辅助工具执行循环和最终答案。

Tool Descrition:BMTools Tool_name: translationTool action: get_translationaction_input: {“text”: target texts, “tgt_lang”: target language}Generated Data:{ “prompt”: “Answer the following questions as best you can. Specifically, you have access to the following APIs:\n\nget_translation: . Your input should be a json (args json schema): {{\”text\” : string, \”tgt_lang\” : string, }} The Action to trigger this API should be get_translation and the input parameters should be a json dict string. Pay attention to the type of parameters.\n\nUse the following format:\n\nQuestion: the input question you must answer\nThought: you should always think about what to do\nAction: the action to take, should be one of [get_translation]\nAction Input: the input to the action\nObservation: the result of the action\n… (this Thought/Action/Action Input/Observation can repeat N times, max 7 times)\nThought: I now know the final answer\nFinal Answer: the final answer to the original input question\n\nBegin! Remember: (1) Follow the format, i.e,\nThought:\nAction:\nAction Input:\nObservation:\nFinal Answer:\n (2) Provide as much as useful information in your Final Answer. (3) Do not make up anything, and if your Observation has no link, DO NOT hallucihate one. (4) If you have enough information and want to stop the process, please use \nThought: I have got enough information\nFinal Answer: **your response. \n The Action: MUST be one of the following:get_translation\nQuestion: {input}\n Agent scratchpad (history actions):\n {agent_scratchpad}”, “query”: “My intention is to convert the data provided in ما هي الأقسام الثلاثة للقوات المسلحة؟ into Arabic(ara).\n”, “chains”: [ { “thought”: “I need to use the get_translation API to convert the text into Arabic.”, “action”: “get_translation”, “action_input”: “{\”text\”: \”What are the three branches of the military?\”, \”tgt_lang\”: \”ara\”}”, “observation”: “\”ما هي الفروع الثلاثة للجيش ؟\”” } ], “answer”: “The translation of \”What are the three branches of the military?\” into Arabic is \”ما هي الفروع الثلاثة للجيش ؟\”.”}

数学模型实验

机器评估:科学研究人员对每个辅助工具随机抽取100个链步(chain steps)来构筑机器评估测试平台,平均27个最终步骤和73个中间辅助工具调用步骤,其中最终步骤的评估采用Rouge-L指标,中间步骤的评估采用ExactMatch指标进行评估。

清华等开源工具学习基准ToolBench,微调模型性能超越ChatGPT

人工评估:在天气、地图、股票、翻译、化学和WolframAlpha辅助工具中随机抽取10个query,然后评估辅助工具调用过程的通过率、最终答案以及和ChatGPT最终答案的比较。

ChatGPT评估:通过ChatGPT对LLaMA和ChatGPT的答案和工具采用链进行自动评估。

评估结果如下(分数越高越好),能看到ToolLLaMA在不同情景下与ChatGPT的操控性相同或更好。

清华等开源工具学习基准ToolBench,微调模型性能超越ChatGPT

辅助工具自学

在北大大学、人民大学、北京邮电大学等个国内外知名高校和大学联合正式发布的一篇论文中,对辅助工具自学进行了系统的科学研究,介绍了辅助工具自学的背景,包括认知起源、此基础数学模型的范式转变,以及辅助工具和数学模型的互补作用。

清华等开源工具学习基准ToolBench,微调模型性能超越ChatGPT

论文镜像:https://arxiv.org/pdf/2304.08354.pdf

文中还回顾了现有的辅助工具自学科学研究,包括辅助工具增强型和辅助工具导向型自学,并制定了一个通用型的辅助工具自学框架:从理解用户命令开始,数学模型应该学会把一个复杂的任务分解成几个子任务,通过推理动态地调整计划,并通过选择合适的辅助工具备效地征服每个子任务。

文中还讨论了如何体能训练数学模型以提高辅助工具采用潜能并推动辅助工具自学的普及。

考虑到之前的工作中缺少系统的辅助工具自学评估,科学研究人员用17种有代表性的辅助工具进行了实验,并展示了当前此基础数学模型在熟练借助辅助工具方面的潜力。

论文最后讨论了几个需要进一步科学研究的辅助工具自学的开放性问题,例如确保安全和可信赖的辅助工具采用、用此基础数学模型同时实现辅助工具创建,以及解决个性化的难题。

参考资料:

https://github.com/OpenBMB/ToolBench

举报/反馈

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务