通用 AI 常常会撞上“上下文之墙”——那些定义你所在世界的细微数据、工作流与专业直觉。智能体的真正力量不仅来自模型本身,更来自其Agent Harness(智能体驾驭框架):用于编排工具、记忆、上下文与执行过程的整体框架。
这就是AWorld 理念:仅有强大的 Harness 还不够。只有当像你这样的专家把宝贵知识嵌入其中,真正打通这堵墙,AI 的规模化价值才会被释放。
AWorld 正是为此而生的平台。我们提供一套完整、久经实战验证的 Harness 作为“配方”,帮助你(领域专家)把专业知识锻造成一支自主智能体舰队。我们一起超越 AI 的泛化承诺,构建稳健、精准、真正掌握你所在领域的应用。
看看当专家知识被编码成可复用的 Skill(技能) 会发生什么。下面这些成果都由 AWorld Agent 编排完成,体现了我们的核心规模化定律:社区贡献的专业能力越多,整个生态就越强。
从 一句话生成视频 到 深度搜索工作流,每个示例都在把专业 know-how 转化为可重复的生产能力。
这些只是今天已经做到的。想象一下,加入你的专业能力后我们还能创造什么。
| 能力 | 专业能力 | 效果演示 | 配方 |
|---|---|---|---|
| 创建应用 | • 由基座模型自动创建 • 由 UI Evaluation Skill 自动评估 |
![]() |
查看配方 |
| 深度搜索 | • 由 Agent Browser Skill 自动搜索 | ![]() |
查看配方 |
| 一句话做视频:三角恒等式 | • 由 Remotion Skill 自动创建 • 完整视频见 Youtube |
![]() |
查看配方 |
| 一句话做视频:企业培训 | • 由 Remotion Skill 自动创建 • 完整视频见 Youtube |
![]() |
查看配方 |
| 一句话做视频:品牌营销 | • 由 Video Diffusion 与 Audios Insert Skill 自动创建 • 完整视频见 Youtube |
![]() |
查看配方 |
| 一句话做视频:社交媒体 | • 由 Video Diffusion 与 Audios Insert Skill 自动创建 • 完整视频见 Youtube |
![]() |
查看配方 |
| 一句话做视频:Vtuber | • 由 Video Diffusion + Audio Generator + Video Embedded Skill 自动创建 • 完整视频见 Youtube |
![]() |
查看配方 |
从一个想法到一个可演进的自主智能体,旅程从你的指尖开始。
一次安装,全局配置,随处运行。
安装 AWorld-CLI
git clone https://github.com/inclusionAI/AWorld && cd AWorld
conda create -n aworld_env python=3.11 -y && conda activate aworld_env
pip install -e . && cd aworld-cli && pip install -e .配置并启动
cd 你的工作目录
aworld-cli --config配置完成后,只需在终端输入 aworld-cli,即可开始你的旅程。
或者,你也可以在工作目录中创建 .env 文件来配置模型与 API。详见 环境配置。
AWorld-CLI 不只是脚手架工具。它像一个中枢大脑(AWorld Agent),会编排多个专业子智能体,自主完成构建、评估,甚至持续演进其他智能体。
这套多智能体系统协同运作,把你的想法真正变成可运行成果:
| 智能体名称 | 角色与核心功能 |
|---|---|
| 👑 AWorld Agent | 总编排者:中心大脑,负责理解用户目标、制定计划、分派任务给对应子智能体,并管理端到端工作流。 |
| 🧑💻 Developer | 构建者:负责编写、调试、重构代码的核心执行者。 |
| 🧐 Evaluator | 评判者:质量保障专家。按客观标准评估 Developer 产出,提供演进循环所需关键反馈。 |
| 🎬 Video Diffusion | 视频生成者:基于扩散模型(如 Kling-V3)的子智能体,可根据文本或“文本+图片”输入生成视频。 |
| 🎤 Audio Generator | 语音生成者:基于 TTS 模型的子智能体,可将文本转换为语音音频。 |
| 🖼️ Image Generator | 图像生成者:可根据文本或“文本+图片”输入生成图像的子智能体。 |
假设你提出:“帮我做一个英语单词学习小程序,UI 质量评分要高于 0.9。”
- Developer 先构建:
Developer分析需求,借助 CAST 编写代码(如 HTML)。 - Evaluator 再评判:
Evaluator使用 已验证的 Skill 检查输出质量。 - 循环持续精炼:如果分数低于目标(例如 0.9),AWorld 会指示 Developer 针对 Evaluator 指出的具体问题修复。循环反复直到满足你的标准。
📹 观看自演进循环实战
aworld_cli_intro.mp4
智能体要想进步,必须先知道“什么是好”。评估是我们自主演进循环的核心,但这本身是复杂挑战:从有明确指标的客观任务(例如数学题)到依赖人类偏好的主观任务。真实世界中的演进还会受到超大代码库、上下文窗口有限、以及精细迭代需求的共同制约。
AWorld 提供了同时驾驭这两类评估场景的完整基础设施,把你的专业能力转化为驱动智能体完成整个演进循环的核心力量。
智能体常常因代码复杂度过高而失败。为此我们打造了 CAST(Code Abstract Syntax Tree)。它不再让智能体面对扁平文本,而是给出代码的架构蓝图,从而实现:
- 层级导航:快速理解代码结构和目标,不被实现细节淹没。
- 近乎无限上下文:智能压缩代码,只提供相关信息,突破上下文窗口限制。
- 外科手术式修改:在完整依赖感知下精确改动,避免“盲改文本”带来的粗糙错误。
CAST 提供“修改能力”,而你的知识提供“方向”。AWorld 的 共享 Skill 系统 让你的专业能力成为质量的最终衡量标准。
自动评估:Evaluator 负责判断表现并识别问题,为 Developer 设定清晰、客观的目标。二者形成强协同:Evaluator 定义目标,Developer 用同一套知识实现目标。
人工评估:当任务需要主观判断时,你的直觉就是上限。你是最终评判者。你在任意阶段给出的自然语言反馈,AWorld 都会将其视为下一轮演进的高优先级指令。
无论是来自你贡献 Skill 的自动打分,还是你亲自提供的人工反馈,在 AWorld 中,精确反馈都会驱动精确演进。
下面这些在竞争性基准上的领先排名,不只是单一智能体的表现,更是对 AWorld **Harness** 的直接验证。它们证明:我们稳健、经受实战考验的基础设施,正是构建 SOTA 级 AI 系统所需的底座。
-
FunReason-MT Technical Report: Overcoming the Complexity Barrier in Multi-Turn Function Calling arxiv, 2025. paper, code, model, dataset
Zengzhuang Xu, Bingguang Hao, Zechuan Wang, Yuntao Wen, Maolin Wang, etc.
-
From Failure to Mastery: Generating Hard Samples for Tool-use Agents arxiv, 2026. paper, code, model, dataset
Bingguang Hao, Zengzhuang Xu, Yuntao Wen, Xinyi Xu, Yang Liu, etc.
-
AWorld: Orchestrating the Training Recipe for Agentic AI. arxiv, 2025. paper, code, model
Chengyue Yu, Siyuan Lu, Chenyi Zhuang, Dong Wang, Qintong Wu, etc.
-
FunReason: Enhancing Large Language Models' Function Calling via Self-Refinement Multiscale Loss and Automated Data Refinement. arxiv, 2025. paper, model
Bingguang Hao, Maolin Wang, Zengzhuang Xu, Cunyin Peng, etc.
-
Exploring Superior Function Calls via Reinforcement Learning. arxiv, 2025. paper, code
Bingguang Hao, Maolin Wang, Zengzhuang Xu, Yicheng Chen, etc.
-
RAG-R1 : Incentivize the Search and Reasoning Capabilities of LLMs through Multi-query Parallelism. arxiv, 2025. paper, code, model
Zhiwen Tan, Jiaming Huang, Qintong Wu, Hongxuan Zhang, Chenyi Zhuang, Jinjie Gu
-
V2P: From Background Suppression to Center Peaking for Robust GUI Grounding Task. arxiv, 2025. paper, code
Jikai Chen, Long Chen, Dong Wang, Leilei Gan, Chenyi Zhuang, Jinjie Gu
-
Don’t Just Fine-tune the Agent, Tune the Environment arxiv, 2025. paper
Siyuan Lu, Zechuan Wang, Hongxuan Zhang, Qintong Wu, Leilei Gan, Chenyi Zhuang, etc.
-
Profile-Aware Maneuvering: A Dynamic Multi-Agent System for Robust GAIA Problem Solving by AWorld. arxiv, 2025. paper, code
Zhitian Xie, Qintong Wu, Chengyue Yu, Chenyi Zhuang, Jinjie Gu
-
Recon-Act: A Self-Evolving Multi-Agent Browser-Use System via Web Reconnaissance, Tool Generation, and Task Execution. arxiv, 2025. paper, code
Kaiwen He, Zhiwei Wang, Chenyi Zhuang, Jinjie Gu
非阻塞式编排:启动子智能体后立即返回,主编排器可继续工作,子任务在后台执行。
from aworld.core.common import ActionModel
from aworld.core.tool.builtin.spawn_subagent_tool import SpawnSubagentTool
# 初始化工具
spawn_tool = SpawnSubagentTool(subagent_manager=your_manager, conf=config)
# 1. 启动后台任务(立即返回)
action = ActionModel(
action_name='spawn_background',
params={
'name': 'deep_researcher',
'directive': 'Comprehensive research on quantum computing',
'task_id': 'research_quantum'
}
)
obs, reward, _, _, info = await spawn_tool.do_step([action])
task_id = info['task_id']
# 2. 编排器继续处理其他工作(并行执行)
# ... 分析已有数据、规划下一步、继续派发更多任务 ...
# 3. 检查任务状态(非阻塞)
check_action = ActionModel(
action_name='check_task',
params={'task_id': task_id, 'include_result': False}
)
obs, reward, _, _, info = await spawn_tool.do_step([check_action])
print(f"Status: {info['status']}, Elapsed: {info['elapsed']:.2f}s")
# 4. 在需要时等待任务完成
wait_action = ActionModel(
action_name='wait_task',
params={'task_ids': task_id, 'timeout': 300}
)
await spawn_tool.do_step([wait_action])
# 5. 获取结果
check_action = ActionModel(
action_name='check_task',
params={'task_id': task_id, 'include_result': True}
)
obs, reward, _, _, info = await spawn_tool.do_step([check_action])
result = info['result']性能收益:编排器工作与子智能体执行可重叠,整体耗时从 T_orchestrator + T_subagent 降为 max(T_orchestrator, T_subagent)。基准测试显示在典型负载下可实现约 3 倍加速。
文档:详见 docs/features/parallel-subagent-spawning.md 与 docs/design/subagent-architecture.md
我们的路线图包括:扩展 AI for Science & Business 方向、深化自演进能力、并持续丰富社区共建 Skill 库。
我们诚挚欢迎开发者、研究者与领域专家加入。无论你是增强框架本身,还是贡献你所在领域的 Skill,你的工作都非常有价值。
如果你需要学术引用或希望联系我们,请使用以下 BibTeX:
@misc{yu2025aworldorchestratingtrainingrecipe,
title={AWorld: Orchestrating the Training Recipe for Agentic AI},
author={Chengyue Yu and Siyuan Lu and Chenyi Zhuang and Dong Wang and Qintong Wu and Zongyue Li and Runsheng Gan and Chunfeng Wang and Siqi Hou and Gaochi Huang and Wenlong Yan and Lifeng Hong and Aohui Xue and Yanfeng Wang and Jinjie Gu and David Tsai and Tao Lin},
year={2025},
eprint={2508.20404},
archivePrefix={arXiv},
primaryClass={cs.AI},
url={https://arxiv.org/abs/2508.20404},
}





