Testing Guide - Enhanced DeepResearch Agent

🧪 测试增强的AI功能

快速测试步骤

1. 启动系统

# 启动后端
cd backend
pip install -r requirements.txt
cd ..
python start_backend.py

# 启动前端
cd frontend
npm install
npm start

2. 测试基础AI功能

测试聊天AI:

访问 http://localhost:3000/research
发送消息: "Hello, I want to research artificial intelligence"
验证AI回复是否智能和相关

测试研究会话:

发送消息: "Research the impact of AI on healthcare"
观察是否自动启动研究会话
检查实时进度更新

3. 测试增强推理功能

测试复杂查询:

研究查询: "分析区块链技术在金融行业的应用现状、挑战和未来发展趋势"

预期行为:

查询分析检查点通过
执行多角度推理（逻辑、因果、批判性）
显示反思和质量检查阶段
生成高质量综合报告

4. 测试质量检查系统

测试质量门:

启动研究会话
观察"质量检查"阶段
检查是否有质量改进迭代
验证最终质量评分

5. 测试检查点系统

监控检查点:

观察控制台日志中的检查点结果
验证每个检查点的通过/失败状态
检查失败时的修订计划

🔍 详细测试场景

场景1: 简单查询测试

查询: "What is machine learning?"
预期: 快速通过所有检查点，生成基础报告

场景2: 复杂查询测试

查询: "Analyze the ethical implications of AI in autonomous vehicles, including safety, liability, and societal impact"
预期: 
- 触发多角度推理
- 执行质量改进迭代
- 生成深度分析报告

场景3: 质量挑战测试

查询: "Tell me about technology"
预期:
- 查询分析检查点可能需要改进
- 系统自动优化查询理解
- 最终生成聚焦的报告

📊 质量验证指标

报告质量检查清单

结构完整性:

内容质量:

推理质量:

性能指标

响应时间:

简单查询: < 2分钟
复杂查询: < 5分钟
质量改进: 额外1-2分钟

质量分数:

目标: > 0.85
优秀: > 0.9
可接受: > 0.75

🐛 常见问题排查

问题1: AI回复质量差

可能原因:

OpenAI API密钥未配置
网络连接问题
模型参数设置不当

解决方案:

检查.env文件中的API密钥
验证网络连接
调整模型参数

问题2: 检查点失败

可能原因:

质量阈值设置过高
输入数据质量问题
系统资源不足

解决方案:

降低质量阈值进行测试
使用更清晰的查询
检查系统资源

问题3: 推理分析错误

可能原因:

推理引擎配置问题
LLM响应解析失败
上下文信息不足

解决方案:

检查推理引擎配置
验证JSON解析逻辑
增加上下文信息

🔧 调试工具

日志监控

# 查看详细日志
tail -f logs/deepresearch.log

# 监控特定组件
grep "reasoning_engine" logs/deepresearch.log
grep "quality_checker" logs/deepresearch.log
grep "checkpoint_system" logs/deepresearch.log

API测试

# 测试健康检查
curl http://localhost:8000/health

# 测试AI状态
curl http://localhost:8000/api/research/session_id/ai-status

前端调试

// 在浏览器控制台中
localStorage.setItem('debug_mode', 'true');

// 监听所有WebSocket消息
websocket.addEventListener('message', function(event) {
  console.log('WebSocket message:', JSON.parse(event.data));
});

📈 性能测试

负载测试

# 使用Apache Bench测试API
ab -n 100 -c 10 http://localhost:8000/api/research/

# 测试WebSocket连接
# 使用wscat工具
wscat -c ws://localhost:8000/ws/test_client

内存监控

# 监控Python进程内存使用
ps aux | grep python
top -p $(pgrep -f "python start_backend.py")

✅ 测试通过标准

基础功能测试

聊天AI正常响应
研究会话成功启动
实时进度更新正常
报告生成成功

增强功能测试

多角度推理执行
反思机制工作
质量检查运行
检查点系统正常

质量标准测试

报告质量分数 > 0.8
所有检查点通过
推理深度充分
内容逻辑清晰

性能标准测试

响应时间合理
内存使用稳定
并发处理正常
错误处理完善

通过这些测试，您可以验证DeepResearch Agent的增强AI功能是否正常工作，并确保生成的报告达到极高的质量标准！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Testing Guide - Enhanced DeepResearch Agent

🧪 测试增强的AI功能

快速测试步骤

1. 启动系统

2. 测试基础AI功能

3. 测试增强推理功能

4. 测试质量检查系统

5. 测试检查点系统

🔍 详细测试场景

场景1: 简单查询测试

场景2: 复杂查询测试

场景3: 质量挑战测试

📊 质量验证指标

报告质量检查清单

性能指标

🐛 常见问题排查

问题1: AI回复质量差

问题2: 检查点失败

问题3: 推理分析错误

🔧 调试工具

日志监控

API测试

前端调试

📈 性能测试

负载测试

内存监控

✅ 测试通过标准

基础功能测试

增强功能测试

质量标准测试

性能标准测试

FilesExpand file tree

TESTING_GUIDE.md

Latest commit

History

TESTING_GUIDE.md

File metadata and controls

Testing Guide - Enhanced DeepResearch Agent

🧪 测试增强的AI功能

快速测试步骤

1. 启动系统

2. 测试基础AI功能

3. 测试增强推理功能

4. 测试质量检查系统

5. 测试检查点系统

🔍 详细测试场景

场景1: 简单查询测试

场景2: 复杂查询测试

场景3: 质量挑战测试

📊 质量验证指标

报告质量检查清单

性能指标

🐛 常见问题排查

问题1: AI回复质量差

问题2: 检查点失败

问题3: 推理分析错误

🔧 调试工具

日志监控

API测试

前端调试

📈 性能测试

负载测试

内存监控

✅ 测试通过标准

基础功能测试

增强功能测试

质量标准测试

性能标准测试