Skip to content

Latest commit

 

History

History
237 lines (187 loc) · 4.94 KB

File metadata and controls

237 lines (187 loc) · 4.94 KB

Testing Guide - Enhanced DeepResearch Agent

🧪 测试增强的AI功能

快速测试步骤

1. 启动系统

# 启动后端
cd backend
pip install -r requirements.txt
cd ..
python start_backend.py

# 启动前端
cd frontend
npm install
npm start

2. 测试基础AI功能

测试聊天AI:

测试研究会话:

  • 发送消息: "Research the impact of AI on healthcare"
  • 观察是否自动启动研究会话
  • 检查实时进度更新

3. 测试增强推理功能

测试复杂查询:

研究查询: "分析区块链技术在金融行业的应用现状、挑战和未来发展趋势"

预期行为:

  • 查询分析检查点通过
  • 执行多角度推理(逻辑、因果、批判性)
  • 显示反思和质量检查阶段
  • 生成高质量综合报告

4. 测试质量检查系统

测试质量门:

  • 启动研究会话
  • 观察"质量检查"阶段
  • 检查是否有质量改进迭代
  • 验证最终质量评分

5. 测试检查点系统

监控检查点:

  • 观察控制台日志中的检查点结果
  • 验证每个检查点的通过/失败状态
  • 检查失败时的修订计划

🔍 详细测试场景

场景1: 简单查询测试

查询: "What is machine learning?"
预期: 快速通过所有检查点,生成基础报告

场景2: 复杂查询测试

查询: "Analyze the ethical implications of AI in autonomous vehicles, including safety, liability, and societal impact"
预期: 
- 触发多角度推理
- 执行质量改进迭代
- 生成深度分析报告

场景3: 质量挑战测试

查询: "Tell me about technology"
预期:
- 查询分析检查点可能需要改进
- 系统自动优化查询理解
- 最终生成聚焦的报告

📊 质量验证指标

报告质量检查清单

结构完整性:

  • 包含执行摘要
  • 有清晰的章节结构
  • 包含关键发现
  • 有具体建议
  • 包含引用和参考

内容质量:

  • 信息准确性高
  • 分析深度足够
  • 逻辑连贯性强
  • 观点平衡客观
  • 结论有据可依

推理质量:

  • 包含多角度分析
  • 有批判性思考
  • 识别了潜在问题
  • 提供了反思改进
  • 综合结论合理

性能指标

响应时间:

  • 简单查询: < 2分钟
  • 复杂查询: < 5分钟
  • 质量改进: 额外1-2分钟

质量分数:

  • 目标: > 0.85
  • 优秀: > 0.9
  • 可接受: > 0.75

🐛 常见问题排查

问题1: AI回复质量差

可能原因:

  • OpenAI API密钥未配置
  • 网络连接问题
  • 模型参数设置不当

解决方案:

  • 检查.env文件中的API密钥
  • 验证网络连接
  • 调整模型参数

问题2: 检查点失败

可能原因:

  • 质量阈值设置过高
  • 输入数据质量问题
  • 系统资源不足

解决方案:

  • 降低质量阈值进行测试
  • 使用更清晰的查询
  • 检查系统资源

问题3: 推理分析错误

可能原因:

  • 推理引擎配置问题
  • LLM响应解析失败
  • 上下文信息不足

解决方案:

  • 检查推理引擎配置
  • 验证JSON解析逻辑
  • 增加上下文信息

🔧 调试工具

日志监控

# 查看详细日志
tail -f logs/deepresearch.log

# 监控特定组件
grep "reasoning_engine" logs/deepresearch.log
grep "quality_checker" logs/deepresearch.log
grep "checkpoint_system" logs/deepresearch.log

API测试

# 测试健康检查
curl http://localhost:8000/health

# 测试AI状态
curl http://localhost:8000/api/research/session_id/ai-status

前端调试

// 在浏览器控制台中
localStorage.setItem('debug_mode', 'true');

// 监听所有WebSocket消息
websocket.addEventListener('message', function(event) {
  console.log('WebSocket message:', JSON.parse(event.data));
});

📈 性能测试

负载测试

# 使用Apache Bench测试API
ab -n 100 -c 10 http://localhost:8000/api/research/

# 测试WebSocket连接
# 使用wscat工具
wscat -c ws://localhost:8000/ws/test_client

内存监控

# 监控Python进程内存使用
ps aux | grep python
top -p $(pgrep -f "python start_backend.py")

✅ 测试通过标准

基础功能测试

  • 聊天AI正常响应
  • 研究会话成功启动
  • 实时进度更新正常
  • 报告生成成功

增强功能测试

  • 多角度推理执行
  • 反思机制工作
  • 质量检查运行
  • 检查点系统正常

质量标准测试

  • 报告质量分数 > 0.8
  • 所有检查点通过
  • 推理深度充分
  • 内容逻辑清晰

性能标准测试

  • 响应时间合理
  • 内存使用稳定
  • 并发处理正常
  • 错误处理完善

通过这些测试,您可以验证DeepResearch Agent的增强AI功能是否正常工作,并确保生成的报告达到极高的质量标准!