语言进度
| 语言 | 收集 PR | 过去 1h | 过去 24h | 有效 SWE | 过去 1h | 过去 24h | 已处理 | 处理成功率 |
|---|---|---|---|---|---|---|---|---|
| Cc | 29,469 | 0 | 0 | 9,688 | +4 | +25 | 29,469 | |
| C++cpp | 45,620 | 0 | 0 | 4,032 | 0 | 0 | 19,571 | |
| Gogo | 126,439 | 0 | 0 | 8,007 | +14 | +123 | 87,081 | |
| Javajava | 84,868 | 0 | 0 | 4,012 | +1 | +8 | 77,669 | |
| JavaScriptjs | 36,409 | 0 | 0 | 7,092 | +9 | +29 | 36,409 | |
| Pythonpy | 98,883 | 0 | 0 | 4,997 | +23 | +107 | 95,919 | |
| Rustrust | 68,650 | 0 | 0 | 5,472 | +4 | +58 | 68,611 | |
| TypeScriptts | 66,729 | 0 | 0 | 6,347 | +7 | +39 | 56,350 |
运行参数
| 语言 | 评估模型 (OPENAI) | 填充模型 (ANTHROPIC) | 并发数 | min_source_files | max_source_files |
|---|---|---|---|---|---|
| C | gpt-5.4 | claude-sonnet-4-6 | 12 | 2 | 15 |
| C++ | glm-5 | claude-sonnet-4-6 | 8 | 2 | 15 |
| Go | Qwen3.6-35B-A3B | Qwen3.6-35B-A3B | 12 | 2 | 10 |
| Java | claude-haiku-4-5-20251001 | claude-sonnet-4-6 | 8 | 2 | 10 |
| JavaScript | Qwen3.6-35B-A3B | Qwen3.6-35B-A3B | 12 | 2 | 10 |
| Python | glm-5 | claude-sonnet-4-6 | 12 | 3 | 15 |
| Rust | Qwen3.6-35B-A3B | Qwen3.6-35B-A3B | 8 | 2 | 10 |
| TypeScript | Qwen3.6-35B-A3B | Qwen3.6-35B-A3B | 12 | 2 | 10 |
失败原因统计
| 语言 | 已处理 | 有效 SWE | 失败 | trivial_pr | validation | infra_error | timeout | workflow_error | 其他 |
|---|---|---|---|---|---|---|---|---|---|
| C | 29,469 | 9,688 | 19,781 | 14,632 | 364 | 5,071 | 26 | 31 | 1 |
| C++ | 19,571 | 4,032 | 15,539 | 2,060 | 73 | 14,956 | 156 | 285 | 266 |
| Go | 87,081 | 8,007 | 79,074 | 21,506 | 7,123 | 47,666 | 1,524 | 733 | 505 |
| Java | 77,669 | 4,012 | 73,657 | 17,741 | 6,585 | 44,741 | 1,293 | 2,102 | 1,602 |
| JavaScript | 36,409 | 7,092 | 29,317 | 15,024 | 822 | 14,403 | 545 | 145 | 0 |
| Python | 95,919 | 4,997 | 90,922 | 26,224 | 5,791 | 59,198 | 945 | 358 | 120 |
| Rust | 68,611 | 5,472 | 63,139 | 19,096 | 4,530 | 36,875 | 1,244 | 813 | 1,234 |
| TypeScript | 56,350 | 6,347 | 50,003 | 13,505 | 3,085 | 31,284 | 1,728 | 757 | 11 |
trivial_pr:PR 被 LLM 评估为过于简单(如仅修改配置、文档、依赖版本等),不适合作为 SWE 任务。
validation:任务生成后验证失败(NOP agent 未返回 reward=0 或 ORACLE agent 未返回 reward=1)。
infra_error:基础设施错误(Docker 构建失败、网络超时、磁盘空间不足等)。
timeout:处理超时(单个 PR 总超时或 Claude Code session 超时)。
workflow_error:工作流程错误(PR 元数据获取失败、worktree 创建失败、patch 生成失败等)。
fix.patch 复杂度
| 语言 | Valid SWE Count | Avg fix.patch lines | Avg fix.patch hunks | Avg fix.patch files |
|---|---|---|---|---|
| C | 9,688 | 334.23 | 17.92 | 5.84 |
| C++ | 4,032 | 287.03 | 13.73 | 5.10 |
| Go | 8,007 | 214.51 | 12.73 | 4.37 |
| Java | 4,012 | 163.40 | 10.50 | 4.23 |
| JavaScript | 7,092 | 77.26 | 6.29 | 2.79 |
| Python | 4,997 | 151.93 | 10.99 | 3.83 |
| Rust | 5,472 | 226.33 | 13.17 | 4.10 |
| TypeScript | 6,347 | 158.66 | 9.60 | 4.14 |
统计方法说明
难度打分 difficulty_score
读取每个有效任务目录的 solution/fix.patch、tests/ 和 instruction.md,由 src/swegen/scoring.py 使用零 API 静态评分。
当前公式采用 log-scale 连续评分,避免中等规模 patch 过早变成 hard。权重为:patch_scope 38%、logic_complexity 32%、context_breadth 15%、test_complexity 10%、instruction_complexity 5%。
label 阈值:easy <= 4.0,medium <= 7.0,hard > 7.0。
Tags 生成与展示
tags 不是看板现场计算的,而是在 swegen 构建任务时由 LLM 根据 PR 信息生成,并写入 task.toml 的 [metadata].tags。
prompt 要求 tags 按三段式生成:编程语言、项目层级/领域、框架/库名或具体主题。看板只读取已有 task.toml 并统计每个语言的 tag 出现次数和占比。
fix.patch 统计
patch 统计来自每个有效任务的 solution/fix.patch,并按语言扩展名过滤代码文件,口径与 upload_march_swe_to_hf.py 的 code-only 统计保持一致。
Avg fix.patch lines 统计代码文件 diff 中新增/删除行数;Avg fix.patch hunks 统计 @@ hunk 数;Avg fix.patch files 统计涉及的代码文件数。
difficulty_label 分布
| 语言 | easy / medium / hard | easy | medium | hard |
|---|---|---|---|---|
| C | 866 / 6403 / 2409 | 866 | 6,403 | 2,409 |
| C++ | 431 / 2501 / 1092 | 431 | 2,501 | 1,092 |
| Go | 622 / 5787 / 1592 | 622 | 5,787 | 1,592 |
| Java | 443 / 2600 / 964 | 443 | 2,600 | 964 |
| JavaScript | 1069 / 5254 / 767 | 1,069 | 5,254 | 767 |
| Python | 268 / 3210 / 1496 | 268 | 3,210 | 1,496 |
| Rust | 380 / 3243 / 1847 | 380 | 3,243 | 1,847 |
| TypeScript | 566 / 4696 / 1084 | 566 | 4,696 | 1,084 |
difficulty_score 概览
| 语言 | count | min | p25 | median | mean | p75 | max |
|---|---|---|---|---|---|---|---|
| C | 9,678 | 2.4 | 4.9 | 6.0 | 5.97 | 7.0 | 9.2 |
| C++ | 4,024 | 2.5 | 4.9 | 6.0 | 5.99 | 7.2 | 9.1 |
| Go | 8,001 | 2.6 | 4.9 | 5.8 | 5.87 | 6.8 | 9.1 |
| Java | 4,007 | 2.8 | 4.8 | 5.9 | 5.89 | 7.0 | 9.2 |
| JavaScript | 7,090 | 2.6 | 4.4 | 5.2 | 5.36 | 6.2 | 9.2 |
| Python | 4,974 | 2.6 | 5.2 | 6.2 | 6.22 | 7.3 | 9.1 |
| Rust | 5,470 | 2.7 | 5.2 | 6.3 | 6.26 | 7.4 | 9.0 |
| TypeScript | 6,346 | 2.7 | 4.7 | 5.6 | 5.72 | 6.6 | 9.1 |