语言进度
| 语言 | 收集 PR | 过去 1h | 过去 24h | 有效 SWE | 过去 1h | 过去 24h | 已处理 | 处理成功率 |
|---|---|---|---|---|---|---|---|---|
| Cc | 29,469 | 0 | 0 | 9,684 | +1 | +21 | 29,469 | |
| C++cpp | 45,620 | 0 | 0 | 4,032 | 0 | 0 | 19,510 | |
| Gogo | 126,439 | 0 | 0 | 7,993 | +15 | +109 | 87,043 | |
| Javajava | 84,868 | 0 | 0 | 4,011 | 0 | +7 | 77,323 | |
| JavaScriptjs | 36,409 | 0 | 0 | 7,083 | 0 | +20 | 36,409 | |
| Pythonpy | 98,883 | 0 | 0 | 4,974 | +18 | +84 | 95,824 | |
| Rustrust | 68,650 | 0 | 0 | 5,468 | +12 | +54 | 68,611 | |
| TypeScriptts | 66,729 | 0 | 0 | 6,340 | +7 | +32 | 56,335 |
运行参数
| 语言 | 评估模型 (OPENAI) | 填充模型 (ANTHROPIC) | 并发数 | min_source_files | max_source_files |
|---|---|---|---|---|---|
| C | gpt-5.4 | claude-sonnet-4-6 | 12 | 2 | 15 |
| C++ | glm-5 | claude-sonnet-4-6 | 8 | 2 | 15 |
| Go | Qwen3.6-35B-A3B | Qwen3.6-35B-A3B | 12 | 2 | 10 |
| Java | claude-haiku-4-5-20251001 | claude-sonnet-4-6 | 8 | 2 | 10 |
| JavaScript | Qwen3.6-35B-A3B | Qwen3.6-35B-A3B | 12 | 2 | 10 |
| Python | glm-5 | claude-sonnet-4-6 | 12 | 3 | 15 |
| Rust | Qwen3.6-35B-A3B | Qwen3.6-35B-A3B | 8 | 2 | 10 |
| TypeScript | Qwen3.6-35B-A3B | Qwen3.6-35B-A3B | 12 | 2 | 10 |
失败原因统计
| 语言 | 已处理 | 有效 SWE | 失败 | trivial_pr | validation | infra_error | timeout | workflow_error | 其他 |
|---|---|---|---|---|---|---|---|---|---|
| C | 29,469 | 9,684 | 19,785 | 14,632 | 363 | 5,083 | 21 | 29 | 1 |
| C++ | 19,510 | 4,032 | 15,478 | 2,058 | 73 | 14,897 | 156 | 285 | 266 |
| Go | 87,043 | 7,993 | 79,050 | 21,486 | 7,121 | 47,668 | 1,520 | 733 | 505 |
| Java | 77,323 | 4,011 | 73,312 | 17,593 | 6,585 | 44,732 | 1,293 | 1,914 | 1,602 |
| JavaScript | 36,409 | 7,083 | 29,326 | 15,019 | 823 | 14,416 | 546 | 144 | 0 |
| Python | 95,824 | 4,974 | 90,850 | 26,158 | 5,787 | 59,197 | 944 | 358 | 120 |
| Rust | 68,611 | 5,468 | 63,143 | 19,091 | 4,527 | 36,890 | 1,243 | 811 | 1,234 |
| TypeScript | 56,335 | 6,340 | 49,995 | 13,497 | 3,083 | 31,293 | 1,721 | 757 | 11 |
trivial_pr:PR 被 LLM 评估为过于简单(如仅修改配置、文档、依赖版本等),不适合作为 SWE 任务。
validation:任务生成后验证失败(NOP agent 未返回 reward=0 或 ORACLE agent 未返回 reward=1)。
infra_error:基础设施错误(Docker 构建失败、网络超时、磁盘空间不足等)。
timeout:处理超时(单个 PR 总超时或 Claude Code session 超时)。
workflow_error:工作流程错误(PR 元数据获取失败、worktree 创建失败、patch 生成失败等)。
fix.patch 复杂度
| 语言 | Valid SWE Count | Avg fix.patch lines | Avg fix.patch hunks | Avg fix.patch files |
|---|---|---|---|---|
| C | 9,684 | 334.26 | 17.92 | 5.84 |
| C++ | 4,032 | 287.03 | 13.73 | 5.10 |
| Go | 7,993 | 214.66 | 12.73 | 4.37 |
| Java | 4,011 | 163.43 | 10.50 | 4.23 |
| JavaScript | 7,083 | 77.29 | 6.29 | 2.79 |
| Python | 4,974 | 151.92 | 10.98 | 3.83 |
| Rust | 5,468 | 226.41 | 13.17 | 4.10 |
| TypeScript | 6,340 | 158.73 | 9.60 | 4.14 |
统计方法说明
难度打分 difficulty_score
读取每个有效任务目录的 solution/fix.patch、tests/ 和 instruction.md,由 src/swegen/scoring.py 使用零 API 静态评分。
当前公式采用 log-scale 连续评分,避免中等规模 patch 过早变成 hard。权重为:patch_scope 38%、logic_complexity 32%、context_breadth 15%、test_complexity 10%、instruction_complexity 5%。
label 阈值:easy <= 4.0,medium <= 7.0,hard > 7.0。
Tags 生成与展示
tags 不是看板现场计算的,而是在 swegen 构建任务时由 LLM 根据 PR 信息生成,并写入 task.toml 的 [metadata].tags。
prompt 要求 tags 按三段式生成:编程语言、项目层级/领域、框架/库名或具体主题。看板只读取已有 task.toml 并统计每个语言的 tag 出现次数和占比。
fix.patch 统计
patch 统计来自每个有效任务的 solution/fix.patch,并按语言扩展名过滤代码文件,口径与 upload_march_swe_to_hf.py 的 code-only 统计保持一致。
Avg fix.patch lines 统计代码文件 diff 中新增/删除行数;Avg fix.patch hunks 统计 @@ hunk 数;Avg fix.patch files 统计涉及的代码文件数。
difficulty_label 分布
| 语言 | easy / medium / hard | easy | medium | hard |
|---|---|---|---|---|
| C | 866 / 6400 / 2408 | 866 | 6,400 | 2,408 |
| C++ | 431 / 2501 / 1092 | 431 | 2,501 | 1,092 |
| Go | 621 / 5777 / 1589 | 621 | 5,777 | 1,589 |
| Java | 443 / 2599 / 964 | 443 | 2,599 | 964 |
| JavaScript | 1066 / 5250 / 765 | 1,066 | 5,250 | 765 |
| Python | 268 / 3197 / 1486 | 268 | 3,197 | 1,486 |
| Rust | 380 / 3240 / 1846 | 380 | 3,240 | 1,846 |
| TypeScript | 563 / 4694 / 1082 | 563 | 4,694 | 1,082 |
difficulty_score 概览
| 语言 | count | min | p25 | median | mean | p75 | max |
|---|---|---|---|---|---|---|---|
| C | 9,674 | 2.4 | 4.9 | 6.0 | 5.97 | 7.0 | 9.2 |
| C++ | 4,024 | 2.5 | 4.9 | 6.0 | 5.99 | 7.2 | 9.1 |
| Go | 7,987 | 2.6 | 4.9 | 5.8 | 5.87 | 6.8 | 9.1 |
| Java | 4,006 | 2.8 | 4.8 | 5.9 | 5.89 | 7.0 | 9.2 |
| JavaScript | 7,081 | 2.6 | 4.4 | 5.2 | 5.36 | 6.2 | 9.2 |
| Python | 4,951 | 2.6 | 5.2 | 6.2 | 6.21 | 7.3 | 9.1 |
| Rust | 5,466 | 2.7 | 5.2 | 6.3 | 6.26 | 7.4 | 9.0 |
| TypeScript | 6,339 | 2.7 | 4.7 | 5.7 | 5.72 | 6.6 | 9.1 |