语言进度
| 语言 | 收集 PR | 过去 1h | 过去 24h | 有效 SWE | 过去 1h | 过去 24h | 已处理 | 处理成功率 |
|---|---|---|---|---|---|---|---|---|
| Cc | 29,469 | 0 | 0 | 9,677 | +4 | +14 | 29,469 | |
| C++cpp | 45,620 | 0 | 0 | 4,032 | 0 | 0 | 19,373 | |
| Gogo | 126,439 | 0 | 0 | 7,963 | +24 | +79 | 86,949 | |
| Javajava | 84,868 | 0 | 0 | 4,011 | +2 | +7 | 76,409 | |
| JavaScriptjs | 36,409 | 0 | 0 | 7,079 | +6 | +16 | 36,409 | |
| Pythonpy | 98,883 | 0 | 0 | 4,950 | +13 | +60 | 95,634 | |
| Rustrust | 68,650 | 0 | 0 | 5,453 | +10 | +39 | 68,611 | |
| TypeScriptts | 66,729 | 0 | 0 | 6,329 | +6 | +21 | 56,299 |
运行参数
| 语言 | 评估模型 (OPENAI) | 填充模型 (ANTHROPIC) | 并发数 | min_source_files | max_source_files |
|---|---|---|---|---|---|
| C | gpt-5.4 | claude-sonnet-4-6 | 12 | 2 | 15 |
| C++ | glm-5 | claude-sonnet-4-6 | 8 | 2 | 15 |
| Go | Qwen3.6-35B-A3B | Qwen3.6-35B-A3B | 12 | 2 | 10 |
| Java | claude-haiku-4-5-20251001 | claude-sonnet-4-6 | 8 | 2 | 10 |
| JavaScript | Qwen3.6-35B-A3B | Qwen3.6-35B-A3B | 12 | 2 | 10 |
| Python | glm-5 | claude-sonnet-4-6 | 12 | 3 | 15 |
| Rust | Qwen3.6-35B-A3B | Qwen3.6-35B-A3B | 8 | 2 | 10 |
| TypeScript | Qwen3.6-35B-A3B | Qwen3.6-35B-A3B | 12 | 2 | 10 |
失败原因统计
| 语言 | 已处理 | 有效 SWE | 失败 | trivial_pr | validation | infra_error | timeout | workflow_error | 其他 |
|---|---|---|---|---|---|---|---|---|---|
| C | 29,469 | 9,677 | 19,792 | 14,632 | 360 | 5,093 | 21 | 29 | 1 |
| C++ | 19,373 | 4,032 | 15,341 | 2,051 | 73 | 14,767 | 156 | 285 | 266 |
| Go | 86,949 | 7,963 | 78,986 | 21,435 | 7,119 | 47,667 | 1,512 | 730 | 506 |
| Java | 76,409 | 4,011 | 72,398 | 17,212 | 6,585 | 44,701 | 1,293 | 1,412 | 1,602 |
| JavaScript | 36,409 | 7,079 | 29,330 | 15,019 | 824 | 14,419 | 546 | 144 | 0 |
| Python | 95,634 | 4,950 | 90,684 | 26,063 | 5,786 | 59,134 | 936 | 357 | 120 |
| Rust | 68,611 | 5,453 | 63,158 | 19,079 | 4,524 | 36,924 | 1,238 | 811 | 1,234 |
| TypeScript | 56,299 | 6,329 | 49,970 | 13,466 | 3,081 | 31,310 | 1,713 | 756 | 11 |
trivial_pr:PR 被 LLM 评估为过于简单(如仅修改配置、文档、依赖版本等),不适合作为 SWE 任务。
validation:任务生成后验证失败(NOP agent 未返回 reward=0 或 ORACLE agent 未返回 reward=1)。
infra_error:基础设施错误(Docker 构建失败、网络超时、磁盘空间不足等)。
timeout:处理超时(单个 PR 总超时或 Claude Code session 超时)。
workflow_error:工作流程错误(PR 元数据获取失败、worktree 创建失败、patch 生成失败等)。
fix.patch 复杂度
| 语言 | Valid SWE Count | Avg fix.patch lines | Avg fix.patch hunks | Avg fix.patch files |
|---|---|---|---|---|
| C | 9,677 | 334.47 | 17.92 | 5.84 |
| C++ | 4,032 | 287.03 | 13.73 | 5.10 |
| Go | 7,963 | 214.97 | 12.75 | 4.37 |
| Java | 4,011 | 163.43 | 10.50 | 4.23 |
| JavaScript | 7,079 | 77.26 | 6.29 | 2.79 |
| Python | 4,950 | 151.71 | 10.93 | 3.81 |
| Rust | 5,453 | 226.26 | 13.16 | 4.10 |
| TypeScript | 6,329 | 158.77 | 9.60 | 4.14 |
统计方法说明
难度打分 difficulty_score
读取每个有效任务目录的 solution/fix.patch、tests/ 和 instruction.md,由 src/swegen/scoring.py 使用零 API 静态评分。
当前公式采用 log-scale 连续评分,避免中等规模 patch 过早变成 hard。权重为:patch_scope 38%、logic_complexity 32%、context_breadth 15%、test_complexity 10%、instruction_complexity 5%。
label 阈值:easy <= 4.0,medium <= 7.0,hard > 7.0。
Tags 生成与展示
tags 不是看板现场计算的,而是在 swegen 构建任务时由 LLM 根据 PR 信息生成,并写入 task.toml 的 [metadata].tags。
prompt 要求 tags 按三段式生成:编程语言、项目层级/领域、框架/库名或具体主题。看板只读取已有 task.toml 并统计每个语言的 tag 出现次数和占比。
fix.patch 统计
patch 统计来自每个有效任务的 solution/fix.patch,并按语言扩展名过滤代码文件,口径与 upload_march_swe_to_hf.py 的 code-only 统计保持一致。
Avg fix.patch lines 统计代码文件 diff 中新增/删除行数;Avg fix.patch hunks 统计 @@ hunk 数;Avg fix.patch files 统计涉及的代码文件数。
difficulty_label 分布
| 语言 | easy / medium / hard | easy | medium | hard |
|---|---|---|---|---|
| C | 865 / 6394 / 2408 | 865 | 6,394 | 2,408 |
| C++ | 431 / 2501 / 1092 | 431 | 2,501 | 1,092 |
| Go | 620 / 5754 / 1583 | 620 | 5,754 | 1,583 |
| Java | 443 / 2599 / 964 | 443 | 2,599 | 964 |
| JavaScript | 1064 / 5248 / 765 | 1,064 | 5,248 | 765 |
| Python | 267 / 3183 / 1477 | 267 | 3,183 | 1,477 |
| Rust | 380 / 3231 / 1840 | 380 | 3,231 | 1,840 |
| TypeScript | 562 / 4685 / 1081 | 562 | 4,685 | 1,081 |
difficulty_score 概览
| 语言 | count | min | p25 | median | mean | p75 | max |
|---|---|---|---|---|---|---|---|
| C | 9,667 | 2.4 | 4.9 | 6.0 | 5.97 | 7.0 | 9.2 |
| C++ | 4,024 | 2.5 | 4.9 | 6.0 | 5.99 | 7.2 | 9.1 |
| Go | 7,957 | 2.6 | 4.9 | 5.8 | 5.87 | 6.8 | 9.1 |
| Java | 4,006 | 2.8 | 4.8 | 5.9 | 5.89 | 7.0 | 9.2 |
| JavaScript | 7,077 | 2.6 | 4.4 | 5.2 | 5.36 | 6.2 | 9.2 |
| Python | 4,927 | 2.6 | 5.2 | 6.2 | 6.21 | 7.3 | 9.1 |
| Rust | 5,451 | 2.7 | 5.2 | 6.3 | 6.26 | 7.4 | 9.0 |
| TypeScript | 6,328 | 2.7 | 4.7 | 5.6 | 5.72 | 6.6 | 9.1 |