语言进度
| 语言 | 收集 PR | 过去 1h | 过去 24h | 有效 SWE | 过去 1h | 过去 24h | 已处理 | 处理成功率 |
|---|---|---|---|---|---|---|---|---|
| Cc | 29,469 | 0 | 0 | 9,671 | 0 | +8 | 29,469 | |
| C++cpp | 45,620 | 0 | 0 | 4,032 | 0 | 0 | 19,246 | |
| Gogo | 126,439 | 0 | 0 | 7,925 | +19 | +41 | 86,849 | |
| Javajava | 84,868 | 0 | 0 | 4,009 | +2 | +5 | 76,060 | |
| JavaScriptjs | 36,409 | 0 | 0 | 7,068 | +5 | +5 | 36,409 | |
| Pythonpy | 98,883 | 0 | 0 | 4,925 | +11 | +35 | 95,214 | |
| Rustrust | 68,650 | 0 | 0 | 5,437 | +6 | +23 | 68,611 | |
| TypeScriptts | 66,729 | 0 | 0 | 6,318 | +8 | +10 | 56,261 |
运行参数
| 语言 | 评估模型 (OPENAI) | 填充模型 (ANTHROPIC) | 并发数 | min_source_files | max_source_files |
|---|---|---|---|---|---|
| C | gpt-5.4 | claude-sonnet-4-6 | 12 | 2 | 15 |
| C++ | glm-5 | claude-sonnet-4-6 | 8 | 2 | 15 |
| Go | Qwen3.6-35B-A3B | Qwen3.6-35B-A3B | 12 | 2 | 10 |
| Java | claude-haiku-4-5-20251001 | claude-sonnet-4-6 | 8 | 2 | 10 |
| JavaScript | Qwen3.6-35B-A3B | Qwen3.6-35B-A3B | 12 | 2 | 10 |
| Python | glm-5 | claude-sonnet-4-6 | 12 | 3 | 15 |
| Rust | Qwen3.6-35B-A3B | Qwen3.6-35B-A3B | 8 | 2 | 10 |
| TypeScript | Qwen3.6-35B-A3B | Qwen3.6-35B-A3B | 12 | 2 | 10 |
失败原因统计
| 语言 | 已处理 | 有效 SWE | 失败 | trivial_pr | validation | infra_error | timeout | workflow_error | 其他 |
|---|---|---|---|---|---|---|---|---|---|
| C | 29,469 | 9,671 | 19,798 | 14,630 | 355 | 5,108 | 19 | 29 | 1 |
| C++ | 19,246 | 4,032 | 15,214 | 2,050 | 73 | 14,641 | 156 | 285 | 266 |
| Go | 86,849 | 7,925 | 78,924 | 21,385 | 7,109 | 47,670 | 1,507 | 729 | 507 |
| Java | 76,060 | 4,009 | 72,051 | 17,082 | 6,585 | 44,685 | 1,293 | 1,210 | 1,602 |
| JavaScript | 36,409 | 7,068 | 29,341 | 15,015 | 826 | 14,433 | 543 | 146 | 0 |
| Python | 95,214 | 4,925 | 90,289 | 25,974 | 5,779 | 58,840 | 931 | 357 | 120 |
| Rust | 68,611 | 5,437 | 63,174 | 19,065 | 4,528 | 36,956 | 1,233 | 809 | 1,234 |
| TypeScript | 56,261 | 6,318 | 49,943 | 13,444 | 3,080 | 31,317 | 1,702 | 756 | 11 |
trivial_pr:PR 被 LLM 评估为过于简单(如仅修改配置、文档、依赖版本等),不适合作为 SWE 任务。
validation:任务生成后验证失败(NOP agent 未返回 reward=0 或 ORACLE agent 未返回 reward=1)。
infra_error:基础设施错误(Docker 构建失败、网络超时、磁盘空间不足等)。
timeout:处理超时(单个 PR 总超时或 Claude Code session 超时)。
workflow_error:工作流程错误(PR 元数据获取失败、worktree 创建失败、patch 生成失败等)。
fix.patch 复杂度
| 语言 | Valid SWE Count | Avg fix.patch lines | Avg fix.patch hunks | Avg fix.patch files |
|---|---|---|---|---|
| C | 9,671 | 334.59 | 17.93 | 5.84 |
| C++ | 4,032 | 287.03 | 13.73 | 5.10 |
| Go | 7,925 | 215.49 | 12.77 | 4.38 |
| Java | 4,009 | 163.47 | 10.50 | 4.23 |
| JavaScript | 7,068 | 77.27 | 6.29 | 2.79 |
| Python | 4,925 | 151.99 | 10.94 | 3.81 |
| Rust | 5,437 | 226.41 | 13.16 | 4.10 |
| TypeScript | 6,318 | 158.83 | 9.59 | 4.14 |
统计方法说明
难度打分 difficulty_score
读取每个有效任务目录的 solution/fix.patch、tests/ 和 instruction.md,由 src/swegen/scoring.py 使用零 API 静态评分。
当前公式采用 log-scale 连续评分,避免中等规模 patch 过早变成 hard。权重为:patch_scope 38%、logic_complexity 32%、context_breadth 15%、test_complexity 10%、instruction_complexity 5%。
label 阈值:easy <= 4.0,medium <= 7.0,hard > 7.0。
Tags 生成与展示
tags 不是看板现场计算的,而是在 swegen 构建任务时由 LLM 根据 PR 信息生成,并写入 task.toml 的 [metadata].tags。
prompt 要求 tags 按三段式生成:编程语言、项目层级/领域、框架/库名或具体主题。看板只读取已有 task.toml 并统计每个语言的 tag 出现次数和占比。
fix.patch 统计
patch 统计来自每个有效任务的 solution/fix.patch,并按语言扩展名过滤代码文件,口径与 upload_march_swe_to_hf.py 的 code-only 统计保持一致。
Avg fix.patch lines 统计代码文件 diff 中新增/删除行数;Avg fix.patch hunks 统计 @@ hunk 数;Avg fix.patch files 统计涉及的代码文件数。
difficulty_label 分布
| 语言 | easy / medium / hard | easy | medium | hard |
|---|---|---|---|---|
| C | 864 / 6391 / 2406 | 864 | 6,391 | 2,406 |
| C++ | 431 / 2501 / 1092 | 431 | 2,501 | 1,092 |
| Go | 618 / 5728 / 1573 | 618 | 5,728 | 1,573 |
| Java | 443 / 2597 / 964 | 443 | 2,597 | 964 |
| JavaScript | 1063 / 5239 / 764 | 1,063 | 5,239 | 764 |
| Python | 266 / 3167 / 1469 | 266 | 3,167 | 1,469 |
| Rust | 380 / 3220 / 1835 | 380 | 3,220 | 1,835 |
| TypeScript | 561 / 4677 / 1079 | 561 | 4,677 | 1,079 |
difficulty_score 概览
| 语言 | count | min | p25 | median | mean | p75 | max |
|---|---|---|---|---|---|---|---|
| C | 9,661 | 2.4 | 4.9 | 6.0 | 5.97 | 7.0 | 9.2 |
| C++ | 4,024 | 2.5 | 4.9 | 6.0 | 5.99 | 7.2 | 9.1 |
| Go | 7,919 | 2.6 | 4.9 | 5.8 | 5.86 | 6.8 | 9.1 |
| Java | 4,004 | 2.8 | 4.8 | 5.9 | 5.89 | 7.0 | 9.2 |
| JavaScript | 7,066 | 2.6 | 4.4 | 5.2 | 5.36 | 6.2 | 9.2 |
| Python | 4,902 | 2.6 | 5.2 | 6.2 | 6.21 | 7.3 | 9.1 |
| Rust | 5,435 | 2.7 | 5.2 | 6.3 | 6.26 | 7.4 | 9.0 |
| TypeScript | 6,317 | 2.7 | 4.7 | 5.6 | 5.72 | 6.6 | 9.1 |