Skip to content

【开源任务】GraphNet 计算图收集 #44

@JewelRoam

Description

@JewelRoam

一、GraphNet:向庞大计划迈出第一步

你愿意成为 下一代 AI Infra 机床 的共创者吗?
我们欢迎所有开发者,加入 Graphnet 贡献墙。

当前,深度学习模型数量日益庞大,却严重依赖于手动内核优化(如算子融合),使得模型和编译器算法与特定硬件紧密相关,严重增加了高性能开发的成本。而 AI for Compilers 通过将深度学习集成到张量编译器后端中,从而快速探索出最优性能。可以预计,随着大语言模型的快速发展,智能编译器将在各种硬件平台上自动传输算子融合模式,实现 AI Infra 的端到端优化。我们称之为 AI Infra 机床:“A machine tool that builds tools”。

为了支持此愿景,受 ImageNet 之于 CV 领域的启发,我们提出 GraphNet,计划构建一个 大规模计算图集合,包含逾百万张计算图,覆盖跨越NLP、CV和多模态的50余个模型类别,旨在作为训练和验证 AI 驱动的张量编译器的标准数据集。为了确保样本规模、正确性和丰富度,我们设计了一套简洁而强大的约束规则,确保计算图抽取过程可复现,并支持编译器评测与性能优化研究。

我们坚信,GraphNet 将为 “AI for Systems” 以及 “System for AI” 的新一代研究奠定基础。

参与本项活动,您将了解 GraphNet 开源数据集的设计,以及我们后续的 AI4C 张量编译机床构想,学习 Pytorch / Paddle 框架组件的调试技能,并积累向 Paddle 开源社区贡献的经验。

二、任务注册

由于 GraphNet 计划优先增广数据集的丰富度、拆解粒度,同时避免更新延迟导致重复劳动,开发者需要预先登记目标任务(例如特定模型on特定框架):

  1. 检索该任务是否已被注册,任务列表见 腾讯文档

  2. 按照文档内格式填写

    1. 区分不同模型类型的工作表(多模态、CV、NLP、语音、RL & Robotics、其它)
    2. 填写模型名称、来源框架、认领人 Github id
  3. 等待 GraphNet 团队审核(请关注 “任务注册审核” 列)

    1. 我们将第一时间处理,至少每天1次——对于大部分任务将保持开放,从而保证效率;
    2. 少数情况下,例如一类已收集过多数据且被判定为低价值的模型,我们有可能需要跟您商量调整;
    3. 如需加急审核,请在微信群里@我们。
Image
  1. 审核通过,请开始推进任务;审核未过,请调整任务
  2. 对于成功注册(领取)的任务,我们将锁定一周并不允许其他人重复注册;在一周后若未能完成,则可以被其他人领取。

三、贡献流程

请参阅中文的 共创者指引 或英文的 Co-Creation Tutorial

四、验收标准

我们的检查过程基于CI工具,如果 GitHub Actions 工作流显示 绿色成功状态,PR 可给 GraphNet 团队 Review,Approve 后可被合并;
Image

若失败,开发者需根据 PR 的 Checks 标签页 中的错误日志,更新提交 PR 触发新的检查。

其核心检查环节与 Validation API 一致,验证8项 GraphNet 数据集约束(Dataset Construction Constraints)。

其它的要求:

  1. 1个 PR 只包含1个模型修改(计算图或脚本)
  2. 遵守 PR 填写模版
  3. 没有重复先前已完成的工作

Metadata

Metadata

Labels

No labels
No labels

Type

No type

Projects

Status

In Progress

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions