fix: Mixed Prec memory improvements and better default configs (converge-able) #32

SahilJain314 · 2025-03-23T01:09:33Z

improved offloading by doing bf16 weight cast on IPC weights then offloading the full model
MP with FSDP MP + autocast MP
also improved startup speed by having vllm init with dummy weights then refitting.
changed default configs from "technically runs" to "will actually improve model"

#13

Signed-off-by: Sahil Jain <sahilj@nvidia.com>

trying a different approach Signed-off-by: Terry Kong <terryk@nvidia.com>

nemo_reinforcer/models/policy/hf_policy.py

Signed-off-by: Sahil Jain <sahilj@nvidia.com>

…rge-able) (#32) Signed-off-by: Sahil Jain <sahilj@nvidia.com> Signed-off-by: Terry Kong <terryk@nvidia.com> Co-authored-by: Terry Kong <terryk@nvidia.com> Co-authored-by: Parth Chadha <pchadha@nvidia.com>

Multiprocessing memory improvements and better defaults

10c114f

Signed-off-by: Sahil Jain <sahilj@nvidia.com>

SahilJain314 mentioned this pull request Mar 23, 2025

Improve memory offloading for FSDP models (v1 & v2) #33

Closed

parthchadha previously approved these changes Mar 23, 2025

View reviewed changes

SahilJain314 changed the title ~~Multiprocessing memory improvements and better default configs (converge-able)~~ Mixed Prec memory improvements and better default configs (converge-able) Mar 23, 2025

fix: ray.sub race condition when overlapping srun commands on same node

e89b13e

trying a different approach Signed-off-by: Terry Kong <terryk@nvidia.com>

parthchadha reviewed Mar 24, 2025

View reviewed changes

nemo_reinforcer/models/policy/hf_policy.py Show resolved Hide resolved

Fixed default LR 8B

774219d

Signed-off-by: Sahil Jain <sahilj@nvidia.com>

SahilJain314 dismissed parthchadha’s stale review via 774219d March 24, 2025 05:21

SahilJain314 added the Run CICD label Mar 24, 2025

lint fix

06c73ad

Signed-off-by: Sahil Jain <sahilj@nvidia.com>

SahilJain314 added Run CICD and removed Run CICD labels Mar 24, 2025

parthchadha changed the title ~~Mixed Prec memory improvements and better default configs (converge-able)~~ fix: Mixed Prec memory improvements and better default configs (converge-able) Mar 24, 2025

Merge branch 'main' into sahilj/mp_fix

34e1130

SahilJain314 added Run CICD and removed Run CICD labels Mar 24, 2025

Merge branch 'main' into sahilj/mp_fix

839b011

SahilJain314 added Run CICD and removed Run CICD labels Mar 24, 2025

updated tests for dummy vllm init

79427e4

Signed-off-by: Sahil Jain <sahilj@nvidia.com>

SahilJain314 added Run CICD and removed Run CICD labels Mar 25, 2025

Merge branch 'main' into sahilj/mp_fix

cfb7d1c

parthchadha approved these changes Mar 25, 2025

View reviewed changes

terrykong added Run CICD and removed Run CICD labels Mar 25, 2025

parthchadha added Run CICD and removed Run CICD labels Mar 25, 2025

parthchadha removed the Run CICD label Mar 25, 2025

Merge branch 'main' into sahilj/mp_fix

fbf52d4

parthchadha added the Run CICD label Mar 25, 2025

SahilJain314 merged commit bd7e4b0 into main Mar 25, 2025
13 checks passed

SahilJain314 deleted the sahilj/mp_fix branch March 25, 2025 07:08

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

fix: Mixed Prec memory improvements and better default configs (converge-able) #32

fix: Mixed Prec memory improvements and better default configs (converge-able) #32

Uh oh!

SahilJain314 commented Mar 23, 2025 •

edited

Loading

Uh oh!

Uh oh!

Uh oh!

Uh oh!

fix: Mixed Prec memory improvements and better default configs (converge-able) #32

fix: Mixed Prec memory improvements and better default configs (converge-able) #32

Uh oh!

Conversation

SahilJain314 commented Mar 23, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

SahilJain314 commented Mar 23, 2025 •

edited

Loading