[Feature] Add Bradley-Terry Subjective Evaluation method to Arena Hard dataset #1802

acylam · 2025-01-03T07:50:12Z

Motivation

Added Bradley-Terry subjective evaluation method to arena_hard dataset.

Modification

Added Bradley-Terry subjective evaluation method to arena_hard dataset

BC-breaking (Optional)

No breaking changes.

Use cases (Optional)

Perform subjective evaluation using the Bradley-Terry method with the following command:

opencompass configs/eval_subjective_bradleyterry.py -r latest --mode=all

More details about the Bradley-Terry evaluation method in: opencompass/configs/datasets/subjective/compass_arena_subjective_bench/README_pairwise_bt.md

…d bradleyterry subjective evaluation method for wildbench, alpacaeval, and compassarena datasets; added all_scores output files for reference in CompassArenaBradleyTerrySummarizer;

…d dataset (open-compass#1802) * added base_models_abbrs to references (passed from LMEvaluator); added bradleyterry subjective evaluation method for wildbench, alpacaeval, and compassarena datasets; added all_scores output files for reference in CompassArenaBradleyTerrySummarizer; * added bradleyterry subjective evaluation method to arena_hard dataset

acylam added 4 commits December 27, 2024 11:15

added base_models_abbrs to references (passed from LMEvaluator); adde…

20ddf96

…d bradleyterry subjective evaluation method for wildbench, alpacaeval, and compassarena datasets; added all_scores output files for reference in CompassArenaBradleyTerrySummarizer;

Merge branch 'main' into subj_bradleyterry

d9f7c80

Merge branch 'main' into subj_bradleyterry

dc587cd

added bradleyterry subjective evaluation method to arena_hard dataset

89ad20c

mm-assistant bot assigned tonysy Jan 3, 2025

acylam temporarily deployed to prod January 3, 2025 07:50 — with GitHub Actions Inactive

acylam requested a review from bittersweet1999 January 3, 2025 07:52

bittersweet1999 approved these changes Jan 3, 2025

View reviewed changes

acylam merged commit f871e80 into open-compass:main Jan 3, 2025
8 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[Feature] Add Bradley-Terry Subjective Evaluation method to Arena Hard dataset #1802

[Feature] Add Bradley-Terry Subjective Evaluation method to Arena Hard dataset #1802

Uh oh!

acylam commented Jan 3, 2025 •

edited

Loading

Uh oh!

Uh oh!

Uh oh!

[Feature] Add Bradley-Terry Subjective Evaluation method to Arena Hard dataset #1802

[Feature] Add Bradley-Terry Subjective Evaluation method to Arena Hard dataset #1802

Uh oh!

Conversation

acylam commented Jan 3, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Motivation

Modification

BC-breaking (Optional)

Use cases (Optional)

Uh oh!

Uh oh!

Uh oh!

acylam commented Jan 3, 2025 •

edited

Loading