llm-eval

Star

Here are 43 public repositories matching this topic...

harlev / eva-l

Star

LLM Evaluation Framework

llm llms llm-eval llm-evaluation

Updated Nov 27, 2024
Python

kdcyberdude / punjabi-llm-eval

Star

First Punjabi LLM Eval.

punjabi eval panjabi llm llm-eval

Updated May 1, 2024
Python

cuiyuheng / opencompass

Star

OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.

benchmark ai llm-eval

Updated Feb 14, 2025
Python

prompt-foundry / dotnet-sdk

Star

The prompt engineering, prompt management, and prompt evaluation tool for C# and .NET

csharp dotnet prompt prompt-engineering prompt-manager prompt-management llm-eval llm-evaluation prompt-evaluation

Updated Jun 16, 2024

prompt-foundry / kotlin-sdk

Star

The prompt engineering, prompt management, and prompt evaluation tool for Kotlin.

kotlin open-ai llm prompt-engineering prompt-management llm-eval llm-evaluation prompt-evaluation

Updated Jun 16, 2024

genia-dev / vibraniumdome-docs

Star

LLM Security Platform Docs

security openai prompts llm prompt-engineering chatgpt llmops large-language-model prompt-injection llm-serving adverarial-attacks llm-agent llm-security llm-inference llm-eval llm-framework prompt-injection-tool llm-evaluation llm-firewall

Updated Apr 9, 2024
MDX

yukinagae / genkitx-promptfoo

Star

Community Plugin for Genkit to use Promptfoo

plugin testing firebase ai evaluation prompt prompts evaluation-framework llm llmops prompt-testing llm-eval llm-evaluation llm-evaluation-framework promptfoo genkit genkitx genkit-plugin

Updated Jan 3, 2025
TypeScript

prompt-foundry / python-sdk

Star

The prompt engineering, prompt management, and prompt evaluation tool for Python

python python3 open-ai llm prompt-engineering prompt-management llm-eval llm-evaluation prompt-evaluation

Updated Sep 17, 2024
Python

regankight / mirror-model-eval-tests

Star

LLM behavior QA: tone collapse, false consent, and reroute logic scoring.

ai-safety nlp-evaluation llm-eval emotional-alignment prompt-qa behavior-logic tone-misfire reroute-system prompt-repair trust-testing fallback-logic mirror-model

Updated May 17, 2025

jaaack-wang / multi-problem-eval-llm

Star

Evaluating LLMs with Multiple Problems at once: A New Paradigm for Probing LLM Capabilities

explainable-ai large-language-models llm llm-prompting llm-eval llm-evaluation-framework

Updated Jul 13, 2025
Jupyter Notebook

prompt-foundry / ruby-sdk

Star

The prompt engineering, prompt management, and prompt evaluation tool for Ruby.

ruby ruby-gem openai ruby-on-rails prompt-engineering prompt-manager prompt-management llm-eval llm-evaluation prompt-evaluation

Updated Jun 16, 2024

lehigh-university-libraries / htr

Star

Handwritten Text Recognition

llm-eval

Updated Jul 24, 2025
Go

yukinagae / promptfoo-sample

Star

Sample project demonstrates how to use Promptfoo, a test framework for evaluating the output of generative AI models

testing evaluation prompts evaluation-framework llm llmops prompt-testing llm-eval llm-evaluation llm-evaluation-framework promptfoo

Updated Sep 10, 2024

This project applies the LLM-Eval framework to the PersonaChat dataset to assess response quality in a conversational context. Using GPT-4o-mini via the OpenAI API, the system generates scores (on a 0-5 or 0-100 scale) for four evaluation metrics: context, grammar, relevance, and appropriateness.

gpt llm llm-eval multi-dimensional-metrics

Updated Mar 24, 2025
Python

awesome-software / evals

Star

Evals is a framework for evaluating LLMs and LLM systems, and an open-source registry of benchmarks.

large-language-models llm-eval

Updated Jun 6, 2023
Python

yukinagae / genkit-promptfoo-sample

Star

Sample implementation demonstrating how to use Firebase Genkit with Promptfoo

testing evaluation prompts evaluation-framework llm llmops prompt-testing llm-eval llm-evaluation llm-evaluation-framework promptfoo genkit

Updated Sep 11, 2024
TypeScript

prompt-foundry / go-sdk

Star

The prompt engineering, prompt management, and prompt evaluation tool for Go.

go golang open-api gpt gpt-4 prompt-engineering prompt-manager prompt-management llm-eval llm-test llm-evaluation prompt-test llm-testing prompt-eva

Updated Jun 16, 2024

yuzu-ai / ShinRakuda

Star

Shin Rakuda is a comprehensive framework for evaluating and benchmarking Japanese large language models, offering researchers and developers a flexible toolkit for assessing LLM performance across diverse datasets.

japanese llm llm-eval llm-evaluation llm-evaluation-framework

Updated Sep 17, 2024
Python

IAAR-Shanghai / GuessArena

Star

[ACL 2025] GuessArena: Guess Who I Am? A Self-Adaptive Framework for Evaluating LLMs in Domain-Specific Knowledge and Reasoning

benchmark openai evaluation-framework large-language-models chatgpt llm-eval qwen deepseek knowledge-evaluation reliable-evaluation gamearena guessarena domain-specific-eval reasoning-evaluation

Updated Jul 30, 2025
Python

prompt-foundry / typescript-sdk

Star

The prompt engineering, prompt management, and prompt evaluation tool for TypeScript, JavaScript, and NodeJS.

typescript gpt open-ai gpt-3 gpt-4 llm prompt-engineering llmops prompt-testing prompt-manager prompt-management llm-eval llm-test llm-ops llm-evaluation prompt-evaluation

Updated Sep 14, 2024
TypeScript

Improve this page

Add a description, image, and links to the llm-eval topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the llm-eval topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

llm-eval

Here are 43 public repositories matching this topic...

harlev / eva-l

kdcyberdude / punjabi-llm-eval

cuiyuheng / opencompass

prompt-foundry / dotnet-sdk

prompt-foundry / kotlin-sdk

genia-dev / vibraniumdome-docs

yukinagae / genkitx-promptfoo

prompt-foundry / python-sdk

regankight / mirror-model-eval-tests

jaaack-wang / multi-problem-eval-llm

prompt-foundry / ruby-sdk

lehigh-university-libraries / htr

yukinagae / promptfoo-sample

daqh / llm-eval

awesome-software / evals

yukinagae / genkit-promptfoo-sample

prompt-foundry / go-sdk

yuzu-ai / ShinRakuda

IAAR-Shanghai / GuessArena

prompt-foundry / typescript-sdk

Improve this page

Add this topic to your repo