Cascading KV Cache

Cascading KV Cache is a fast and dynamic key-value cache which can be added to pretrained transformers. Our method converts a pretrained quadratic transformers into one with linear inference complexity.

| Paper (Arxiv, latest) | Paper (ICLR 2025)

How to Install

pip install -e .

# run tests
python -m unittest -k [test_name_regex]

Run Passkey

For passkey, batch size must evenly divide 20 (1, 2, 4, 5, 10, 20)

./test-passkey.bash -m [MODEL NAME] -d [METHOD] -g [GPU INDEX] -w [WINDOW SIZE] -c [CASCADE NUMBER] -b [BATCH SIZE]
./test-passkey.bash -m llama3.1-8b-instruct -d sink -g [GPU INDEX] -w [WINDOW SIZE] -c 1 -b 2
./test-passkey.bash -m llama3.1-8b-instruct -d sink -g [GPU INDEX] -w [WINDOW SIZE] -c 8 -b 2

RUN PG19

# set parameters for desired experiment in ./test-pg19.bash
./test-pg19.bash -m [MODEL NAME] -d [METHOD] -g [GPU INDEX]
./test-pg19.bash -m llama3.1-8b -d sink -g 0
./test-pg19.bash -m qwen2-7b -d sink -g 0

Run LongBench

cd third_party/LongBench-timber/

./run.sh - m [MODEL] -d [METHOD] -g [GPU INDEX]

./run.sh -m llama3.1-8b-instruct -d sink -g 0
./run.sh -m llama3.1-8b-instruct -d vanilla -g 0
./run.sh -m qwen2-7b-instruct -d sink -g 0
./run.sh -m qwen2-7b-instruct -d vanilla -g 0

Citation

@article{willette2024training,
  title={Training-Free Exponential Context Extension via Cascading KV Cache},
  author={Willette, Jeffrey and Lee, Heejun and Lee, Youngwan and Jeon, Myeongjae and Hwang, Sung Ju},
  journal={arXiv preprint arXiv:2406.17808},
  year={2024}
}

Name		Name	Last commit message	Last commit date
Latest commit History 382 Commits
cascade		cascade
third_party		third_party
.gitignore		.gitignore
.gitmodules		.gitmodules
README.md		README.md
cascading-cache.jpg		cascading-cache.jpg
pyproject.toml		pyproject.toml
requirements.txt		requirements.txt
setup.py		setup.py
test-attn-matrix-plot.bash		test-attn-matrix-plot.bash
test-booksum.bash		test-booksum.bash
test-latency.bash		test-latency.bash
test-mmlu.bash		test-mmlu.bash
test-passkey-ablation.bash		test-passkey-ablation.bash
test-passkey.bash		test-passkey.bash
test-pg19-hr-homog-ablation.bash		test-pg19-hr-homog-ablation.bash
test-pg19.bash		test-pg19.bash
test-ppl.bash		test-ppl.bash
test-wikitext.bash		test-wikitext.bash

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Cascading KV Cache

How to Install

Run Passkey

RUN PG19

Run LongBench

Citation

About

Uh oh!

Releases

Packages

Uh oh!

Contributors 2

Uh oh!

Languages

jeffwillette/cascading_kv_cache

Folders and files

Latest commit

History

Repository files navigation

Cascading KV Cache

How to Install

Run Passkey

RUN PG19

Run LongBench

Citation

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors 2

Uh oh!

Languages

Packages