q3e-st-files

Files for SentenceTransformer support (0.6B model as the example). Will push to the huggingface model repos.

Convert tokenizer:

import tokenizers

name_or_path = "TODO"

tok = AutoTokenizer.from_pretrained(name_or_path)
print(tok.tokenize('test 1, test 2'), tok('test 1, test 2'))
template_processor = tokenizers.processors.TemplateProcessing(
    single="$A <|endoftext|>", pair="$A $B <|endoftext|>", special_tokens=[("<|endoftext|>", 151643)]
)
tok.backend_tokenizer.post_processor = tokenizers.processors.Sequence([
    tok.backend_tokenizer.post_processor, template_processor
])
print(tok.tokenize('test 1, test 2'), tok('test 1, test 2'))

tok.save_pretrained(name_or_path + '-eos')

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
1_Pooling		1_Pooling
LICENSE		LICENSE
README.md		README.md
config_sentence_transformers.json		config_sentence_transformers.json
modules.json		modules.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

q3e-st-files

About

Uh oh!

Releases

Packages

License

izhx/q3e-st-files

Folders and files

Latest commit

History

Repository files navigation

q3e-st-files

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Packages