Skip to content

腾讯AI Lab开源的汉语词汇语料库 腾讯词向量 #24

@Huandeep

Description

@Huandeep

提取自腾讯词向量

Small (2,000,000)
Large (12,287,936)

删除掉不必要的条目以及单字条目,Large 再逆序生成词频,再把SmallLarge 中交集出一份。
Large Small都分割成1-5个字的和5个字以上的两份文件。
感觉这玩意跟搜狗输入法的有点...嗯...熟悉

-_-y 有个别条目没有删干净,含有@等符号,不过不影响...

https://encrypt.lanzout.com/b06udvaxe
密码: 23fa

Metadata

Metadata

Assignees

No one assigned

    Labels

    dict词库相关

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions