四、词向量资源

4.1 预训练模型

使用 cntext2.x 训练得到的中文预训练模型资源,汇总如下

对中文语料进行了近义测试和类比测试, 其中斯皮尔曼秩系数(Spearman's Rank Coeficient) 取值[-1,1], 取值越大表示模型越符合人类的认知。

类比测试有首都国家(CapitalOfCountries)、省会省份(CityInProvince)、家人关系(FamilyRelationship)、社会科学(管理、经济、心理等 SocialScience) 的类别准确率测试。


数据集

词向量

网盘

斯皮尔曼秩系数

首都国家(%)

省会省份(%)

家人关系(%)

社会科学(%)

中国政府工作报告

人民政府(国省市)工作报告-GloVe.200.15.bin

https://pan.baidu.com/s/1IdK8RU9L8mp6I2nhcoSmyA?pwd=ht2s

0.38

30.73

98.86

0.00

0.00

中国政府工作报告

人民政府(国省市)工作报告-Word2Vec.200.15.bin

https://pan.baidu.com/s/1GoTjMbUcYS4jN6w4GqlqBA?pwd=qb5b

0.35

30.06

96.00

0.00

16.67

中国裁判文书网

裁判文书-GloVe.200.15.bin

https://pan.baidu.com/s/1a0Fisvnkl8UaQZrHP7olCQ?pwd=8w49

0.37

7.69

98.86

75.53

25.00

留言板

留言板-Word2Vec.200.15.bin

https://pan.baidu.com/s/1n7vwCOBnrye1CYrt_IBqZA?pwd=9m42

0.45

19.33

100

61.40

20

留言板

留言板-GloVe.200.15.bin

https://pan.baidu.com/s/1e5Y5enOaSUsBdkpg8byWbw?pwd=8zg7

0.38

12.61

100

65.81

25.00

A 股年报

mda01-24-GloVe.200.15.bin

https://pan.baidu.com/s/1TqoA4TqMAhLzpIp0ZvrQEA?pwd=ajjw

0.35

77.14

100

0

25.0

A 股年报

mda01-24-Word2Vec.200.15.bin

https://pan.baidu.com/s/1Gke4UKOnswpctp8vsZ0koQ?pwd=dpry

0.42

31.21

97.71

10

44.44

港股年报

英文港股年报-Word2Vec.200.15.bin

https://pan.baidu.com/s/1ISGAoZnA_1Ben6M2DCliOQ?pwd=nagx

---

---

---

---

---

港股年报

中文港股年报-Word2Vec.200.15.bin

hhttps://pan.baidu.com/s/1smMcrPtIP8g635YABCodig?pwd=sjdj

0.35

25.20

79.43

18.59

25

人民日报

年份 Word2Vec

https://pan.baidu.com/s/1Ru_wxu9egsmhM7lATjSlgQ?pwd=bcea

人民日报

对齐模型 Aligned_Word2Vec

https://pan.baidu.com/s/1IVgP0MyQpez0hpoJyEyFdA?pwd=7qsu

专利申请

专利摘要-Word2Vec.200.15.bin

https://pan.baidu.com/s/1FHI_J7wU9eQGRckD12QB5g?pwd=6rr2

0.46

3.78

25.14

33.33

37.50

专利申请

province_w2vs 分省份训练词向量

https://pan.baidu.com/s/1eBFTIZcv2DWssLiaRnCqZQ?pwd=ikpu

专利申请

year_w2vs 分年份训练词向量

https://pan.baidu.com/s/1lrVkML92cVJdHQa1HQyAwA?pwd=4gqa

大众点评评论语料

大众点评-评论-Word2Vec.200.15.bin

https://pan.baidu.com/s/15He728XGzoXDFYrUWDTaqQ?pwd=eg6x

0.34

50.31

89.71

70.00

0.00

大众点评评论语料

大众点评-评论-GloVe.200.15.bin

https://pan.baidu.com/s/1cKyv0-CuMqnuM2ENElF6rw?pwd=2b44

0.36

55.83

86.29

94.29

0.00

中文歌词

中文歌词-Word2Vec.200.15.bin

https://pan.baidu.com/s/1h1g1mOACmpCwn5pz8jR3vQ?pwd=ub2z

0.06

0.00

0.00

0.9

0.00

英文歌词

英文歌词-Word2Vec.200.15.bin

https://pan.baidu.com/s/1ycy-BTSa8zqW_xbIoshy6Q?pwd=hu1v

黑猫消费者投诉

消费者黑猫投诉-Word2Vec.200.15.bin

https://pan.baidu.com/s/1FOI2BIVRojOswdKfqaNbsw?pwd=catc

0.32

16.18

68

28.57

0.00

豆瓣影评

douban-movie-1000w-Word2Vec.200.15.bin

https://pan.baidu.com/s/1uq6Ti7HbEWyT4CgktKrMng?pwd=63jg

0.43

39.02

28.57

92.65

25.00

B 站

B 站签名-Word2Vec.200.15.bin

https://pan.baidu.com/s/1OtBU9BzitcNxkmPzhzH6FQ?pwd=m3iv

0.34

25.56

33.71

44.17

0.00

B 站弹幕

B 站弹幕-Word2Vec.200.15.bin

https://pan.baidu.com/s/1LNDLed5uP3KnUMmrKf_uhg?pwd=x4t8

0.42

11.67

65.81

44.17

25.00


如使用以上预训练模型发表论文,可在论文中添加引用信息

在论文方法部分,感兴趣的可以文本如"经过数据采集、语料构建, 使用 cntext 库 GloVe(或 Word2Vec)算法,将参数设置为窗口(window)15,维度数 200, 训练得到预训练模型。 经过近义词测试、类比测试, 模型效果良好。"



4.2 相关代码



4.3 相关文献