为什么要小心吉普赛人| 去湿气喝什么好| 活检检查是什么意思| 中暑发烧吃什么药| 骆驼奶有什么功效| 什么螺不能吃| 动物园里有什么动物| 眼睛肿是什么原因引起的| 地蛋是什么| 肝多发小囊肿什么意思| 治疗脚气用什么药| 肿瘤吃什么中药能消除| 生性多疑是什么意思| 皮肤一碰就红是什么原因| 摩羯是什么星座| 梦到自己掉头发是什么预兆| 骨刺是什么症状| 什么叫尿潜血| 肩袖损伤用什么药| 胃角在什么位置图片| 舌头裂开是什么原因| 蜂鸟是什么鸟| 总是感觉口渴是什么原因| 杰瑞是什么品种的老鼠| 3月9日什么星座| 生物医学工程专业学什么| 鱼胶是鱼的什么部位| 19朵玫瑰代表什么意思| 阄是什么意思| 小腹疼挂什么科| 感冒什么时候能好| pigeon是什么意思| 近字五行属什么| 注音是什么意思| 嘴唇是紫色的是什么原因| 尿尿疼吃什么药| 卡码是什么意思| 陶渊明是什么朝代| 锡是什么金属| 尿白细胞弱阳性是什么意思| 戴菊是什么| Fish什么意思| 肾囊肿是什么病| 1966年是什么命| 杯葛是什么意思| 什么时候三伏天| 什么病会吐血| 墨池为什么不爱柔嘉了| 良心是什么| 女性腋臭什么年龄消失| 心肌缺血用什么药| 吃什么瘦肚子最快| 脾胃科主要看什么| 肾盂分离是什么意思| 搬新家送什么礼物好| 女人喝什么茶好| NPY什么意思| 泌尿系统感染吃什么药| mr是什么| nt和唐筛有什么区别| 为什么养鱼养单不养双| 喝完酒吃什么解酒最快| 为什么会得淋巴肿瘤| 漂头发是什么意思| o型血不能和什么血型的人生孩子| 什么叫腺样体肥大| 吃榴莲对女人有什么好处| 白蚂蚁长什么样子图片| 嘴唇周围长痘痘是什么原因| 病毒疣是什么| 95511是什么电话| 平肝潜阳是什么意思| 郑成功是什么朝代的| 射精快吃什么药| 甲胎蛋白增高说明什么| 测五行缺什么| 巴子是什么意思| 胃镜预约挂什么科| tct是检查什么| 为什么你| 转氨酶偏高是什么原因引起的| 心脏痛吃什么药效果好| 广东有什么城市| 右侧卵巢无回声是什么意思| 舍本逐末什么意思| 属鼠的是什么命| 高压氧治疗有什么作用| 甲状腺什么症状| 什么是孝顺| 验孕棒一深一浅是什么意思| 脯氨酸氨基肽酶阳性是什么意思| 全身出虚汗多是什么原因造成的| 256排ct能检查什么病| 心肌炎有什么症状| 品牌背书是什么意思| 跳空缺口是什么意思| 一只眼睛充血是什么原因| 早餐应该吃什么| hip是什么意思| 1981年五行属什么| 梦见抱小女孩是什么意思| 冬至为什么烧纸| cps是什么意思啊| 老年斑长什么样| 梦见洗脚是什么意思| 烟草属于什么行业| 紫菜吃多了有什么坏处| 不靠谱是什么意思| 耘是什么意思| 男人肝火旺吃什么药| 小孩子手脱皮是什么原因引起的| 微创手术是什么| 身上长水泡是什么原因| 北方五行属什么| 927什么星座| 晚生是什么意思| 什么都不需要| 鹿下面一个几字读什么| 讲信修什么| 长胸毛的男人代表什么| 多吃木瓜有什么好处| 什么是oa| total什么意思| 嘴角上扬是什么意思| 八项药是什么药| 火龙果对身体有什么好处| 乳头痛是什么原因| 端午节应该吃什么| 苦荞茶有什么作用| 人出现幻觉是什么原因| 小代表什么生肖| 吃什么排湿气最好最快| 尿糖是什么意思| 办身份证穿什么颜色衣服| 65什么意思| 肚子疼腹泻是什么原因| 表里不一是什么意思| 法院庭长是什么级别| 吃什么皮肤会变白| 吃阿胶有什么好处| 嗳气是什么原因| 歧视什么意思| 眼压高是什么原因引起的| 什么东西不能托运| 联手是什么意思| 栀子黄是什么| 去三亚穿什么衣服合适| 鸡男配什么属相最好| 补休是什么意思| 肾阴阳两虚吃什么| 什么是盆地| 胸口疼挂什么科| 舌头发白是什么情况| 大象是什么意思| 备孕要注意什么| 溃疡是什么| ce是什么元素| 素心是什么意思| 婴儿长牙有什么症状| 白细胞低是怎么回事有什么危害| 寄生虫感染吃什么药| 风湿和类风湿有什么区别| 吃什么对肝有好处| 常规血检能查出什么| 带状疱疹什么不能吃| 茯茶属于什么茶| 什么时候放开二胎| 子宫腺肌症是什么原因引起的| mchc是什么意思| 蛇蝎美人是什么意思| 送人梳子的寓意是什么| 腿疼是什么原因引起的| 中午一点是什么时辰| 子宫内膜不典型增生是什么意思| 一个王一个月念什么| 为什么会黄体功能不足| 农历七月十五是什么节| 去港澳旅游需要什么证件| 什么动物三只爪| 香菇炒什么菜好吃| 为什么会得丹毒| 噗是什么意思| as什么意思| 李连杰是什么国籍| 日不落是什么意思| 田五行属什么| 什么是过敏| lady是什么意思啊| 凤凰花什么时候开| 肝纤维化是什么意思| 梦见买袜子是什么意思| 乙肝15阳性是什么意思| 经常口腔溃疡是什么原因引起的| 大黄泡水喝有什么功效| 裂帛是什么意思| 湿气重吃什么中药| 梦见女尸是什么预兆| ccu病房是什么意思| 爰是什么意思| 耳根有痣代表什么| 劝酒什么意思| 什么是护理| 女的排卵期一般是什么时间| 新型冠状病毒有什么症状| 2028是什么年| 梗阻性黄疸是什么病| 唱反调是什么意思| 身上长瘊子是什么原因| 介入治疗是什么意思| 失眠吃什么药最有效| 孕妇低血压什么补最快| 眼睛老跳是什么原因| 痛经是什么意思| hl什么意思| 云母是什么东西| 减肥喝什么水| 人老是犯困想睡觉是什么原因| 唇炎去医院挂什么科| 太史慈姓什么| 钙片什么时候吃| 欲仙欲死是什么意思| 脚趾甲变黑是什么原因| 怀孕都有什么症状| 黑色鸟是什么鸟| 利福喷丁和利福平有什么区别| 治疗灰指甲用什么药| hpv弱阳性是什么意思| 柬埔寨用什么货币| 可逆是什么意思| 清明节的习俗有什么| eb病毒是什么病| 脸霜什么牌子的好| 仓鼠怀孕有什么特征| 痛风吃什么菜比较好| 正月初一是什么生肖| 一到晚上就饿什么原因| 年轻人手抖是什么原因| 胸导联低电压什么意思| 毛主席什么时候死的| 急是什么结构| 讲解是什么意思| 眉毛附近长痘痘是什么原因| 甘之如饴是什么意思| 阳虚吃什么调理| 手机root后有什么好处和坏处| 什么时候锻炼身体最佳时间| 妃嫔是什么意思| 地指什么生肖| 出水痘不能吃什么食物| 舌苔厚是什么原因| 高晓松为什么进监狱| 心宽是什么意思| 八年是什么婚| cdp是什么| 8月11号是什么星座| pv是什么| 猴子属于什么类动物| 满月是什么意思| 滞气是什么意思| 辩证法是什么| 自愈是什么意思| 独一无二指什么生肖| 土耳其是什么人种| 7号来的月经什么时候是排卵期| 百度
Skip to content

lvyufeng/SciBERT_CN

Folders and files

NameName
Last commit message
Last commit date

Latest commit

?

History

6 Commits
?
?
?
?
?
?
?
?

Repository files navigation

SciBERT-CN

针对中文计算机科技文献的预训练模型(基于国图分类,筛选所有属于TP3的文献)。

由于项目需要(专业文本的自然语言处理),在维普提供海量科技文献文本,重庆市科学院提供算力支持的情况下,训练一个Domain Specific的预训练模型。

ALBERT Tiny版经测试在中文计算机类NER任务提升8%左右,具体见5.1 测试数据已上传至/data

0. Pre-trained Model 下载

能科学上网的:

国内通道:

1. 数据与算力准备

资源 统计
GPU TeslaV100 x 3
期刊数 943
文章数 408187
句子数 1243300

使用维普提供的2000-2019年全国核心期刊数据(仅摘要), 将文本分句后写入文件,格式如下:

卷积神经网络在单标签图像分类中表现出了良好的性能,但是,如何将其更好地应用到多标签图像分类仍然是一项重要的挑战。
本文提出一种基于卷积神经网络并融合注意力机制和语义关联性的多标签图像分类方法。
首先,利用卷积神经网络来提取特征;其次,利用注意力机制将数据集中的每个标签类别和输出特征图中的每个通道进行对应;最后,利用监督学习的方式学习通道之间的关联性,也就是学习标签之间的关联性。
实验结果表明,本文方法可以有效地学习标签之间语义关联性,并提升多标签图像分类效果。

提出一种基于知识图谱的通联特征挖掘方法,为电信欺诈案件相关的数据分析及线索挖掘提供技术支持.
基于仿真的通话数据和电信欺诈案件数据,在分布式图数据库中构建知识图谱.
在此基础上使用图遍历及图算法、混合高斯模型,从联系链路、必要人物、核心人物的发现以及社会关系识别这4个维度进行分析挖掘.
在混合高斯模型中,提取9个关键通话特征,从通话模式聚类的角度来识别不同的社会关系.通过实验证明,图遍历及图算法能为电信欺诈人员和团伙的发现提供重要线索.
混合高斯模型识别出了5类社会关系,并且发现涉案人员之间的通话模式具有一定的特殊性,即通话次数多且多发生在凌晨,通话时间较长且保持联系的时间较长.

每篇文章的摘要分句,摘要之间间隔一行。

2. 选择Pre-train模型

  • BERT
  • ALBERT
  • ELECTRA

基本上取决于有多少算力,如果租得起TPU还是考虑一下这几个模型的large版。由于只有3块V100,所以不考虑base以上的模型。

2.1. 选择ALBERT的原因

albert_zh 做过大规模中文数据的训练,并且其tiny版本在性能与BERT base接近的情况下,更加轻量级。

2.2. 为什么不使用ELECTRA

我们做科技文献类文本的预训练前期主要用于NER、RE等信息抽取任务,ELECTRA已经过部分研究者测试在该类任务上效果并不好。

3. 生成词典

这里参考turkish-bert进行预训练的过程,使用hugging face提供的 Tokenizers工具.

Tokenizers已提供一个针对BERT生成wordpiece词典的example

使用下述命令进行训练:

# install tokenizers
pip install tokenizers
# train wordpiece vocab
python train_bert_wordpiece.py --files file_name --out output_path --name vocab_name

这里得到的vocab并没有形如:

##一
##二

的中文wordpiece,需要手动添加。(至于为什么会有这个,因为albert_zh使用了jieba分词,在mask的时候就有##一这样的token)

另外由于科技文献的特殊性,大写、缩写英文术语较多(出现的英文单词大多是这一类),因此采用的是cased处理,不将其转为lowercase。

注: 最终我们还是选择使用albert_zh提供的vocab,因为其完全覆盖了我们语料中存在的字符,同时因为我们使用其预训练的ckpt作为initial point 继续训练。

4. 预训练

4.1. 预训练代码

  • TF 1.x version
  • TF 2.x version
  • Pytorch version

4.2. 训练过程

4.2.1. 生成训练数据
BERT_BASE_DIR=/home/nlp/data/cs
python3 create_pretraining_data.py --do_whole_word_mask=True --input_file=$BERT_BASE_DIR/cs_raw.txt \
--output_file=$BERT_BASE_DIR/tf_cs_raw.tfrecord --vocab_file=./albert_config/vocab.txt --do_lower_case=False \
--max_seq_length=512 --max_predictions_per_seq=51 --masked_lm_prob=0.10

这里跟前面保持一致,不处理英文字母为小写,自己定义masked_lm_prob,注意max_predictions_per_seq = int(max_seq_length * masked_lm_prob)

4.2.1. 训练模型

写一个shell脚本即可,基本上与albert_zh提供的代码一致。

export CUDA_VISIBLE_DEVICES="1,2"
export BERT_BASE_DIR=/home/nlp/data/cs
python3 run_pretraining.py --input_file=$BERT_BASE_DIR/tf*.tfrecord  \
--output_dir=$BERT_BASE_DIR/my_new_model_path --do_train=True --do_eval=True --bert_config_file=$BERT_BASE_DIR/albert_tiny/albert_config_tiny.json \
--train_batch_size=64 --max_seq_length=512 --max_predictions_per_seq=51 \
--num_train_steps=125000 --num_warmup_steps=12500 --learning_rate=0.00176    \
--save_checkpoints_steps=2000  --init_checkpoint=$BERT_BASE_DIR/albert_tiny/albert_model.ckpt

这里注意--max_predictions_per_seq的值应该和生成训练数据时对应,否则会因为数据不对齐而报错(报错内容是Invalid argument: Key: masked_lm_positions. Can't parse serialized Example)。

5. 下游任务测试和微调

5.1. 命名实体识别

共有两种方式:

  • 直接进行Fine-tuning
  • 抽取feature作为word_embeddiing,送入LSTM+CRF

分别进行两种方式的测试,另外加入使用同样语料训练word2vec获得的词向量进行对比.

直接使用albert_zh提供的tiny版,fine-tuning效果如下:

INFO:tensorflow:  eval_f = 0.7053323
INFO:tensorflow:  eval_precision = 0.7127047
INFO:tensorflow:  eval_recall = 0.699311
INFO:tensorflow:  global_step = 1205
INFO:tensorflow:  loss = 299.08588

使用中文文献文本预训练后,fine-tuning效果如下:

INFO:tensorflow:  eval_f = 0.7896512
INFO:tensorflow:  eval_precision = 0.805268
INFO:tensorflow:  eval_recall = 0.77655727
INFO:tensorflow:  global_step = 1205
INFO:tensorflow:  loss = 201.72101

模型超参为:

learning rate: 1e-4
epoch: 30
batch_size: 32

可以看到125k步预训练的albert tiny一样能够在特定领域的下有任务有明显提升。此外下表还和前期的部分模型进行了对比。

模型 Precision Recall F1
BERT+LSTM+CRF 67.64 78.29 72.58
BERT+Transformer+CRF 71.75 80.00 75.65
ALBERT Tiny(albert_zh) 71.27 69.93 70.53
ALBERT Tiny(Ours) 80.52 77.65 78.96
湿疹吃什么食物好得快 夏侯霸为什么投降蜀国 腋下有异味是什么原因 吃海鲜喝什么酒 大人发烧吃什么退烧药
小腹疼挂什么科 戒腊什么意思 痛风挂什么科 左手小手指麻木是什么原因引起的 曹操是什么样的人
吃什么食物降尿酸最快 什么人容易得眩晕症 梦见手机丢了又找到了是什么意思 右脸有痣代表什么 2005年是什么生肖
喜大普奔什么意思 腰间盘膨出是什么意思 有胆结石的人不能吃什么东西 男人喜欢女人什么 什么是过敏
头秃了一块是什么原因hcv8jop5ns4r.cn 蜘蛛怕什么hcv9jop0ns0r.cn 孩子高低肩有什么好办法纠正hcv8jop2ns5r.cn 腺样体肥大是什么症状hcv8jop1ns0r.cn 骨质增生是什么意思hcv8jop9ns8r.cn
做蹲起有什么好处hcv7jop6ns6r.cn 巴旦木和杏仁有什么区别hcv9jop3ns5r.cn 闭合性骨折是什么意思hcv9jop5ns0r.cn 吃鹰嘴豆有什么好处hcv8jop4ns0r.cn 5.23是什么星座hcv9jop1ns0r.cn
牛仔外套搭配什么裤子好看hcv8jop9ns3r.cn 云的五行属性是什么hcv9jop5ns7r.cn 定期是什么意思hcv8jop4ns9r.cn 钙化淋巴结是什么意思hcv8jop4ns2r.cn 感冒挂什么科hcv9jop3ns1r.cn
黄喉是牛的什么部位hcv8jop7ns7r.cn 含蓄是什么意思hcv9jop0ns1r.cn 水烟是什么hcv8jop7ns7r.cn 大暑是什么意思啊fenrenren.com 眼睛看东西变形扭曲是什么原因baiqunet.com
百度