《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 基于BERT-CNN的新聞文本分類的知識蒸餾方法研究
基于BERT-CNN的新聞文本分類的知識蒸餾方法研究
2023年電子技術應用第1期
葉榕,邵劍飛,張小為,邵建龍
昆明理工大學 信息工程與自動化學院,云南 昆明 650500
摘要: 近年來,隨著大數據時代進入人類的生活之后,人們的生活中出現很多無法識別的文本、語義等其他數據,這些數據的量十分龐大,語義也錯綜復雜,這使得分類任務更加困難。如何讓計算機對這些信息進行準確的分類,已成為當前研究的重要任務。在此過程中,中文新聞文本分類成為這個領域的一個分支,這對國家輿論的控制、用戶日常行為了解、用戶未來言行的預判都有著至關重要的作用。針對新聞文本分類模型參數量多和訓練時間過長的不足,在最大限度保留模型性能的情況下壓縮訓練時間,力求二者折中,故提出基于BERT-CNN的知識蒸餾。根據模型壓縮的技術特點,將BERT作為教師模型,CNN作為學生模型,先將BERT進行預訓練后再讓學生模型泛化教師模型的能力。實驗結果表明,在模型性能損失約2.09%的情況下,模型參數量壓縮約為原來的1/82,且時間縮短約為原來的1/670。
中圖分類號:TP391.1
文獻標志碼:A
DOI: 10.16157/j.issn.0258-7998.223094
中文引用格式: 葉榕,邵劍飛,張小為,等. 基于BERT-CNN的新聞文本分類的知識蒸餾方法研究[J]. 電子技術應用,2023,49(1):8-13.
英文引用格式: Ye Rong,Shao Jianfei,Zhang Xiaowei,et al. Knowledge distillation of news text classification based on BERT-CNN[J]. Application of Electronic Technique,2023,49(1):8-13.
Knowledge distillation of news text classification based on BERT-CNN
Ye Rong,Shao Jianfei,Zhang Xiaowei,Shao Jianlong
School of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China
Abstract: In recent years, after the era of big data has entered human life, many unrecognizable text, semantic and other data have appeared in people's lives, which are very large in volume and intricate in semantics, which makes the classification task more difficult. How to make computers classify this information accurately has become an important task of current research. In this process, Chinese news text classification has become a branch in this field, which has a crucial role in the control of national public opinion, the understanding of users' daily behavior, and the prediction of users' future speech and behavior. In view of the shortage of news text classification models with large number of parameters and long training time, the BERT-CNN based knowledge distillation is proposed to compress the training time while maximizing the model performance and striving for a compromise between the two. According to the technical characteristics of model compression, BERT is used as the teacher model and CNN is used as the student model, and BERT is pre-trained first before allowing the student model to generalize the capability of the teacher model. The experimental results show that the model parametric number compression is about 1/82 and the time reduction is about 1/670 with the model performance loss of about 2.09%.
Key words : news text;BERT;CNN;knowledge distillation

0 引言

    隨著大數據時代的到來,今日頭條、新浪微博和豆瓣等主流新聞媒體APP產生海量新聞文本,因此如何將這些新聞文本進行快速有效的分類對于用戶體驗乃至國家網絡輿情控制是十分必要的。針對中文新聞文本分類任務,研究者提出許多分類算法和訓練模型,證明深度學習分類方法的有效性。

    以BERT[1](Bidirectional Encoder Representation from Transformers)預訓練模型為例:在文獻[2]的實驗中可以得出,BERT-CNN模型取得的效果最佳,但是從工程落地的角度來說,模型參數量過于巨大,僅僅一個BERT模型,參數就達一億多。本文使用的是谷歌開源的面向中文的BERT預訓練模型,占用內存大小為325 Mb。另一方面,針對訓練時間過長的缺點,以該實驗為例,訓練18萬條新聞文本數據消耗的時間為3.5 h,很顯然對于未來的模型工程落地還存在很大的差距。因此,本文在保證不下降過多模型的準確率的前提下,將BERT-CNN進行模型壓縮,降低模型體積以及模型的訓練時間,提升模型的泛化能力。

    本文創新點主要體現在:(1)對實驗數據集進行了擴充處理,提升模型泛化能力;(2)通過觀察不同的T和α的組合對模型蒸餾性能的影響確定最優組合值而不是固定值;(3)蒸餾場景不再局限于傳統情感分析(二分類),本實驗面向10分類的文本分析,不同標簽文本的蒸餾性能也不盡相同。




本文詳細內容請下載:http://m.jysgc.com/resource/share/2000005068




作者信息:

葉榕,邵劍飛,張小為,邵建龍

(昆明理工大學 信息工程與自動化學院,云南 昆明 650500)




wd.jpg

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
香蕉久久夜色精品国产| 亚洲欧美电影在线观看| 夜夜爽夜夜爽精品视频| 亚洲国产精品va| 伊人久久大香线蕉av超碰演员| 国产欧美一区二区精品忘忧草| 国产精品黄色| 国产精品wwwwww| 国产精品久久久久久久久借妻| 欧美体内she精视频在线观看| 欧美日韩国产色综合一二三四 | 午夜精品福利一区二区蜜股av| 宅男精品视频| 亚洲一区二区欧美日韩| 亚洲午夜国产一区99re久久 | 黄色成人av网站| 黄色综合网站| **网站欧美大片在线观看| 1024亚洲| 亚洲精品美女在线观看播放| 亚洲免费高清视频| 一区二区不卡在线视频 午夜欧美不卡在 | 亚洲欧美影院| 久久成人免费电影| 久久人人精品| 欧美国产第二页| 欧美日韩午夜激情| 国产精品视频yy9299一区| 国产人成一区二区三区影院| 国产一区二区丝袜高跟鞋图片| 韩日成人在线| 91久久精品www人人做人人爽| 日韩视频免费在线| 亚洲新中文字幕| 欧美一区二区三区免费观看视频 | 99riav1国产精品视频| 亚洲天堂成人在线观看| 亚洲欧美精品在线| 久久精品免费| 99国产精品国产精品毛片| 亚洲一区二区三区中文字幕| 久久高清国产| 欧美mv日韩mv亚洲| 欧美性久久久| 狠狠88综合久久久久综合网| 亚洲国产一区二区精品专区| 一区二区日韩精品| 欧美在线视频一区二区| 99精品热视频| 久久精品2019中文字幕| 欧美电影资源| 国产免费亚洲高清| 亚洲国产欧美日韩| 亚洲一区二区在线| 亚洲激情在线观看| 亚洲欧美日本视频在线观看| 久久在线视频| 欧美日韩亚洲91| 国产主播一区二区三区四区| 亚洲精品在线视频观看| 先锋影音久久| 日韩网站在线观看| 久久成人18免费网站| 欧美精品在线免费观看| 国产欧美在线| 亚洲精品免费在线| 久久不射2019中文字幕| 亚洲网友自拍| 美女脱光内衣内裤视频久久影院| 欧美午夜精品伦理| 在线免费精品视频| 亚洲你懂的在线视频| 日韩视频精品| 久久另类ts人妖一区二区| 欧美日韩中文字幕日韩欧美| 黄色资源网久久资源365| 亚洲视频自拍偷拍| 亚洲人成在线观看一区二区 | 国产一区二区欧美| 一本色道久久88亚洲综合88| 亚洲国产日韩欧美| 欧美在线999| 欧美日韩国产成人在线91| 激情欧美一区二区三区| 亚洲一区视频在线| 夜夜爽夜夜爽精品视频| 蜜臀av在线播放一区二区三区| 国产伦精品一区二区三区视频孕妇 | 亚洲三级网站| 久久精品成人一区二区三区| 欧美涩涩视频| 亚洲精品一区二区三区樱花 | 国产精品在线看| 99热这里只有成人精品国产| 亚洲区一区二区三区| 久久久噜噜噜久久人人看| 国产精品久久久久久久久久久久久久| 亚洲国产91精品在线观看| 久久精品女人的天堂av| 久久精品动漫| 国产欧美在线观看一区| 亚洲一线二线三线久久久| 一级日韩一区在线观看| 欧美高清一区| 在线观看欧美精品| 久久精品论坛| 久久久噜噜噜久久狠狠50岁| 国产日本欧美一区二区三区| 亚洲女人小视频在线观看| 亚洲一区网站| 欧美四级电影网站| av不卡在线看| 一区二区三区久久| 欧美日韩免费观看一区二区三区| 亚洲国产婷婷| 9久草视频在线视频精品| 欧美激情中文不卡| 亚洲日本精品国产第一区| 亚洲精品视频一区| 欧美国产日韩免费| 亚洲黄色三级| 一本在线高清不卡dvd| 欧美日韩国产首页| 亚洲免费福利视频| 亚洲性图久久| 国产精品国产三级国产普通话蜜臀| 一区二区三区国产在线| 亚洲一区精品电影| 国产精品日日摸夜夜添夜夜av| 亚洲综合国产激情另类一区| 欧美一区二区久久久| 国产视频综合在线| 久久精品视频亚洲| 欧美国产成人精品| 日韩西西人体444www| 亚洲欧美国产高清| 国产午夜精品久久久| 久久精品91久久香蕉加勒比| 蜜桃久久精品乱码一区二区| 亚洲国产精品一区二区三区| 一区二区三区 在线观看视| 欧美日韩国产探花| 在线视频欧美日韩| 久久国产一区二区| 伊人影院久久| 99国产精品久久久久久久| 国产精品极品美女粉嫩高清在线 | 欧美精品福利在线| 一区二区三区高清不卡| 欧美一级在线播放| 国内精品久久久久久 | 欧美日韩亚洲系列| 亚洲欧美日韩另类| 久久亚洲高清| 亚洲国产综合91精品麻豆| 亚洲一级在线观看| 国产一区二区三区四区| 亚洲日本电影| 国产精品国产亚洲精品看不卡15| 欧美一二区视频| 欧美成人激情在线| 亚洲性夜色噜噜噜7777| 久久亚洲不卡| 亚洲伦理网站| 久久国产夜色精品鲁鲁99| 亚洲国产日本| 欧美一级视频一区二区| 1024成人网色www| 亚洲自拍偷拍色片视频| 国产一区二区中文字幕免费看| 亚洲美女视频网| 国产精品专区h在线观看| 亚洲欧洲一区二区三区| 国产精品久久久99| 亚洲精品国产精品久久清纯直播| 欧美性生交xxxxx久久久| 欧美一区亚洲二区| 欧美日本亚洲视频| 久久精品30| 国产精品久久久久91| 亚洲高清资源| 国产精品久在线观看| 亚洲国产视频一区二区| 国产精品国产精品| 亚洲精品国精品久久99热一| 国产九九精品| 99精品国产热久久91蜜凸| 国产一区91| 亚洲在线观看| 亚洲成人在线网站| 欧美在线短视频| 一本色道久久综合亚洲精品不 | 亚洲精品人人| 国产三区精品| 亚洲午夜成aⅴ人片| 亚洲国产你懂的| 久久久久久综合网天天| 亚洲亚洲精品在线观看| 欧美激情视频网站| 久久精品道一区二区三区|