《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 基于BERT-CNN的新聞文本分類的知識蒸餾方法研究
基于BERT-CNN的新聞文本分類的知識蒸餾方法研究
2023年電子技術應用第1期
葉榕,邵劍飛,張小為,邵建龍
昆明理工大學 信息工程與自動化學院,云南 昆明 650500
摘要: 近年來,隨著大數據時代進入人類的生活之后,人們的生活中出現很多無法識別的文本、語義等其他數據,這些數據的量十分龐大,語義也錯綜復雜,這使得分類任務更加困難。如何讓計算機對這些信息進行準確的分類,已成為當前研究的重要任務。在此過程中,中文新聞文本分類成為這個領域的一個分支,這對國家輿論的控制、用戶日常行為了解、用戶未來言行的預判都有著至關重要的作用。針對新聞文本分類模型參數量多和訓練時間過長的不足,在最大限度保留模型性能的情況下壓縮訓練時間,力求二者折中,故提出基于BERT-CNN的知識蒸餾。根據模型壓縮的技術特點,將BERT作為教師模型,CNN作為學生模型,先將BERT進行預訓練后再讓學生模型泛化教師模型的能力。實驗結果表明,在模型性能損失約2.09%的情況下,模型參數量壓縮約為原來的1/82,且時間縮短約為原來的1/670。
中圖分類號:TP391.1
文獻標志碼:A
DOI: 10.16157/j.issn.0258-7998.223094
中文引用格式: 葉榕,邵劍飛,張小為,等. 基于BERT-CNN的新聞文本分類的知識蒸餾方法研究[J]. 電子技術應用,2023,49(1):8-13.
英文引用格式: Ye Rong,Shao Jianfei,Zhang Xiaowei,et al. Knowledge distillation of news text classification based on BERT-CNN[J]. Application of Electronic Technique,2023,49(1):8-13.
Knowledge distillation of news text classification based on BERT-CNN
Ye Rong,Shao Jianfei,Zhang Xiaowei,Shao Jianlong
School of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China
Abstract: In recent years, after the era of big data has entered human life, many unrecognizable text, semantic and other data have appeared in people's lives, which are very large in volume and intricate in semantics, which makes the classification task more difficult. How to make computers classify this information accurately has become an important task of current research. In this process, Chinese news text classification has become a branch in this field, which has a crucial role in the control of national public opinion, the understanding of users' daily behavior, and the prediction of users' future speech and behavior. In view of the shortage of news text classification models with large number of parameters and long training time, the BERT-CNN based knowledge distillation is proposed to compress the training time while maximizing the model performance and striving for a compromise between the two. According to the technical characteristics of model compression, BERT is used as the teacher model and CNN is used as the student model, and BERT is pre-trained first before allowing the student model to generalize the capability of the teacher model. The experimental results show that the model parametric number compression is about 1/82 and the time reduction is about 1/670 with the model performance loss of about 2.09%.
Key words : news text;BERT;CNN;knowledge distillation

0 引言

    隨著大數據時代的到來,今日頭條、新浪微博和豆瓣等主流新聞媒體APP產生海量新聞文本,因此如何將這些新聞文本進行快速有效的分類對于用戶體驗乃至國家網絡輿情控制是十分必要的。針對中文新聞文本分類任務,研究者提出許多分類算法和訓練模型,證明深度學習分類方法的有效性。

    以BERT[1](Bidirectional Encoder Representation from Transformers)預訓練模型為例:在文獻[2]的實驗中可以得出,BERT-CNN模型取得的效果最佳,但是從工程落地的角度來說,模型參數量過于巨大,僅僅一個BERT模型,參數就達一億多。本文使用的是谷歌開源的面向中文的BERT預訓練模型,占用內存大小為325 Mb。另一方面,針對訓練時間過長的缺點,以該實驗為例,訓練18萬條新聞文本數據消耗的時間為3.5 h,很顯然對于未來的模型工程落地還存在很大的差距。因此,本文在保證不下降過多模型的準確率的前提下,將BERT-CNN進行模型壓縮,降低模型體積以及模型的訓練時間,提升模型的泛化能力。

    本文創新點主要體現在:(1)對實驗數據集進行了擴充處理,提升模型泛化能力;(2)通過觀察不同的T和α的組合對模型蒸餾性能的影響確定最優組合值而不是固定值;(3)蒸餾場景不再局限于傳統情感分析(二分類),本實驗面向10分類的文本分析,不同標簽文本的蒸餾性能也不盡相同。




本文詳細內容請下載:http://m.jysgc.com/resource/share/2000005068




作者信息:

葉榕,邵劍飛,張小為,邵建龍

(昆明理工大學 信息工程與自動化學院,云南 昆明 650500)




wd.jpg

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
亚洲午夜激情免费视频| 亚洲欧美bt| 国产精品午夜电影| 欧美视频中文字幕| 欧美久久在线| 欧美精品成人91久久久久久久| 久久偷看各类wc女厕嘘嘘偷窃| 欧美一区三区三区高中清蜜桃 | 欧美精品国产精品| 免费高清在线视频一区·| 久久人体大胆视频| 久久夜色精品国产| 老司机67194精品线观看| 久久久久久噜噜噜久久久精品| 欧美一区二区在线播放| 久久国产免费看| 久久精品一区二区国产| 久久精品一区中文字幕| 久久一区二区三区四区五区| 老鸭窝91久久精品色噜噜导演| 美国成人直播| 欧美激情国产高清| 欧美日韩日韩| 国产精品欧美日韩一区| 国产日韩精品一区| 国产午夜精品美女毛片视频| 韩国福利一区| 在线观看欧美亚洲| 亚洲国产综合91精品麻豆| 亚洲麻豆av| 亚洲综合日韩在线| 欧美中文字幕在线| 亚洲国产天堂久久综合网| 亚洲免费观看视频| 亚洲综合大片69999| 欧美主播一区二区三区| 美女视频黄免费的久久| 欧美日韩第一页| 国产精品久久久久一区二区三区| 国产亚洲欧美激情| 亚洲黄色在线看| 亚洲一区二区三区在线播放| 久久精品女人的天堂av| 一区二区精品国产| 欧美一区二视频在线免费观看| 久久综合五月| 欧美日韩亚洲一区三区| 国产色爱av资源综合区| 91久久视频| 亚洲在线国产日韩欧美| 亚洲大胆人体在线| 亚洲视频中文| 久久久久成人精品| 欧美日韩一区在线播放| 国产亚洲毛片在线| 亚洲精品在线三区| 西瓜成人精品人成网站| 日韩视频在线一区二区| 欧美在线免费视屏| 欧美日韩成人在线| 国产一区二区三区观看| 亚洲九九九在线观看| 欧美一级理论性理论a| 99精品热视频| 久久久久国产精品一区| 欧美视频观看一区| 伊人久久大香线蕉综合热线| 亚洲天堂av高清| 亚洲欧洲精品一区二区精品久久久| 亚洲直播在线一区| 欧美xx69| 国产亚洲综合在线| 亚洲天堂av图片| 99ri日韩精品视频| 久久久久成人精品| 国产精品久久久久av免费| 亚洲国产视频一区| 欧美一区视频| 亚洲欧美另类在线观看| 欧美高清视频一区| 国产一区二区三区黄| 亚洲视频一区二区| 亚洲精品一区二区三区樱花| 久久免费视频在线| 国产伦精品一区二区三区视频黑人| 亚洲精品一区二区三区婷婷月| 久久成人久久爱| 亚洲欧美日韩精品久久久| 欧美人与禽猛交乱配视频| 黄色综合网站| 欧美一区网站| 久久国产天堂福利天堂| 国产精品久久国产三级国电话系列 | 欧美日韩国产二区| 在线观看视频一区二区| 欧美在线91| 久久不射中文字幕| 国产精品久久久久毛片软件 | 久久亚洲私人国产精品va媚药| 国产精品色在线| 99精品福利视频| 日韩一区二区精品葵司在线| 欧美成人午夜77777| 禁断一区二区三区在线| 校园激情久久| 欧美在线一二三| 国产精品网站在线播放| 亚洲一区在线直播| 午夜精品久久久久久久久| 国产精品videosex极品| 99热这里只有精品8| 一区二区免费在线播放| 欧美日韩国产色综合一二三四| 亚洲国产精品专区久久| 最新国产の精品合集bt伙计| 蜜桃伊人久久| 在线成人中文字幕| 亚洲黄色高清| 欧美不卡一区| 亚洲国产精品久久久久婷婷884| 亚洲国产成人久久| 老司机67194精品线观看| 极品少妇一区二区| 亚洲韩国精品一区| 欧美成人免费全部| 亚洲激精日韩激精欧美精品| 亚洲欧洲精品一区二区三区波多野1战4 | 亚洲一区二区三区四区中文 | 亚洲国产三级| 欧美国产亚洲精品久久久8v| 亚洲日本欧美在线| 在线一区视频| 国产精品美女久久久| 亚洲欧美www| 久久精品三级| 伊人色综合久久天天| 亚洲精品午夜| 欧美日韩国产经典色站一区二区三区| 亚洲精品国产精品乱码不99按摩| 一区二区三区高清在线观看| 国产精品国产三级国产普通话99| 亚洲一区亚洲二区| 久久精品视频免费| 亚洲高清中文字幕| 亚洲深夜福利| 国产麻豆综合| 亚洲国产成人av好男人在线观看| 欧美成人激情视频免费观看| 99v久久综合狠狠综合久久| 午夜久久久久久久久久一区二区| 国产日韩欧美三级| 91久久夜色精品国产网站| 欧美日韩性生活视频| 亚洲欧美日韩国产一区二区| 久久在线视频在线| 亚洲精品无人区| 欧美亚洲尤物久久| 在线观看福利一区| 亚洲一区在线免费| 国产一区二区三区日韩| 亚洲伦理精品| 国产精品日韩| 亚洲人www| 国产精品免费小视频| 久久国产日韩| 欧美日韩视频在线| 欧美诱惑福利视频| 欧美日韩999| 香蕉精品999视频一区二区| 免费不卡视频| 亚洲一区二区三区激情| 免费人成精品欧美精品| 在线视频一区二区| 久久婷婷国产综合国色天香| 亚洲美女电影在线| 久久久久久久久一区二区| 亚洲美女在线观看| 久久久免费观看视频| 99这里只有精品| 久久青草福利网站| 亚洲深夜av| 狂野欧美激情性xxxx| 亚洲一区二区高清视频| 欧美国产精品一区| 欧美亚洲一区在线| 欧美午夜免费| 最近中文字幕mv在线一区二区三区四区 | 欧美亚洲日本网站| 亚洲黄色一区| 久久久精品性| 亚洲少妇最新在线视频| 欧美成人中文| 亚洲欧美日韩直播| 欧美视频一区二区三区在线观看 | 国产日本欧美一区二区三区| 亚洲精品女av网站| 国产一区二区三区免费观看| 亚洲免费视频观看| 亚洲精品久久久久久一区二区 | 亚洲欧美www|