基于改进SVM的中文专利文本分类比较研究

来源:网友投稿时间:2023-08-10 15:15:02 推荐访问: 中文中文专业社会实践调查报告中文化

杨超宇,陈雯君,耿显亚

(1.安徽理工大学人工智能学院,安徽淮南232000;2.安徽理工大学经济与管理学院,安徽淮南 232000;3.安徽理工大学数学与大数据学院,安徽淮南 232000)

随着我国新一代计算机与人工智能大数据技术创新水平的不断提高,授权的专利数量也在不断增加,据世界知识产权局统计数据显示,全球专利申请数量自2004年起,每年至少以5%的速度增加,截至2020年我国发明专利305.8万件,实用新型专利694.8万件,外观设计专利218.7万件[1]。为减少需求方在海量专利数据中检索专利所消耗的时间成本,对同类中文专利进行文本分析,深入挖掘每份专利文本中的关键词以及各专利文本间的关联并对其进行再分类,帮助需求方快速匹配到心宜的专利,实现专利成果的转化,进而加速国家产学研政策的快速发展。采用机器学习算法高效处理专利分类任务是有必要的,但这也对海量专利数据分析技术提出更高要求[2]。现阶段的自然语言处理及文本挖掘技术常采用不同的文本特征提取方法结合各种分类器对专利数据进行分析[3-7]。对于文本特征的提取方法主要有变换神经网络(transformerb)[8]、隐狄利克雷分布(latent dirichlet allocation)[9]和词向量(word2vec)[10]等;采用的分类器主要有支持向量机(support vector machine)[11]、卷积神经网络(convolutional neural networks)[12]和K-近邻(K-nearest neighbor)[13]等。其中,卷积神经网络对文本的分类效果很好,但由于他们的并行性很差导致其分类速度较慢,分类效率较低;KNN算法易于实现且对异常值不敏感,但当样本数据不均衡时输入新样本易导致该样本的K个邻居中大容量类的样本占比较高,使其分类效果较差;支持向量机分类器具有较强的自适应能力,在保证其特征选择适宜的前提下,样本数据分布情况对文本分类效果影响较小,但当样本数据类别较多时,文本分类的准确性也会受到一定影响。由于中文专利信息具有数据分布不均、抽象专业词汇较多等特性[14],导致国内外学者对该领域内的中文专利文本分类研究相对偏少。笔者将TF-IDF-LDA模型与SVM分类器组合改进为一种混合中文专利文本分类算法,并将其与基于均值Word2Vec的SVM中文专利分类模型同时应用于智能家居领域的中文专利文本分类,经对比实验结果可知,基于均值Word2Vec的SVM中文专利分类模型分类效果较好。此外,为确保少数类不被划分错误,使用上采样(over-sampling)方法对模型进行优化,使中文专利文本分类模型的准确率达98%。

1.1 文本向量表示方法

由于机器无法对自然语言进行直接处理,所以在对文本进行分类前需要进行词向量化处理,现阶段有许多文本向量表示的方法。

1.1.1 LDA主题模型

早在2003年BLEI等[15]提出一种无监督文本主题词的3层贝叶斯生成模型即LDA主题模型,如图1所示。

图1 LDA模型图

LDA主题模型结构为“文字-主题-文档”,主要应用于大规模文档的识别及文本潜在主题信息的挖掘。它将每个文档视为一个词频向量,并将文本信息转换为易于建模、计算的数字编码形式。由图1可知,LDA模型由超参数α和β决定,其中α表示文档中隐式主题间的相对强度;β反映所有隐式主题本身概率分布;M表示文档集中文档的数量;Nm表示第m个文档中包含的特征值的数量;θm表示第m个文档中所有主题的概率分布,φk表示特定主题下特征词的概率分布。

在建立LDA主题模型时,常使用Gibbs抽样的参数推理方法进行参数估计[16]。其中两个最重要的参数为每个主题下特征词的概率分布φ和每个文档的主题概率分布θ,具体公式如下:

(1)

(2)

1.1.2 Word2Vec模型

Word2Vec(word to vector)指使用“输入层-投影层-输出层”[17]3层神经网络模型,以分布表示的形式将文字矢量映射为一个独热编码,即一种将中文专利文本信息转化为独热编码的词向量的方法。Word2Vec包含两种方法,即CBOW(continuous bag of words)与Skip-Gram[18],如图2所示。

图2 Word2Vec模型图

由图2可知,CBOW算法将与特征词上下文相关的词所对应的词向量输入到模型中,通过投影层对与上下文相关的词向量求和,并以最大概率输出特定词,即通过周围的词去预测中心词;而Skip-Gram算法则是先将特征词的词向量作为模型的输入,推断出相关的上下文词,并输出与特定词对应的上下文词向量,即通过中心词预测中心词周围的词。

一定程度上,Word2Vec保留了文本中上下文的词与词间的相关性,有效提升算法在处理文本分类任务时的准确性。此外,在处理数据量较大的文件时,CBOW模型较Skip-Gram模型具有更强的泛化能力。

1.2 基于SVM的中文专利文本分类方法

SVM(support vector machines)是一种以统计学习理论为基础的机器学习方法。通过寻求结构风险的最小值来提高学习机的泛化能力,同时最小化经验风险与置信区间,达到在统计样本较少情况下获得良好统计规律的目的。为获取最大间隔的超平面并优化模型泛化能力,将问题转化为对偶问题,引入惩罚系数C和拉格朗日乘子,并利用核函数设计如下模型:

(3)

(4)

SVM算法集成了最大区间超平面、稀疏解和松弛变量等技术,根据有限样本能获得很好的学习能力,但当样本规模较大时,训练过程收敛速度较慢、时间复杂度较高。

2.1 实验环境及框架设计

研究所使用的实验环境为Win10 64位操作系统,x64处理器,CPU型号为AMD Ryzen 75 800H with Radeon Graphics,主频3.20Hz,内存为16GB,固态硬盘为512GB,实验平台为Jupyter Notebook(Anaconda3),Python 3.9版本开发语言,用到WordCloud、Sklearn.Svm、Jieba等多方库。

针对智能家居中文专利数据的智能分类问题,设计一种基于均值词嵌入模型的SVM分类方法。通过两组平行实验,结合词云分析等可视化效果,突出所构建模型的优越性,最后使用上采样对模型进行方法优化和方法评估,其整体实验框架如图3所示。

图3 整体实验框架设计

2.2 实验数据的获取及文本预处理

(1)数据获取。使用Selenium模拟网页登录,通过观察每页数据存储的特征,抓取patent_name、ipc_code、applicant、abstract_zh、update_time和create_time字段,使用Pandas将数据集存至p_abstract_zh.csv文件中。

(2)分词。与英文文本不同,中文文本中没有明确的分词。中文专利文本能否合理分割对专利分类的准确性有着重要影响。Jieba基于统计词典构建语料库,使用语料库对输入的中文文本数据进行分割,并结合分割位置构造有向无环图。通过动态规划算法计算最大概率路径,得到最终分割方法。首先,在对数据集进行重复值、异常值及缺失值的初步清洗后选取abstract_zh字段;然后,构建智能家居中文专利文本语料库,使用Jieba进行搜索引擎分词并加载自定义词典;最后,通过将自定义词典与哈工大停止词列表结合来删除停止词。

(3)文本清洗。由于IPC(international patent classification)可根据主分类号按部、大类、小类、大组、小组进行划分,导致一篇专利文档会有多个分类号,数据集中共8个部,116个大类,445个小类,如表1所示。大类从第6个起类别数量差异较小,因此可以将IPC中大类数小于1 000的数据视为异常值进行剔除,将5个大类号作为专利分类的依据,经统计得数据32 762条。

表1 大类号频数统计top10(降序)

(4)数据可视化。为更直观展现实验中选取的智能家居专利文本数据情况,对专利文本字符串长度进行描述性统计分析,去除分词后length<100的文本,最终保留32 054条数据,同时绘制专利大分类号的数量分布柱状图,如图4所示。接着使用nltk.FreqDist对分词后的文本数据3进行词频统计并绘制分词后的词云图,如图5所示。同时使用Jieba.posseg对专利的摘要文本数据进行词性标注,保留其中的名词语料并将结果通过词云图进行可视化展示,如图6所示。

图4 专利分类号数量分布柱状图

图5 分词后的词云图

图6 分词后的名词词云图

2.3 结合LDA的中文专利文本表示方法

为弥补LDA无法自己生成最优主题数的缺陷,采用反向词频(term frequency-inverse document frequency)算法融合文献[19]中的文本困惑度方法,将混淆的最小值或拐点对应的主题数作为模型中的最佳主题数。

首先,使用文本困惑度指标确定LDA,通过绘制学习曲线的方式找到困惑度最低的主题数,如图7所示。由图7可知主题数为15时困惑度最低,因此以主题数15进行LDA建模训练。然后,获取每条专利文本在特定主题下的概率分布,由于有些文本没有给出对应主题下的概率,将这部分概率用0代替作为每条专利文本15维的特征向量。结果表明,分词后LDA的文本表示效果并不好,考虑到主题数应精炼且简洁,因此采用TF-IDF算法对分词文本提炼关键词,作为模型的输入。

图7 主题文本困惑度折线图

TF-IDF(term frequency-inverse document frequency)是一种统计方法,用于评估单词对文档集或语料库中文档的重要性。它通常用于信息检索与文本挖掘的加权技术。其核心思想是假设某一个或几个词语在某份中文专利文档中出现的频率较高,并且这部分词语在其他专利文档中出现的频率较低,那么该部分词语将作为关键词代表当前文档的重要信息,公式如下:

TF-IDF=TF×IDF

(5)

式中:TF(term frequency)是指给定单词在文档中出现的次数,即给定单词在中文专利文档中出现的次数。由于专利文本的长度不同,为防止TF倾向于长文档,对专利文本进行规范化,将一个词在文章中出现的次数除以该词在文章中出现最多的次数。IDF(inverse document frequency)指特定单词的逆文档频率指数,通过将文档总数除以包含该单词的文档数,取所得商的对数来获得。如果IDF越大,包含某关键词的文档越少,表明该单词具有很好的区分类别的能力。

2.4 结合Word2Vec的中文专利文本表示方法

通过调用gensim.models的Word2Vec模型训练经文本预处理后的数据,使用skip-gram神经网络模式根据上下文预测中间词,得到每个词语对应的特征向量,分别对每篇专利文档所出现的词语对应的特征向量进行算数平均,得到每条专利文本200维的特征向量,即均值Word2Vec模型。该矩阵的每一行表示每个专利文本200维的语义特征,如图8所示。

图8 每个专利文本的语义特征矩阵(部分)

2.5 样本上采样及参数设计方法

2.5.1 结合五折交叉验证的SVM参数调整方法

交叉验证法是将数据集划分成K个大小相差不多的互斥子集。为确保划分测试集与训练集时数据分布均衡,使用(K-1)子集的并集作为训练集,剩余子集作为实验的测试集。经过K次训练后,取K次结果的平均值。该方法既可用来评估模型在数据集上的表现,也可用来调整超参数。使用该方法对模型参数进行反复交叉训练最终找到模型最优超参数。

2.5.2 结合上采样的数据均衡分布方法

在对数据进行类别划分的过程中,数据本身也会对模型训练的精确度产生很大影响,其中较为常见的是样本分布不平衡问题。此类问题采用传统方法并不能有效地反映模型的效果。因此提出一种样本上采样(样本过采样)的方法来实现类别之间的均衡分布。

笔者将经LDA和Word2Vec模型训练后的文本向量输入到SVM分类器中进行多分类,并使用五折交叉验证方法对SVM中的正则化系数C、核函数kernel和径向函数的Gamma进行调整,并将数据集进行上采样优化后再次输入模型中,最后将结果可视化后发现Word2Vec模型的专利分类效果优于LDA模型,且对数据集进行优化后的模型的准确率、精确度、召回率等均有所提升。

3.1 实验结果分析

(1)对SVM正则化系数C的调整结果如图9所示,可知LDA主题概率模型对应SVM的参数C最佳值为7,词嵌入Word2Vec模型对应SVM的参数C最佳值为1。

图9 正则化系数C的调整结果

(2)核函数选择结果如图10所示。当SVM与主题概率模型和组合词嵌入模型相结合的核函数为RBF时精度最大,并且对超参数进行调整后,基于词嵌入模型的准确率最低达85%以上,而基于LDA的主题概率模型所表示的文本向量输入SVM分类器后对专利的分类效果不及前者。此外,当gamma=0.1时,模型最佳得分约为0.972。

图10 核函数选择结果

(3)样本数据分布调整。为解决专利的大类别之间存在类别不均衡问题,采用上采样方法实现类别之间的均衡分布,将数据集进行上采样优化后再次输入模型中,发现Word2Vec模型的专利分类效果优于LDA模型,其词云分析结果如图11所示。

图11 Word2Vec训练后的词云图

3.2 模型评估

由于多分类任务与二分类不同,使用macro来计算每个标签的指标并找出它们未加权的平均值,结合准确率A、精确度P、召回率R、精确率与召回率的调和均值F1来评价分类器的多分类效果,计算方法如式(6)～式(9)所示。若相关类别标签标记为正类,其余标记为负类,则分类器的预测结果在测试集上表现为正负两种类型[20]。参数释义如表2所示。

表2 参数释义表

(6)

(7)

(8)

(9)

在默认分类阈值情况下基于Word2vec的SVM所对应准确率为97.92%,精确度为99.16%,召回率为97.04%,F1为98.07%。

为验证均值Word2Vec-SVM中文专利文本分类模型的优势,通过基于词嵌入的均值Word2Vec模型将训练集进行文本词向量表示后输入分类器,准确率为97.15%,经五折交叉验证调整参数后,其准确率达97.35%。将保存后的模型应用于测试集上得各类别的平均准确率为96.00%左右。将相同训练集应用于TF-IDF-LDA-SVM模型后准确率为86.91%,测试集上平均准确率为84.00%左右。对数据集进行上采样优化后查看模型的评估指标,发现模型的评估指标值均有显著提升,经对比分析后发现专利分类模型准确率为98.51%、精确度为98.62%、召回率为98.50%、F1为98.53%,具有更好的中文专利文本分类效果。调参前后实验结果如表3所示。

表3 实验结果对比分析表 %

(1)针对中文智能家居专利文本数据,构建了一种嵌入Mean-Word2Vec的中文专利文本分类模型。将中文专利文本转化为词特征向量,结合SVM分类算法,完成专利分类任务。结果表明,改进的中文专利文本分类模型在专利分类方面优于其他的单一传统分类器。

(3)对词嵌入模型进行深入研究提出均值Word2Vec算法,更好地表现了中文专利中专业词汇间的关联性;同时为保证各类别中数据分布的均衡性,对样本数据进行上采样处理,将调整后的数据集重新输入分类器中,发现模型的准确率、精确度、召回率和F1均有提升。

(4)由于中文专利文本数据的特殊性,在使用文本挖掘算法对中文专利文本分类任务进行初探时,实验过程中仍存在许多不足之处,表现在:①专利语料库的语料不全面导致无法得到最佳的分类结果;②模型的训练程度不够;③专利数据类别存在局限性等。

(5)笔者将在后续实验中进行深入研究,从而确保该算法能成功应用于某专利信息数智检索平台的搜索引擎中,提高该平台的关键技术共现功能,减少专利技术需求方检索目标信息的成本,促进“校-企-企”的专利成果转化,从而推动产学研一体化联合发展。

猜你喜欢分类器文档专利专利水运工程(2022年7期)2022-07-29浅谈Matlab与Word文档的应用接口客联(2022年3期)2022-05-31有人一声不吭向你扔了个文档中国新闻周刊(2021年26期)2021-07-27发明与专利传感器世界(2019年4期)2019-06-26BP-GA光照分类器在车道线识别中的应用电子测试(2018年1期)2018-04-18基于RI码计算的Word复制文档鉴别信息安全研究(2016年4期)2016-12-01加权空-谱与最近邻分类器相结合的高光谱图像分类光学精密工程(2016年4期)2016-11-07结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器光学精密工程(2016年3期)2016-11-07Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar ratAsian Pacific Journal of Reproduction(2015年1期)2015-12-22基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别电测与仪表(2014年15期)2014-04-04

上一篇：人脸社会感知影响职业匹配效应机理探究——基于面部特征个性推断中介作用的实验印证
下一篇：新时代高校爱国主义教育的仪式建构研究

扩展阅读文章

推荐阅读文章