关键模块SVM研究
作者:杨明级来源:http://www.zzqkw.com日期:2013-03-01人气:751
短信预处理模块和SVM模块,实现以下功能:
(1)短信预处理模块。在短信预处理模块中对嫌疑短信进行前期处理,完成分词、文本表示和特征选择,把嫌疑短信表示成计算机能够处理的形式。
(2)SVM模块。因为支持向量机具有较高的分类精度,但在处理大规模数据集时有收敛速度较慢的特点,在SVM模块中对嫌疑短信进行离线分类,将其用于校对和补充贝叶斯模块的判定结果,并计算关键词的权重,更新关键词库,以提高垃圾短信过滤准确率。[3][4]
本文结合短信文本的特点,提出了基于支持向量机的短信分类方法以及实现步骤。基于支持向量机的短信分类是通过提取短信文本内容,将短信识别看作文本的两分类问题,利用支持向量机方法对训练短信集进行训练学习,得到分类模型以及决策函数,再利用得到的分类模型对待分类短信进行分类,识别短信的属性,即判断短信是否属于垃圾短信的过程。其具体实现主要分为两个阶段,即训练阶段和分类阶段。如下图1所示:
基于支持向量机的短信分类过程需要经过短信预处理,特征降维,短信文本表示以及构建分类器四个步骤。首先要对短信训练集和测试集(即已知样本短信和未知分类短信)进行预处理,对短信的属性类别,词条(即特征)进行统计,然后对特征集进行降维,进而完成特征的向量表示。在对样本特征集进行训练学习的过程中,根据训练集中的样本点计算出参数,从而得到分类模型(二元分类器)。接下来进行的分类阶段,通过分类模型的决策函数对未知的待分类样本进行分类,以判别待分类短信是否属于垃圾短信。
热门排行
推荐信息
期刊知识
- 2025年中科院分区表已公布!Scientific Reports降至三区
- 官方认定!CSSCI南大核心首批191家“青年学者友好期刊名单”
- 2023JCR影响因子正式公布!
- 国内核心期刊分级情况概览及说明!本篇适用人群:需要发南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的学者
- 我用了一个很复杂的图,帮你们解释下“23版最新北大核心目录有效期问题”。
- 重磅!CSSCI来源期刊(2023-2024版)最新期刊目录看点分析!全网首发!
- CSSCI官方早就公布了最新南核目录,有心的人已经拿到并且投入使用!附南核目录新增期刊!
- 北大核心期刊目录换届,我们应该熟知的10个知识点。
- 注意,最新期刊论文格式标准已发布,论文写作规则发生重大变化!文字版GB/T 7713.2—2022 学术论文编写规则
- 盘点那些评职称超管用的资源,1,3和5已经“绝种”了