专利名称:一种文本分类的方法及装置专利类型:发明专利发明人:孙翔
申请号:CN201010104512.4申请日:20100201公开号:CN102141977A公开日:20110803
摘要:本申请公开了一种文本分类的方法,用于实现文本分类,简化分类操作,并提高文本分类的准确度。所述方法包括:对获得的文本内容进行分词,得到多个词汇;针对得到的多个词汇中的每一个词汇,确定该词汇在球面空间模型中的词汇向量;词汇的词汇向量包括该词汇在各类目上的词频值进行归一化后得到的归一化词频值;球面空间模型是以单位长度为半径的球体模型,球面空间的维度等于类目的个数,类目对应球面空间中的一个类目向量;针对每个类目,确定得到的多个词汇的词汇向量之和到该类目的类目向量的距离;将文本分入最短距离对应的类目。本申请还公开了用于实现所述方法的装置。
申请人:阿里巴巴集团控股有限公司
地址:英属开曼群岛大开曼岛资本大厦一座四层847号邮箱
国籍:KY
代理机构:北京同达信恒知识产权代理有限公司
代理人:郭润湘
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- dfix.cn 版权所有 湘ICP备2024080961号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务