文章详情页
django - python实现两篇文章相似度分析
浏览:240日期:2022-08-08 10:30:47
问题描述
如题,最近有需求要做文章相似度分析,需求很简单,具体就是对比两篇分别300字左右的文章的相似度情况,目前查到的方法,需要先中文分词(jieba),然后对比相似度,时间紧任务重,不知道有没有做过类似功能的大神可以指点一二的
问题解答
回答1:第一步你已经给出了,首先对文章进行中文分词,然后计算每个词在两篇文章中的tf-idf值。然后计算两个文章的余弦相似度,可以用Python中的gensim实现。
有疑问请继续提问。
回答2:补一下一楼的答案在食用余弦相似性或TF-IDF,应该首先去掉停止词。
停止词,是由英文单词:stopword翻译过来的,原来在英语里面会遇到很多a,the,or等使用频率很多的字或词,常为冠词、介词、副词或连词等。因为副词,连词这类词语并不会十分影响我们对语义的判断。
但是单纯的余弦相似性和TF-IDF某种情况下并不能十分的可靠。推一波自己的链接2333这里
建议使用textrank和以上算法进行结合
相关文章:
1. git - 在web应用分布式部署的情况下怎么进行配置更新2. css3 - 微信前端页面遇到的transition过渡动画的bug3. css - 文字排版问题,内容都是动态抓出来的,字数不一定。如何对齐啊4. 网页爬虫 - 关于Python的编码与解码问题5. css3 - 微信小程序如何把radio改成2个选择按钮的样式6. javascript - imgzoom插件所引发的bug血案!!!!7. php - TP5的登录验证问题8. selenium-selenium-webdriver - python 将当前目录加入到 环境变量9. javascript - html5 input file 如何限制只能调起图库和摄像头、不能选择其他类型的文件?10. css - input间的间距和文字上下居中
排行榜

网公网安备