关于如何评价关键词算法的效率,师姐建议采用借用搜索引擎的召回率和准确率来统计,——人工选择N个关键词,再自动抽取N个关键词进行比较。但是在最后的实现过程中发现,这种N:N的方法是不太恰当的,最明显的结果是召回率=准确率。
另一方面,手动关键词的选取也值得商榷,限定提取N个关键词的办法似乎不是很好,问题在于究竟应该选取一个多大的N?——我在做测试集的时候就有这一困惑,有的新闻实在提取不出10个关键词,有的似乎还不止这个数目。
基于此,我想对这种方法作一些调整。通过调整相关参数,最终的目的是要在召回率和准确率之间获得一个比较好的结果。
一方面,手工提取关键词的过程中,可以自由选择关键词的数量。就是说,我们只是把这篇文章的所有关键词提取出来,具体提取多少个并不限定。不同的人提取的结果可能会有出入,包括哪些是关键词,有多少个词可以作为关键词。这之间的分歧可以一起讨论,这也是测试集的完善过程。
另一方面,应该适度的调整自动生成关键词的数量。既然是候选关键词,那么适度的放大候选的范围还是可以接受的。通过调节自动关键词的数量,可以确定,在当前算法下,究竟应该提供多少个候选关键词才是最合适的。这里面存在着一个问题,什么才是最合适的,召回率和准确率扮演着多大的权重。
最后,一并感谢所有icaer的帮助。
分享到:
相关推荐
Caffe-SSD的solver.cpp修改后的源码,可输出准确率、召回率和PR曲线值
应用python代码语义分割评价指标总结及代码实现包含'准确率'、'精确率'、'召回率'、'F1值'、'Iou值'
(2)本文还根据John S.Breese提出的结论,利用“惩罚”用户共同兴趣列表中热门物品对他们相似度的影响这一方法,改进了用户相似度的计算,通过实验数据可以得出,这使得推荐结果的召回率由原来的最高19.523%提升到...
通常,我们认为精度和召回率都表明模型的准确性。 尽管这是正确的,但每个术语都有更深层的,不同的含义。 精确度是指相关结果的百分比。 另一方面,召回指的是您的算法正确分类的所有相关结果的百分比。 毫无疑问...
针对移动网络中用户的移动、数据丢失、用户定位不精确...详细的仿真实验以及与现有的基于距离的移动用户群挖掘算法DMUM的对比表明,该算法不仅具有更少的执行时间,同时有效地提高了移动用户群挖掘的召回率与准确率。
朴素贝叶斯等算法进行融合,实现判别提高准确率,并进行测试和应用。 2.项目运行环境:Python环境、 jieba分词库、 Scikit-learn库、 nginx和 php。 3.项目包括2个模块:前端模块和后端模块。其中前端模块包括:短信...
针对传统CHI算法忽略特征词的词频易导致重要特征词被漏选的问题,结合特征选择时Filter类算法速度快、Wrapper类...实验表明,改进算法相比传统CHI算法所选特征词具有更好的分类效果,提高了分类器的准确率和召回率。
针对科技资源中缩略语大量出现,但传统算法识别准确率不高,运行速度较慢问题,提出一种基于逆序扫描和共现分析相结合的术语缩略...同以往算法相比,该算法无论在时间复杂度,还是在准确率和召回率上都取得了明显进步。
结果表明,在最优值λopt时,对于MovieLens系统,准确率与召回率分别提高了228.2%和228.4%;而对于Amazon系统,准确率与召回率分别提高了162.7%和162.8%。该算法提高了推荐的效果,表明流行度在用户作选择的过程中起...
实验结果表明,新算法评分预测的平均绝对误差明显低于皮尔森相似度,将MAE降低了10%以上,并提高了推荐的召回率和覆盖率。该算法只在电影评分数据集上进行实验验证有一定的局限,但能够提高协同过滤算法的准确性,...
博主结合大量论文自行实现的一个基于项目协同过滤的推荐算法(利用余弦相似度来衡量项目间的相似性...此算法不仅能够计算所有用户推荐结果的平均准确度和平均召回率,还能针对特定用户计算其推荐结果的准确度和召回率。
博主结合大量论文自行实现的一个基于用户协同过滤的推荐算法(利用余弦相似度来衡量用户间的相似性...此算法不仅能够计算所有用户推荐结果的平均准确度和平均召回率,还能针对特定用户计算其推荐结果的准确度和召回率。
对UCI上的数据集wine利用机器学习的常见分类算法进行分类处理,包含KNN,朴素贝叶斯算法,决策树算法等等。可直接使用,无需更改。
提出了一种基于支持向量机和蚁群算法相结合的构造网页分类器的高效分类方法,实验结果证明了该方法的有效性和鲁棒性,弥补了仅利用支持向量机对于大样本训练集收敛慢的不足,具有较好的准确率和召回率。
情感评价单元的抽取是情感分析的基础任务之一,目前大...在中文商品评论上进行实验,该方法比基于句法路径的方法准确率提高了13.4%,召回率提高了9.2%。实验证明提出的方法对中文商品评价的情感评价单元抽取效果较好。
针对海量数据背景下K-means聚类结果不稳定和收敛速度较慢的问题,提出了...实验结果表明,在单机性能上,该方法具有较高的准确率和召回率,同时也具有较强的聚类稳定性;在集群性能上,也具有较好的加速比和运行速度。
为能够在复杂背景下检测裂缝、分析裂缝图像特征...将该方法与不同的分割方法对实际裂缝图像的处理结果进行比较,通过区域对比度、准确率和召回率等客观指标进行定量分析,表明了该方法对裂缝图像检测的有效性与通用性。
针对传统推荐算法忽略用户社交影响、研究角度不全面和缺乏物理解释等问题,提出一个融合社交行为和标签行为的推荐算法。...采用Last.fm数据集进行实验研究,结果说明推荐算法的准确率和召回率更高。
从实验结果可知,对于UCI soybean数据集,本次实验所实现的各个模型的最佳性能结果如下:准确率最佳的为bagging算法,其后的依次是随机森林算法、决策树算法、多层感知器分类器、kNN算法、朴素贝叶斯、SVM,显然准确...