`
icenows
  • 浏览: 56155 次
  • 性别: Icon_minigender_1
  • 来自: 上海
最近访客 更多访客>>
社区版块
存档分类

关于构建新闻关键词知识库的一点想法

阅读更多

昨天和周师兄等人一起聊了些本体和语义的话题。结合着我们目前在做的项目,考虑了一下构建新闻知识库的可行性,——从工程实现的角度。
首先说一下在新闻领域新闻关键词具有的一些特征:
第一:新闻的思路是比较清晰的,——我个人觉得,用特征值来描述比较恰当一点。一则新闻,可以分解为5W,什么人,什么时候,在什么地方,做了什么事,为了这么做 AND/OR 这样作会有什么影响。——如果能分析出相应的特征值,对比提取关键词算法会有更好的预期效果。
第二:新闻的频道相关性是很强的,这种相关性主要表现在两个方面,一方面,同一个关键词在不同的新闻领域有不同的意义;另一方面,不同的新闻频道关注的侧重点是不一致的。
第三:新闻存在一个热点问题,而且热点伴随着一个从发生,到引起广泛关注,最终到消失,或者休眠,在一定的条件下又有可能重新被激活为广泛关注。这之间伴随着概念,概念关系的产生与消失,可能再度被使用。

目前假设有各个频道关键词——在一个时间段内——的频度数据,理论上来说,根据新闻共现性可以统计出一个N*N的矩阵,来描述关键词之间的关系强度。利用这些关键词关系强度数据,结合TF-IDF可以让相关性较强的候选关键词浮上来,相对的抑制干扰关键词。

这之间面临的问题主要有以下3个;
第一:历史的统计结果如何应对上文中提到的热点问题;
第二:如何解决数据剧增带来的效率问题;
第三:——这一点和项目相关,目前的绝大部分数据源都是关于搜狐的,而需要处理的是新浪新闻,这两者之间如何切实有效的关联起来。

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics