昨天和周师兄等人一起聊了些本体和语义的话题。结合着我们目前在做的项目,考虑了一下构建新闻知识库的可行性,——从工程实现的角度。
首先说一下在新闻领域新闻关键词具有的一些特征:
第一:新闻的思路是比较清晰的,——我个人觉得,用特征值来描述比较恰当一点。一则新闻,可以分解为5W,什么人,什么时候,在什么地方,做了什么事,为了这么做 AND/OR 这样作会有什么影响。——如果能分析出相应的特征值,对比提取关键词算法会有更好的预期效果。
第二:新闻的频道相关性是很强的,这种相关性主要表现在两个方面,一方面,同一个关键词在不同的新闻领域有不同的意义;另一方面,不同的新闻频道关注的侧重点是不一致的。
第三:新闻存在一个热点问题,而且热点伴随着一个从发生,到引起广泛关注,最终到消失,或者休眠,在一定的条件下又有可能重新被激活为广泛关注。这之间伴随着概念,概念关系的产生与消失,可能再度被使用。
目前假设有各个频道关键词——在一个时间段内——的频度数据,理论上来说,根据新闻共现性可以统计出一个N*N的矩阵,来描述关键词之间的关系强度。利用这些关键词关系强度数据,结合TF-IDF可以让相关性较强的候选关键词浮上来,相对的抑制干扰关键词。
这之间面临的问题主要有以下3个;
第一:历史的统计结果如何应对上文中提到的热点问题;
第二:如何解决数据剧增带来的效率问题;
第三:——这一点和项目相关,目前的绝大部分数据源都是关于搜狐的,而需要处理的是新浪新闻,这两者之间如何切实有效的关联起来。
分享到:
相关推荐
针对为检索服务的语义知识库存在的内容不全面和不准确的问题,提出一种基于维基百科的软件工程领域概念语义知识库的构建方法。以SWEBOK V3概念为标准,从维基百科提取概念的解释文本,并抽取其关键词表示概念的语义...
针对煤矿事故案例知识组织、共享和再利用不足等问题,将本体引入事故案例知识管理中,研究基于本体的事故案例知识库的构建和推理技术。通过分析事故案例知识构建了事故知识表示元组和事故案例元本体。在此基础上,按照...
为实现对矿井突水的智能化分析和处理,以及突水相关知识在领域内的共享和复用,提出基于本体构建矿井突水预警知识库。通过总结突水发生的机理研究,归纳出突水领域中重要概念及其相互间的联系;利用本体建模工具Protég...
这是关于基于Wiki协作系统的学科知识库构建的论文
基于DSpace的高校机构知识库构建,景罗,黄敏,论文对国内外机构知识库的产生背景和发展现状进行了调查研究,对开放获取和机构知识库的概念内涵进行了深入的分析,重点研究分析
语义信息抽取 泛网资源与信息 语义抽取内容 模式抽取 层级构建 知识库 典型知识库 构建方式 应用 语义检索 语义解析 语义计算 文本推理 文本复述 海量数据处理 Nesper
基于ontology技术构建科学效应知识库
本课程从云原生时代大背景下分析应用上云带来的的优势与对业务开发人员带来的挑战,从而说明构建业务-应用服务上云知识库的重要性与必要性;主要根据知识库建设的通用性原理,从知识生产到消费再到知识再生产的完整...
中文旅游系统问答知识库构建中文旅游系统问答知识库构建(仅供学习和参考)
Fonduer是一个用于从丰富的格式化数据构建知识库应用程序的框架,并且在Snorkel的修改版本之上实现为库。
基于云计算平台的知识库构建方案.pdf
利用数据挖掘技术构建临床药学知识库.pdf
基于Python+Flask的流水线系统(pipeline)构建基于本地知识库的ChatGLM问答源码+数据集+详细文档(高分毕业设计基于Python+Flask的流水线系统(pipeline)构建基于本地知识库的ChatGLM问答源码+数据集+详细文档(高分...
为了使科学效应知识更好地支持创新性概念设计,分析了科学效应知识支持原理设计的过程,提出了基于本体的科学效应知识库系统模型。构建了科学效应知识本体,利用本体中的对象属性建立了功能、科学效应、特征流属性和...
维基百科(Wikipedia)是规模最大的在线网络百科全书之一,采用群体在线合作编辑的Wiki机制,具有质量高、覆盖广、实时演化和半结构化等特点,是用来构建语义知识库的优质语料来源。分析了维基百科语料库的基本情况,...
Web新闻关键词抽取与主题特征自动化构建研究,单艳雯,刘鲁,将词汇位置信息引入权重的计算过程,提出了基于位置重要性的Web新闻关键词抽取算法。进一步,将算法引入Web新闻主题特征构建框架中
知识库源码javaweb版 内附全部源码 mysql建表语句 以及测试路径 知识库设计文档 直接导入Myeclipse,部署到tomcat中即可运行,里面还有权限菜单的控制分配 本人亲自测试运行起来的
利用数据挖掘技术构建临床药学知识库 (1).pdf
分析了国内农业高等院校构建机构知识库发展的现状, 阐述发展农业高等院校机构知识库的意义, 从方针 政策、可持续发展等方面展望了农业高等院校构建机构知识库的模式和方向。
知识库管理系统,包含源码和数据库。通过maven构建,使用git版本控制和团队合作,采用springmvc+mybatis框架,集成Lucene全文检索,openoffice转化office文档,ffmpeg处理视频文件,red5搭建流媒体服务,基于...