【作者】刘利
【摘要】:当今互联网已成为一个巨大的开放式知识库,其中包含着许多有价值的信息。互联网信息呈现形式多样性的特点,如何初步筛选出有价值的网页,是信息抽取的第一要务,也是构建知识库的基础。本文在建立互联网模型基础上,利用Hadoop平台下的Pagerank算法,旨在研究如何在节省时间和空间基础上筛选出有价值的网页,为从互联网抽取有价值信息构建知识库提供解决方案。
【作者单位】:
泸州职业技术学院信息工程系;
【关键词】:
Hadoop Pagerank 知识库 信息抽取
【分类号】:TP391.1
【正文】:
1引言互联网像是一个巨大的知识库,具有信息规模庞大、信息资源多样、信息分散等特点。网页被视为知识库中的单位信息,但这些信息有很强的独立性和自治性。搜索引擎好比是在这个知识库中建立索引,方便用户搜索。用户用主流的搜索引擎比如google和百度搜索某个关键字时,会反馈
杂志文章正文