信息抽取 基于Heritrix的Web信息抽取
發(fā)布時間:2020-03-07 來源: 幽默笑話 點擊:
[摘要]針對現(xiàn)階段web信息抽取技術(shù)的不足,提出一種基于Heritrix的精確抽取方法,由三個分別獨立的功能模塊共同完成。與一般信息抽取不同,本方法注重于在精確抽取的前提下實現(xiàn)通用化,做到可以根據(jù)數(shù)據(jù)庫表的字段來進行最小單位的信息抽取,并且較好地解決信息采集通用性和準確性之間的矛盾。
相關(guān)熱詞搜索:抽取 信息 Heritrix 基于Heritrix的Web信息抽取 基于web的管理系統(tǒng) 基于web的圖書管理系統(tǒng)
熱點文章閱讀