摘要: 【目的】論述 Web 信息抽取技術在新聞輿情分析中的應用,為輿情虛假信息甄別、輿論引導提供新方法,從
而避免對大眾的思維、想法等造成不良影響?!痉椒ā垦芯刻岢隽嘶谛袎K分布函數(shù)和基于統(tǒng)計與網(wǎng)頁結構兩種不
同的新聞正文信息抽取方法,使得在對 Web 新聞數(shù)據(jù)采集和存儲的基礎上,正文信息抽取更加高效和準確?!窘Y果】
兩種 Web 信息抽取技術可以廣泛應用于海量新聞數(shù)據(jù)分析、輿情監(jiān)測等應用場景?!窘Y論】通過基于行塊分布函數(shù)
的抽取方法和基于統(tǒng)計信息與網(wǎng)頁結構的抽取方法,能夠分別對輕量網(wǎng)頁和大流量網(wǎng)頁抽取信息時表現(xiàn)更優(yōu)。