提升大(dà)數據領域整體(tǐ)競争力
互聯網信息采集系統
系統利用主題網絡爬蟲的特點,高效地、聚焦地、自适應地從多源、多格式的數據源中(zhōng)獲取行業的原始信息數據,使得行業信息的收集具有高覆蓋率。然後,對收集到網頁進行網頁去(qù)重、噪音過濾等處理,形成統一(yī)的文檔格式并存于原始文檔庫中(zhōng)。再依據原始文檔庫建立起倒排索引,建立網頁倒排索引庫。用戶可通過網頁檢索模塊實現網頁文檔的查詢與管理。原始文檔庫作爲行業信息抽取的數據源。
互聯網信息抽取融合系統
通過對行業信息的規範化表達,總結文本中(zhōng)行業信息的語言描述特征,歸納文本中(zhōng)時空信息描述的語言結構,建立描述行業信息标注體(tǐ)系。同時以大(dà)規模網頁文本爲數據源,建立大(dà)規模的标注數據源,形成高質量的時空信息标注語料庫。同時基于時間地理學理論,設計實現行業信息的時空匹配方法,将結構化、定性化的行業信息有機、直觀地表示在空間和時間軸上,實現行業實體(tǐ)演化空過程的空間化處理。
互聯網輿情采集分(fēn)析系統
針對當前網絡文本中(zhōng)的行業信息,建立輿情關鍵詞,描述輿情話(huà)題間的熱度差異、内容特征、關聯關系以及傾向趨勢,對比不同階段的政府信息發布、公衆翻譯、媒體(tǐ)報道,分(fēn)析事件的背景,研究時間産生(shēng)的原因,爲政府部門相關決策的制定提供相應的理論支撐。
互聯網信息公開(kāi)查詢系統
以網絡爬蟲技術和信息挖掘技術爲支撐,依托政府門戶網站系統建立信息公開(kāi)查詢系統,提供各業務類别辦事咨詢、法律法規查詢、表格資(zī)料下(xià)載、辦事引導及結果查詢等服務。同時,利用新媒體(tǐ)時代下(xià)人際媒體(tǐ)和大(dà)衆媒體(tǐ)的優點,将行業信息公開(kāi)查詢系統通過公衆微信、短信服務等主流新媒體(tǐ)形式推送給大(dà)衆,塑造政府公信,引導社會輿論。