百看不厭亚洲中文字幕无码中文字幕_日本中文字幕一区二区三区不卡_国产精品对白刺激_孕妇99久久久国产精品免费_亚洲欧洲自拍拍偷午夜色无码

首頁 > 新聞中心  > 信息資訊

政府網(wǎng)站內(nèi)容格式規(guī)范

發(fā)布時間:2010-5-26 11:24:41 瀏覽次數(shù):

1. 制定背景
    
中央政府門戶網(wǎng)站內(nèi)容主要來源于國務(wù)院辦公廳和地方政府網(wǎng)站、部門兩站。中央政府門戶網(wǎng)站獲取各級政府及部門網(wǎng)站內(nèi)容的形式主要有網(wǎng)上抓取、信息報送、網(wǎng)站鏈接和欄目共建等方式。其中網(wǎng)上抓取是中央政府門戶網(wǎng)站從各級政府及部門網(wǎng)站獲取信息的主要方式之一。
    
網(wǎng)上抓取所面臨的問題是,各級政府及部門網(wǎng)站缺乏統(tǒng)一的內(nèi)容格式規(guī)范,不利于采集工具自動抓取和分析信息,部分屬性不易準確提取。為了更準確地采集和分析各級政府及部門網(wǎng)站信息,需要規(guī)范網(wǎng)站的頁面內(nèi)容格式。各級政府及部門網(wǎng)站按照統(tǒng)一要求經(jīng)過規(guī)范化修改后,中央政府門戶網(wǎng)站可以通過采集工具
實現(xiàn)準確的網(wǎng)上信息自動抓取。
    
同時,為了構(gòu)建政府網(wǎng)站服務(wù)體系,實現(xiàn)政府網(wǎng)站群的聯(lián)合檢索功能,需要制定各級政府及部門網(wǎng)站檢索系統(tǒng)的接口規(guī)范。
2
名詞解釋
    
服務(wù)系統(tǒng):指各級政府及部門網(wǎng)站上提供的網(wǎng)上辦事服務(wù)系統(tǒng)、網(wǎng)上申報服務(wù)系統(tǒng)、網(wǎng)上數(shù)據(jù)查詢系統(tǒng)等網(wǎng)上應(yīng)用服務(wù)系統(tǒng)。網(wǎng)上采集工具的目標不是把其中的數(shù)據(jù)內(nèi)容進行采集,而是從網(wǎng)站群上自動發(fā)現(xiàn)這些服務(wù)系統(tǒng),獲取入口URL和相關(guān)描述信息,從而提供鏈接服務(wù)。
    
聯(lián)合檢索:在中央政府門戶網(wǎng)站提供的聯(lián)合檢索功能指,系統(tǒng)能夠?qū)z索請求分發(fā)給各級政府及部門網(wǎng)站的站內(nèi)檢索系統(tǒng),并將各網(wǎng)站站內(nèi)檢索系統(tǒng)的結(jié)果統(tǒng)一合并處理后返回給查詢用戶。這樣,用戶得到的檢索結(jié)果是各級政府及部門網(wǎng)站檢索結(jié)果的合集。
3
制定目標
    
為了實現(xiàn)各級政府及部門網(wǎng)站的網(wǎng)上信息抓取,制定政府網(wǎng)站的建設(shè)規(guī)范是關(guān)鍵環(huán)節(jié)。本規(guī)范圍繞信息采集和網(wǎng)頁分析功能,在保持現(xiàn)有網(wǎng)站建設(shè)模式、不增加信息通道的前提下,使符合規(guī)范的網(wǎng)站可被中央政府門戶網(wǎng)站采集工具程序自動識別,實現(xiàn)網(wǎng)站和網(wǎng)頁屬性自動標引,最大限度減少人工介入。
    
本規(guī)范配合中央政府門戶網(wǎng)站采集工具的功能,實現(xiàn)以下目標:
    
1)收集并驗證網(wǎng)站信息;
    
2)準確收集各級政府及部門網(wǎng)站的政務(wù)信息;
    
3)自動發(fā)現(xiàn)并登記網(wǎng)上服務(wù)系統(tǒng);
    
4)實現(xiàn)政府網(wǎng)站群聯(lián)合檢索;
    
5)準確分析網(wǎng)頁屬性信息。
    
為實現(xiàn)上述目標,本規(guī)范制定了五方面條款,具體含義和作用說明如下:
    1
.網(wǎng)站信息:用于標注網(wǎng)站和欄目的信息,比如名稱、行業(yè)、地區(qū)、欄目名稱、分類等。通過對網(wǎng)站信息的標注,不但可以使采集程序獲得網(wǎng)站的基本信息,更重要的是,可以把這些信息作為政府網(wǎng)站的檢驗標志之一,實現(xiàn)政府網(wǎng)站驗證校對。
    2
.政務(wù)信息:指各級政府及部門網(wǎng)站發(fā)布的與政府業(yè)務(wù)相關(guān)的信息,包括但不限于機構(gòu)信息、法律法規(guī)、規(guī)范性文件、辦事指南等。政務(wù)信息是政府網(wǎng)站所發(fā)布的主要信息,在中央政府門戶網(wǎng)站建設(shè)中,需要將各級政府及部門網(wǎng)站所發(fā)布的政務(wù)信息進行匯總、分類,提供導(dǎo)航、檢索等服務(wù)。
    3
.服務(wù)系統(tǒng):在中央政府門戶網(wǎng)站建設(shè)中,需要提供網(wǎng)上服務(wù)系統(tǒng)的準確定位地址信息,方便公眾通過中央政府門戶網(wǎng)站查詢并快速到達該服務(wù)系統(tǒng)的入口網(wǎng)頁。
    4
.檢索系統(tǒng)接口:許多政府網(wǎng)站提供站內(nèi)內(nèi)容檢索服務(wù)。但是網(wǎng)站所采用的檢索入口以及結(jié)果展示頁面各不相同,需要統(tǒng)一檢索系統(tǒng)接口,實現(xiàn)政府網(wǎng)站群的聯(lián)合檢索功能。
    5
.網(wǎng)頁內(nèi)容:網(wǎng)頁中包含標題、正文、作者、發(fā)表日期、正文、來源等信息,但是如果沒有格式規(guī)范,網(wǎng)頁分析程序難以準確提取這些信息。通過制定統(tǒng)一的網(wǎng)頁內(nèi)容格式規(guī)范,可以實現(xiàn)網(wǎng)頁內(nèi)容的準確分析和提取。
    
實現(xiàn)規(guī)范的基本方法是,在網(wǎng)頁HTML中,嵌入特定意義的標識信息,用于標注各項有意義的內(nèi)容,這些嵌入的標識信息采用HTMLmeta置標,在實現(xiàn)屬性標注功能的同時,不影響網(wǎng)頁的顯示效果。
4
適用對象和范圍
    
本規(guī)范適用于各級政府及部門網(wǎng)站的建設(shè),包括國務(wù)院各部門網(wǎng)站,副省級以上地方政府網(wǎng)站。中央政府門戶網(wǎng)站采集工具將全面支持本規(guī)范,實現(xiàn)對符合規(guī)范的政府網(wǎng)站的準確數(shù)據(jù)采集。
5
制定原理和原則
5.1
制定原理
    
構(gòu)成網(wǎng)頁的HTML文件邏輯上可以分為內(nèi)容(Content)和頁面展示(Style)兩部分,內(nèi)容部分包括網(wǎng)頁的標題、日期、正文、作者等數(shù)據(jù)元素,它決定了網(wǎng)頁所包含的信息;頁面展示部分包括每個元素的位置、字體、大小、顏色等,它決定了網(wǎng)頁在瀏覽器中的顯示效果。HTML文件能夠?qū)?nèi)容和頁面展示有機地結(jié)合為一體。
    
本規(guī)范的制定主要從網(wǎng)頁內(nèi)容標注入手,從內(nèi)容層面對網(wǎng)頁進行標注,而忽略頁面展示層面。具體方法是,利用HTML文件的特性,在不影響網(wǎng)頁展示效果的前提下,加入各類屬性置標,規(guī)定網(wǎng)站發(fā)布內(nèi)容必須包含的信息。例如,在網(wǎng)頁中標注網(wǎng)站信息、欄目信息、標題、日期、作者、來源、服務(wù)系統(tǒng)等元數(shù)據(jù)內(nèi)容,從根本上保證其它應(yīng)用對該網(wǎng)頁屬性的準確識別和提取。
5.2
規(guī)范制定原則
    
各級政府及部門網(wǎng)站已經(jīng)經(jīng)歷了多年的建設(shè),花費了設(shè)計和管理維護人員的大量心血。為了盡量減少網(wǎng)站的改動,規(guī)范制定過程中充分考慮了各級政府及部門網(wǎng)站的實際特點和改造難度,提供可行的操作規(guī)范。
5.2.1
可操作性
    
規(guī)范條款簡單明了,貼近實際應(yīng)用,提供明確的操作步驟,方便維護人員實施。
5.2.2
劃分等級
    
為了使本規(guī)范具有更好的可行性,避免一刀切所帶來的網(wǎng)站改造壓力,采用了劃分等級的方法,方便分階段、分步驟實現(xiàn)對規(guī)范的支持。具體等級劃分和含義如下:
    
1級:重要程度高,實現(xiàn)緊急度高。
    
2級:重要程度中,實現(xiàn)緊急度高。
    
3級:重要程度高,實現(xiàn)緊急度低。
5.3
條款描述方法
    
每項規(guī)范條款從以下方面給出描述:
    
編號:規(guī)范條款編號。
    
用途:給出規(guī)范條款的用途。
    
等級:給出規(guī)范條款的等級。
    
范圍:給出規(guī)范條款的影響范圍,范圍的描述方法包括:
        
主頁:指各級政府及部門網(wǎng)站的主頁。
        
欄目:指各級政府及部門網(wǎng)站上的欄目頁面。
        
內(nèi)容頁:指非主頁、非欄目,包含政務(wù)信息等實際內(nèi)容的網(wǎng)頁。
        
各級網(wǎng)頁:泛指各級政府及部門網(wǎng)站上的網(wǎng)頁。
        
網(wǎng)頁索引文件:為向網(wǎng)站外部提供站內(nèi)網(wǎng)頁信息而專門設(shè)置的XML索引文件,它包含網(wǎng)站所發(fā)布網(wǎng)頁的索引信息。
        
服務(wù)系統(tǒng)主頁:特指各個服務(wù)系統(tǒng)的入口網(wǎng)頁。
        
系統(tǒng)接口:指系統(tǒng)可以提供某種形式的調(diào)用接口,實現(xiàn)請求的接收和執(zhí)行結(jié)果的返回。
    
內(nèi)容:給出具體的規(guī)范內(nèi)容及標注方法。
5.4
其它說明
    
規(guī)范條款描述中使用“*”號來區(qū)分必標注項和可選標注項,帶有“*”號的meta置標為必須標注項,不帶“*”號的屬性為可選項。
    
條款中涉及“地區(qū)”屬性,應(yīng)按照中國行政區(qū)劃中的規(guī)范地名名稱進行標注。省和市之間用半角“/”符號分隔,比如“山東省青島市”應(yīng)標注為“山東省/青島市”。
    
條款中涉及“行業(yè)”、“分類”等屬性,目前各單位可以自行填寫(或者暫時省略不填),在中央政府門戶網(wǎng)站制定統(tǒng)一的相關(guān)規(guī)范之后,再按統(tǒng)一規(guī)范執(zhí)行。分類標注可以支持多級,類和類之間采用半角“/”分隔。
    
條款中有關(guān)“地區(qū)”、“分類”、“作者”等屬性,均可以填寫多值,多值之間采用半角分號“;”分隔。
    
當有多項條款需要作用在一個網(wǎng)頁上時,把各項條款需要在網(wǎng)頁上所作的標注內(nèi)容進行簡單累加即可。
    
為了滿足政府網(wǎng)站將來發(fā)展的需要,本規(guī)范中網(wǎng)頁置標的格式遵循XHTML規(guī)范,網(wǎng)頁標簽的元素和內(nèi)容全部采用英文小寫,并且網(wǎng)頁標簽閉合。
6
規(guī)范條款
6.1
網(wǎng)站信息規(guī)范
6.1.1
主頁標注
    
編號:No.1
    
說明:在各級政府及部門網(wǎng)站的主頁上給出網(wǎng)站名稱、主頁URL、行業(yè)、地域、分類等屬性。
    
用途:該屬性是網(wǎng)站的一項重要屬性,用于標注網(wǎng)站的名稱和屬性。
    
等級:1。
    
范圍:主頁。
    
內(nèi)容:在主頁(一般為index.html/index.htm/index.asp/index.jsp等)HTML文件中,在<head>區(qū)域內(nèi)用meta置標的方式給出網(wǎng)站名稱、主頁URL、行業(yè)、地區(qū)、分類。格式描述:
    *<meta name="sitename"content="[
網(wǎng)站名稱]"/>
    *<meta name="siteurl"content="[URL
地址]"/>
    <meta name="guild"content="[
行業(yè)]"/>
    *<meta name="district"content="[
地區(qū)]"/>
    <meta name="sitecatalog"content="[
分類]"/>
    
其中,“網(wǎng)站名稱”是指網(wǎng)站的正式名稱。例如:
    <meta name="sitename"content="
中國農(nóng)業(yè)信息網(wǎng)"/>
    <meta name="siteurl"content="http://www.agri.gov.cn/"/>
    <meta name="guild"content="
農(nóng)業(yè)"/>
    <meta name="district"content="
北京市"/>
    <meta name="sitecatalog"content="
農(nóng)業(yè)"/>
6.1.2
欄目標注
    
編號:No.2
    
說明:在各級政府及部門網(wǎng)站的欄目頁面上標注欄目屬性。
    
用途:利用該標注可以獲得網(wǎng)頁所屬的欄目信息。
    
等級:3
    
范圍:欄目。
    
內(nèi)容:在欄目HTML文件中,在<head>區(qū)域內(nèi)用meta置標的方式標注欄目名稱。
    
格式描述:
    *<meta name="channel"content="[
欄目名稱]"/>
    *<meta name="chnlcatalog"content="[
分類]"/>
    
例如:
    <meta name="channel"content="
三講教育"/>
    <meta name="chnlcatalog"content="
政治/三講教育"/>
6.2
政務(wù)信息規(guī)范
6.2.1
政務(wù)信息標注(1
    
編號:No.3
    
說明:在各級政府及部門網(wǎng)站的主頁上標注政務(wù)信息。
    
用途:對網(wǎng)站的政務(wù)信息進行標注。
    
等級:l
    
范圍:主頁。
    
內(nèi)容:在主頁HTML文件中,用meta置標的方式,將包含政務(wù)信息的欄目列出,如果多個欄目中包含政務(wù)信息,則可以為每個欄目填寫一個meta置標。格式描述:
     *<meta name="serve"content="[
欄目URL],[分類],[地區(qū)]"/>
    
其中,“分類”是指政務(wù)信息的分類屬性,可以是法律法規(guī)、政策解釋、辦事指南等;“地區(qū)”是指政務(wù)信息的地域?qū)傩?;屬性之間用半角逗號“,”分隔。
    
例如:
    <meta name="serve"content="http://www.beijing.gov.cn/fg/def
ault.htm,
法律法規(guī),北京市"/>
6.2.2
政務(wù)信息標注(2
    
編號:No.4
    
說明:在網(wǎng)頁中標注本網(wǎng)頁為一條政務(wù)信息。
    
用途:用于對網(wǎng)站中政務(wù)信息網(wǎng)頁進行標注。
    
等級:3。
    
范圍:內(nèi)容頁。
    
內(nèi)容:在內(nèi)容頁的HTML文件中,在<head>區(qū)域內(nèi)用meta置標的方式標注政務(wù)信息。格式描述:
    *<meta name="serve"content="[
分類],[地區(qū)]"/>
    
其中,“分類”是指政務(wù)信息的分類屬性,可以是法律法規(guī)、政策解釋、辦事指南等;“地區(qū)”是指政務(wù)信息的地域?qū)傩?;屬性之間用半角逗號“,”分隔。
    
例如:
    <meta name="serve"content="
法律法規(guī),北京市"/>
6.3
服務(wù)系統(tǒng)規(guī)范
6.3.1
服務(wù)系統(tǒng)標注
    
編號:No.5
    
說明:在各級政府及部門網(wǎng)站的主頁上給出所包含的服務(wù)系統(tǒng)信息。
    
用途:對于包含應(yīng)用系統(tǒng)(比如“機動車違章查詢系統(tǒng)”,“在線招投標系統(tǒng)”等)的網(wǎng)站,通過在主頁上對這些服務(wù)系統(tǒng)的基本信息進行標注,即可實現(xiàn)這些服務(wù)系統(tǒng)被自動收集和整合的目的。
    
等級:1。
    
范圍:主頁。
    
內(nèi)容:在主頁的HTML文件中,在<head>區(qū)域內(nèi)用meta置標的方式給出本網(wǎng)站服務(wù)系統(tǒng)的基本信息。如果一個網(wǎng)站有多個服務(wù)系統(tǒng),則可以為每個應(yīng)用填寫一個meta置標。格式描述:
    *<meta name="services"content="[
網(wǎng)上服務(wù)名稱],[服務(wù)入口URL],[分類],[地區(qū)]"/>
    
屬性之間用半角逗號“,”分隔。例如:
    <meta name="services"content="
北京市公安局公安交通管理局車輛違法查詢,http://www.bjjtgl.gov,cn,公安,北京市"/>
6.4
檢索系統(tǒng)規(guī)范
6.4.1
檢索系統(tǒng)接口
    
編號:No.6
    
說明:對各級政府及部門網(wǎng)站的站內(nèi)檢索服務(wù)提出規(guī)范化要求。
    
用途:用于實現(xiàn)政府網(wǎng)站群聯(lián)合檢索。
    
等級:2。
    
范圍:系統(tǒng)接口。
    
內(nèi)容:為了實現(xiàn)政府網(wǎng)站群的聯(lián)合檢索,對各級政府及部門網(wǎng)站目前的站內(nèi)檢索系統(tǒng)提出規(guī)范化要求。基本思想是,各網(wǎng)站實現(xiàn)一套統(tǒng)一的檢索接口,包括能夠接受統(tǒng)一格式要求的HTTP檢索請求,并返回統(tǒng)一格式要求的檢索結(jié)果頁面。
    
1)接收統(tǒng)一的HTTP檢索請求:
    
站點檢索系統(tǒng)能夠接收以下格式提交的檢索請求:
    http://[hostname]/[
程序名]?query=[檢索條件]&page=[頁碼]&
count=[
每頁數(shù)目]&export=xml
    
其中,“程序名”、“檢索條件”、“頁碼”、“每頁數(shù)目”是可變參數(shù),可由聯(lián)合檢索程序設(shè)置,分別表示調(diào)用的檢索程序名、檢索條件、取結(jié)果的頁碼編號、每頁包含的網(wǎng)頁數(shù)。
    
“檢索條件”是gb18030(兼容gb2312gbk)或utf-8兩種編碼之一;檢索的詞間關(guān)系支持“and”運算,使用半角空格分隔(比如“北京 美國”表示檢索“中國”和“美國”同時出現(xiàn)的文章)。頁碼取值范圍ll0;每頁數(shù)目取值范圍1020,一般取1020,對于超出上述取值范圍的請求,檢索系統(tǒng)可以不支持。
    
聯(lián)合檢索應(yīng)用程序會將經(jīng)過URL編碼的請求發(fā)送給站點檢索系統(tǒng)。例如,檢索詞為“北京”的檢索請求可能為:
    http://www.xinhuanet.com/search?query=%B1%B1%BE%A9&page=l&count=20&export=xml
    
為了實現(xiàn)站點檢索系統(tǒng)的安全調(diào)用,除了上述基本檢索方式之外,系統(tǒng)還提供一種安全檢索方式,對于對安全性有較高要求的網(wǎng)站,通過實現(xiàn)安全訪問接口,達到安全訪問的目的。
    
安全調(diào)用的基本思路是,中央政府門戶網(wǎng)站的聯(lián)合檢索應(yīng)用程序?qū)z索請求進行加密處理,各級政府及部門網(wǎng)站的站內(nèi)檢索系統(tǒng)對檢索請求進行解密,只有經(jīng)過正確解密的請求才被認為是合法的檢索請求,其它檢索請求不被響應(yīng)。這樣可以屏蔽非法的檢索請求,減輕系統(tǒng)的運行壓力。
    
具體做法是,利用RSA加密算法生成一對鑰匙——公鑰和私鑰,公鑰由中央政府門戶網(wǎng)站公開給各級政府及部門網(wǎng)站的站內(nèi)檢索系統(tǒng)使用,私鑰在中央政府門戶網(wǎng)站聯(lián)合檢索應(yīng)用中使用。聯(lián)合檢索應(yīng)用程序首先利用私鑰對正常檢索請求的URL串進行加密,形成一個加密的URL串,表現(xiàn)為:
    http://[hostname]/[
程序名]?search=[加密字符串]
    
其中,“加密字符串”為原表達式“query=[檢索條件]&page
=[
頁碼]&count=[每頁數(shù)目]&export=xml”經(jīng)過私鑰加密后的字符串。
    
聯(lián)合檢索應(yīng)用程序?qū)ι鲜黾用?/span>URL進行URL編碼后發(fā)送給各級政府及部門網(wǎng)站的站內(nèi)檢索系統(tǒng)。
    
站內(nèi)檢索系統(tǒng)接收到加密URL的檢索請求后,首先進行URL解碼,獲得加密的URL串,然后進行認證——使用公鑰對URL串進行解密,如果能夠正確還原出“query=[檢索條件]& page=[頁碼]&count=[每頁數(shù)目]&export=xml”這樣格式的字符串,則執(zhí)行檢索并返回檢索結(jié)果,否則,認證失敗,站內(nèi)檢索系統(tǒng)不執(zhí)行檢索操作。
   
                                                                                                                                                            轉(zhuǎn)載:西安市人民政府網(wǎng)

 

聯(lián)系方式
QQ:249168441
聯(lián)系電話:029-89381912    13891999785
地址:西安市高新區(qū)天谷八路156號軟件新城研發(fā)基地二期A1棟406室
2009- 2020 西安千網(wǎng)信息技術(shù)有限公司    版權(quán)所有    ICP備案編號:陜ICP備11005413號    陜公網(wǎng)安備61019002003100     本網(wǎng)站支持IPv6