互聯(lián)網(wǎng)環(huán)境法律信息獲取方法

時(shí)間:2022-06-07 10:14:00

導(dǎo)語(yǔ):互聯(lián)網(wǎng)環(huán)境法律信息獲取方法一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

互聯(lián)網(wǎng)環(huán)境法律信息獲取方法

一、引言

今天,計(jì)算機(jī)網(wǎng)絡(luò)和信息技術(shù)的迅猛發(fā)展大大地推動(dòng)了社會(huì)的發(fā)展,它的影響和溯及力已經(jīng)遍布整個(gè)社會(huì)的方方面面,并且在法律領(lǐng)域逐漸顯示出強(qiáng)有力的優(yōu)勢(shì),無(wú)論是對(duì)日常的司法業(yè)務(wù)處理,還是法學(xué)研究與司法辦案決策都賦予了新的方法和思路,越來越發(fā)揮著它的輔助支持作用。然而面對(duì)著網(wǎng)絡(luò)中越來越錯(cuò)綜復(fù)雜、難以描述的模糊問題和海量非結(jié)構(gòu)化的數(shù)據(jù),如何滿足對(duì)其高效的查詢請(qǐng)求,以更低的成本、更準(zhǔn)確的數(shù)據(jù)和更迅捷的速度作出正確的決策,是當(dāng)前信息獲取和利用所面臨的關(guān)鍵問題。司法決策人員在查詢目標(biāo)不很明確的狀況下選擇決策依據(jù)時(shí),注重的是如何從浩如煙海的數(shù)據(jù)中快速地調(diào)出與案件相關(guān)的法律、法規(guī)及判例,而不是遍歷龐大的互聯(lián)網(wǎng)或數(shù)據(jù)庫(kù)資源漫無(wú)目標(biāo)地搜尋。而目前大多數(shù)網(wǎng)絡(luò)搜索引擎和信息獲取工具是基于檢索提問式關(guān)鍵詞匹配技術(shù),在檢索的過程中常常出現(xiàn)的兩類主要問題是“信息過載”和“內(nèi)容不匹配”。前者指在檢索過程中系統(tǒng)返回的信息量過多,與查找相關(guān)或不相關(guān)的內(nèi)容都冒出來,使用戶應(yīng)接不暇,難于接受;后者指因?qū)ν粋€(gè)概念的表述出現(xiàn)多義、歧義,返回的信息并非用戶真實(shí)的查詢意圖和內(nèi)容,查準(zhǔn)率和查全率都得不到保證。要解決網(wǎng)絡(luò)環(huán)境中上述信息獲取存在的問題,實(shí)現(xiàn)真正意義上的面向法律領(lǐng)域的知識(shí)檢索,從理論層面上,必須構(gòu)建以法律領(lǐng)域知識(shí)為基礎(chǔ)的用于語(yǔ)義檢索的元數(shù)據(jù)標(biāo)準(zhǔn),用來對(duì)網(wǎng)頁(yè)中的相關(guān)信息標(biāo)引和知識(shí)抽取,以便將用戶查詢請(qǐng)求準(zhǔn)確地與網(wǎng)頁(yè)上查詢的法律知識(shí)目標(biāo)相匹配;這就要求我們對(duì)來自網(wǎng)頁(yè)或數(shù)據(jù)庫(kù)的法律信息進(jìn)行整理、組織和特征分析,依據(jù)法律領(lǐng)域?qū)<宜O(shè)計(jì)的法律信息規(guī)范標(biāo)準(zhǔn),建立可利用和共享的法律知識(shí)單元和元數(shù)據(jù),以達(dá)到智能和準(zhǔn)確的語(yǔ)義檢索,實(shí)現(xiàn)面向法律領(lǐng)域的知識(shí)獲取,為司法業(yè)務(wù)信息化和司法決策信息化提供更加有力的支撐。

二、法律信息資源的構(gòu)成與語(yǔ)義特征分析

(一)法律信息知識(shí)單元的組織

一般來說,在法律文獻(xiàn)中的知識(shí)內(nèi)容是由若干個(gè)知識(shí)單元組成,知識(shí)單元之間的結(jié)構(gòu)關(guān)系是相對(duì)固化的。用戶在網(wǎng)上查找其中的知識(shí)時(shí),只能按照編者事先組定的線性方式讀取,即使只想獲取其中某一部分事實(shí)或數(shù)據(jù),也要在獲取全文的基礎(chǔ)上根據(jù)需要逐個(gè)篩選,這顯然不能滿足用戶的實(shí)際需求。如果能將這種線性的知識(shí)塊(文獻(xiàn))分解為各種面向用戶問題域或基于事實(shí)域的認(rèn)知層次的活化知識(shí)單元,并將這些知識(shí)單元予以激活,重新組合、聯(lián)結(jié)、轉(zhuǎn)化為特定環(huán)境、特定需要的知識(shí),將大大提高法律文獻(xiàn)知識(shí)的利用率與共享性。因此,對(duì)于網(wǎng)頁(yè)中法律文獻(xiàn)資源及其知識(shí)內(nèi)容進(jìn)行有效的提煉、整序和知識(shí)單元的組織,進(jìn)而對(duì)其分析和特征標(biāo)引,實(shí)現(xiàn)按用戶問題域的語(yǔ)義檢索,就成為網(wǎng)絡(luò)環(huán)境中法律知識(shí)獲取的關(guān)鍵。通常的法律信息主要包括:法律公文(含司法文書)、文獻(xiàn),法律、法規(guī)、司法解釋,司法案例、判例,司法證據(jù)以及相關(guān)的聲音、視頻、圖像等多媒體資料。按照司法領(lǐng)域慣用劃分,可以將法律信息根據(jù)其性質(zhì)、作用或所屬部門法系進(jìn)行知識(shí)層次和知識(shí)單元的組織:第一層,是對(duì)法律信息公共資源進(jìn)行一般性、概括性的描述,通常適用于描述供歸檔的法律公文(法律文件、法律法規(guī)、司法文書等)信息,由一組抽象出來的專業(yè)術(shù)語(yǔ)表征,基本上可以羅列出如下若干項(xiàng):發(fā)文編號(hào)、發(fā)文機(jī)構(gòu)、文件名稱、主題、摘要、日期、范圍、使用語(yǔ)言、事件、關(guān)聯(lián)、密級(jí)、有效性等(可用“元數(shù)據(jù)”描述)。第二層,可以從法律信息的應(yīng)用角度(性質(zhì)或適用領(lǐng)域等),對(duì)法律信息的知識(shí)單元進(jìn)行組織和描述,例如,把它們分為刑事類、民事類、行政類、海事類;或者分為起訴類、判決類、合同類、公告類;還可以把它們分為:法律、法規(guī)與判例、案例;形成針對(duì)不同問題域和檢索目標(biāo)的知識(shí)維。第三層,則依據(jù)具體信息內(nèi)容進(jìn)行概念的抽象和描述,通常可以針對(duì)法律公文的主題、內(nèi)容摘要以及描述具體案件、事實(shí)的信息(往往用若干個(gè)關(guān)鍵詞描述),例如,罪名、事由或案情簡(jiǎn)介,并定義其下屬概念、內(nèi)容和相關(guān)的屬性及關(guān)系,又如,案情摘要中的主要關(guān)鍵詞,原告、被告、被害人及其姓名、性別、年齡、身份、特征等。通常第三層信息較零散、模糊、不規(guī)范、難以描述,例如:案情摘要中的犯罪動(dòng)機(jī)、造成的危害及后果等。歸納起來,面向案件事實(shí)的法律公文包含的知識(shí)主要有:

(1)法律文獻(xiàn)信息。記錄不同用途的司法文獻(xiàn)的基本信息,例如,發(fā)文編號(hào)、發(fā)文機(jī)構(gòu)、編制者、文件名稱、文件類別、主題、摘要、日期、范圍,使用語(yǔ)言、事件、事件關(guān)聯(lián)、基本格式等。

(2)機(jī)構(gòu)或個(gè)人信息。記錄與案件事實(shí)相關(guān)的司法機(jī)構(gòu)、法人、被告、原告、被害人等的基本信息,例如,法人的姓名、性別、年齡、職務(wù)、單位、地址等。

(3)事件信息。記錄司法事實(shí)發(fā)生的詳細(xì)經(jīng)過信息,例如,事件發(fā)生時(shí)間、地點(diǎn),相關(guān)者、事件后果及結(jié)論等。

(4)犯罪信息。記錄罪行的基本信息,例如,罪名、犯罪人、被害人、動(dòng)機(jī)、情節(jié)、原因、危害后果、處罰情況等;進(jìn)一步將這些抽象出來的概念整理,找出它們之間的邏輯關(guān)系。以法律公文的判決書為例,從第一層所描述的司法文書的名稱、主題、摘要中可以抽出下層有關(guān)罪行、犯罪性質(zhì)和犯罪事實(shí)信息,再進(jìn)一步尋根索驥,調(diào)出犯罪人、犯罪動(dòng)機(jī)、作案經(jīng)過、犯罪后果以及判決結(jié)果等詳細(xì)說明信息,這些又直接與罪行相適應(yīng)的法律條文和判例相關(guān)聯(lián)。由此,就形成了一個(gè)依據(jù)描述法律事實(shí)的司法文書而搭建的語(yǔ)義關(guān)系網(wǎng)絡(luò)(如圖1所示)。

(二)法律公文的語(yǔ)義特征

目前,隨著司法領(lǐng)域信息化、數(shù)字化的推進(jìn),國(guó)內(nèi)司法界已對(duì)各類法律信息進(jìn)行了較細(xì)致的劃分,并制訂了統(tǒng)一、規(guī)范的格式,形成了標(biāo)準(zhǔn)范本(可參考最高人民法院、最高人民檢察院的法律公文格式、規(guī)格書等),這為網(wǎng)頁(yè)上法律信息知識(shí)單元的組織和法律知識(shí)的抽取,進(jìn)而構(gòu)建法律信息元數(shù)據(jù)搭建了良好的基礎(chǔ)平臺(tái)。例如,我們可以用反映法律案件、事實(shí)的司法文書(起訴書、判決書、合同等)作為分析對(duì)象,描述它的基本格式,抽取各部分的關(guān)鍵詞及其語(yǔ)義特征,按照這些關(guān)鍵詞在網(wǎng)頁(yè)文檔中各部分出現(xiàn)的頻率、位置關(guān)系和權(quán)重進(jìn)行標(biāo)引,檢索出其在相關(guān)網(wǎng)頁(yè)上的法律、法規(guī)、案例和判例。網(wǎng)頁(yè)最普遍的法律信息多為文本形式,而以法律事實(shí)、案例為主線的法律文本則主要為法律公文,所以,本研究重點(diǎn)是對(duì)反映法律事實(shí)案例的法律公文進(jìn)行分析和討論。盡管各類法律公文的內(nèi)容不一,但它們的基本形式是相似的,與其他文檔相比具有顯明的格式。由此,可以將網(wǎng)絡(luò)環(huán)境中非結(jié)構(gòu)化的法律信息轉(zhuǎn)化為較規(guī)范的結(jié)構(gòu)化的數(shù)據(jù)格式,進(jìn)而,構(gòu)建出用來實(shí)現(xiàn)語(yǔ)義檢索的法律信息元數(shù)據(jù)及其可標(biāo)引、分類的主題關(guān)系詞表的大致框架。

三、法律信息語(yǔ)義檢索的構(gòu)架

(一)法律主題關(guān)系詞表的設(shè)計(jì)

按照前述知識(shí)組織體系的劃分,主題關(guān)系詞表在領(lǐng)域知識(shí)單元中扮演著極其重要的角色,是一種主題檢索系統(tǒng)所用的檢索詞的有序化詞匯表,能夠表達(dá)自然語(yǔ)言之間語(yǔ)義關(guān)系的、有標(biāo)引和提供各種查詢途徑的詞或詞組。作為一種將網(wǎng)絡(luò)資源和信息用戶的自然語(yǔ)言轉(zhuǎn)換為規(guī)范化語(yǔ)言的工具,主題關(guān)系詞表在文獻(xiàn)標(biāo)引和信息檢索等方面具有廣泛的應(yīng)用。為了實(shí)現(xiàn)本文所提出的基于法律本體的語(yǔ)義檢索意圖,我們依據(jù)最高人民法院的“人民法院公文主題詞表”〔1〕,對(duì)部分主題詞進(jìn)行了分類編碼,并參照中國(guó)科學(xué)技術(shù)信息研究所編制的“綜合電子政務(wù)主題詞表(試用本)”〔2〕,設(shè)計(jì)了一套用于本研究檢索原型系統(tǒng)的法律信息主題關(guān)系詞表查詢模板(見表1):

(二)法律信息元數(shù)據(jù)的設(shè)計(jì)

元數(shù)據(jù)被認(rèn)為是一種用來描述數(shù)字化信息資源,特別是網(wǎng)絡(luò)信息資源的基本特征及其相互關(guān)系,從而確保這些數(shù)字化信息資源能夠被計(jì)算機(jī)及其網(wǎng)絡(luò)系統(tǒng)自動(dòng)辨識(shí)、分解聚類和分析歸納(即所謂機(jī)器可理解性)的一整套編碼體系,它代表一組被廣泛認(rèn)同的、能準(zhǔn)確描述信息資源屬性和領(lǐng)域特點(diǎn)的最基本的元素,它通過對(duì)網(wǎng)絡(luò)資源數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容、關(guān)系、條件和其他特征進(jìn)行描述與說明,幫助人們有效地定位、組織、提取、分析和使用網(wǎng)絡(luò)資源數(shù)據(jù)。國(guó)際圖聯(lián)IFLA對(duì)元數(shù)據(jù)的定義是:“元數(shù)據(jù)就是關(guān)于數(shù)據(jù)的數(shù)據(jù)(dataaboutdata),此術(shù)語(yǔ)指任何用于幫助網(wǎng)絡(luò)資源的識(shí)別、描述和定位的數(shù)據(jù)?!薄?〕公共資源基本元數(shù)據(jù)應(yīng)能夠表述如下的信息:資源名稱、資源主題、資源標(biāo)識(shí)、資源摘要、資源格式信息、關(guān)鍵字說明、空間范圍、時(shí)間范圍、資源使用限制、資源語(yǔ)種、資源類型、資源標(biāo)識(shí)符、在線資源鏈接地址等信息。通過對(duì)國(guó)內(nèi)外元數(shù)據(jù)標(biāo)準(zhǔn)的研究和探索,本研究依據(jù)國(guó)際通用的元數(shù)據(jù)設(shè)計(jì)原則和法律公文的格式和語(yǔ)義特征,并參照國(guó)家電子政務(wù)標(biāo)準(zhǔn)化項(xiàng)目工作組的《政務(wù)信息資源目錄體系》的要求與其他專業(yè)應(yīng)用領(lǐng)域元數(shù)據(jù)的編制方法,在都柏林DC元數(shù)據(jù)的核心元素集〔4〕的基礎(chǔ)上作了一定的擴(kuò)充、刪減和修改,設(shè)計(jì)了一套既能體現(xiàn)國(guó)際通用標(biāo)準(zhǔn)、又能反映法律公文特點(diǎn)的法律信息元數(shù)據(jù)模型,同時(shí),保留了DC中的限制屬性幫助理解各元素取值的含義。其中核心元素集包含了14個(gè)基本元素:標(biāo)題、創(chuàng)建者、主題、摘要、者、類型、格式、標(biāo)識(shí)符、來源、語(yǔ)種、關(guān)聯(lián)、日期、覆蓋范圍、權(quán)限。另外,為了能更好地體現(xiàn)法律信息的特點(diǎn),我們參照了部分特殊應(yīng)用領(lǐng)域元數(shù)據(jù)標(biāo)準(zhǔn),如“主題信息服務(wù)(ROADS)”、“政府信息定位服務(wù)(GILS)”和“教育對(duì)象元數(shù)據(jù)IEEELOM”,對(duì)都柏林DC元數(shù)據(jù)的基本元素進(jìn)行了擴(kuò)展和補(bǔ)充。例如,資源密級(jí),事件,事件相關(guān)者(被告人、起訴人、被害人、證人、人等),審判機(jī)構(gòu),主題詞表等,并設(shè)計(jì)了法律信息元數(shù)據(jù)擴(kuò)展元素集。表2、表3給出了這套元數(shù)據(jù)中若干元素及其定義的基本樣例。

四、法律信息語(yǔ)義檢索方法

(一)法律信息語(yǔ)義檢索的特點(diǎn)

所謂信息檢索(InformationRetrieval),是指從大量的信息資源中查找出與使用者需求相關(guān)的內(nèi)容。目前的信息檢索技術(shù)大致分為三類:全文檢索(TextRetrieval)、數(shù)據(jù)檢索(DataRetrieval)和知識(shí)檢索(KnowledgeRetrieval)。全文檢索和數(shù)據(jù)檢索從本質(zhì)上說都屬于關(guān)鍵字匹配的檢索技術(shù),這種基于關(guān)鍵字匹配或是基于學(xué)科分類的檢索工具之所以不能令人滿意,最主要的原因之一就是它們無(wú)法挖掘概念之間的內(nèi)在聯(lián)系,搜索出更深層的含義,在查全率和查準(zhǔn)率方面都有一定的局限性。而基于語(yǔ)義知識(shí)匹配技術(shù)的知識(shí)檢索,將傳統(tǒng)基于關(guān)鍵字的匹配技術(shù)上升為基于概念節(jié)點(diǎn)的知識(shí)匹配,增強(qiáng)了檢索的語(yǔ)義識(shí)別能力,其特點(diǎn)表現(xiàn)在:

(1)消除自然語(yǔ)言理解中的歧義,明確概念所屬范疇和涵義,提高信息檢索的查準(zhǔn)率。

(2)在語(yǔ)義標(biāo)引的基礎(chǔ)上進(jìn)行語(yǔ)義推理,利用文獻(xiàn)的語(yǔ)義標(biāo)注和概念集的語(yǔ)義關(guān)系及推理規(guī)則,從而挖掘出相關(guān)或隱含信息,實(shí)現(xiàn)智能檢索和知識(shí)組織,提高檢索結(jié)果的可用性。

(二)法律信息語(yǔ)義檢索模型

依據(jù)對(duì)前述法律知識(shí)體系的分析與探討,本文提出了一個(gè)用于網(wǎng)絡(luò)環(huán)境下法律信息語(yǔ)義檢索的模擬解決方案,表述如下:

(1)由法律領(lǐng)域?qū)<野凑辗芍R(shí)體系規(guī)范和司法實(shí)踐經(jīng)驗(yàn),組織法律信息各主題概念和與其相對(duì)應(yīng)的知識(shí)、內(nèi)容,按照本體的構(gòu)建方法,建立層次豐富、語(yǔ)義清晰、關(guān)系明確的法律知識(shí)本體(主題關(guān)系詞表),并保存到相關(guān)的數(shù)據(jù)庫(kù)中。

(2)依據(jù)法律信息元數(shù)據(jù)及其標(biāo)識(shí)機(jī)制對(duì)網(wǎng)頁(yè)上法律公文自動(dòng)進(jìn)行標(biāo)引和分類,通過元數(shù)據(jù)建立法律公文主題詞與法律本體相關(guān)概念的映射關(guān)聯(lián),將關(guān)聯(lián)的主題詞及對(duì)應(yīng)的網(wǎng)頁(yè)法律公文地址(URL)存放在指定的數(shù)據(jù)庫(kù)表中。

(3)根據(jù)用戶輸入的查詢請(qǐng)求關(guān)鍵詞,在已設(shè)計(jì)的“法律信息主題關(guān)系詞表”查詢模板中進(jìn)行相關(guān)概念和上、下位概念的檢索,找出與之相關(guān)聯(lián)和匹配的主題詞或上位、下位詞。

(4)按照元數(shù)據(jù)所標(biāo)引的主題詞的網(wǎng)頁(yè)法律公文地址(URL)檢索出網(wǎng)頁(yè)中用戶所需要的法律公文內(nèi)容以及相關(guān)的法律、法規(guī)、判例知識(shí)。下面給出一個(gè)互聯(lián)網(wǎng)環(huán)境下實(shí)現(xiàn)上述研究基本思路和方案而研制的法律信息語(yǔ)義檢索原型:當(dāng)用戶在輸入?yún)^(qū)域輸入某個(gè)待查法律信息特征詞后,系統(tǒng)首先按照模糊查詢的方式在主題詞表庫(kù)中進(jìn)行掃描,當(dāng)找到與用戶輸入的特征詞相一致的主題詞時(shí),根據(jù)數(shù)據(jù)庫(kù)各表的指針,隨之確定了該詞在關(guān)系表中的位置及其上、下位關(guān)聯(lián)詞和所屬范疇;經(jīng)索引快速找到已設(shè)置元數(shù)據(jù)標(biāo)識(shí)和定位的Web頁(yè)面中與用戶查詢特征詞相匹配的法律信息,進(jìn)而還可以挖掘出與之相關(guān)的其他信息。例如,當(dāng)我們需要查找有關(guān)“損害賠償”方面的判例時(shí),首先選擇“法律判例”選項(xiàng),然后在“關(guān)鍵詞”框中輸入“損害賠償”,則庫(kù)中所有含“損害賠償”一詞的判例標(biāo)題均會(huì)出現(xiàn)在屏幕上;在其中選擇某項(xiàng),即可輸出該判例的內(nèi)容,同時(shí)將相關(guān)信息如所有含有同一法院或法官審判的類似案例,與此判例相關(guān)的法律、法規(guī),原、被告所涉及所有判例等均被檢索出來(見圖2)。

五、結(jié)語(yǔ)

本文通過對(duì)當(dāng)前國(guó)內(nèi)外關(guān)于信息檢索方法的研究分析,結(jié)合司法實(shí)踐中法律信息檢索問題,提出了以司法事實(shí)為主線、依據(jù)法律信息的知識(shí)單元及其語(yǔ)義特征實(shí)現(xiàn)網(wǎng)絡(luò)中法律信息知識(shí)抽取和語(yǔ)義檢索的設(shè)計(jì)構(gòu)架和解決方案,并建立了一個(gè)檢索原型系統(tǒng)對(duì)其進(jìn)行了模擬實(shí)現(xiàn)。顯然,以這種方式提供的檢索結(jié)果不再局限于以前的關(guān)鍵字匹配檢索,它充分地利用了法律信息間的語(yǔ)義關(guān)系,不僅保障了用戶查詢需求與目標(biāo)結(jié)果的一致性,同時(shí)還能夠挖掘出與用戶需求相關(guān)聯(lián)的實(shí)用信息,進(jìn)而提高了網(wǎng)頁(yè)中法律信息的查全率和查準(zhǔn)率,為互聯(lián)網(wǎng)環(huán)境下法律知識(shí)的獲取提供了可借鑒的理論和實(shí)踐依據(jù)。