精品国产精品免费在线观看|亚洲一级高清在线观看|亚洲乱码尤物193yw|亚洲综合狠狠99婷婷

(0)

首頁文章中心正文

Python技術(shù)在期刊評價的應(yīng)用

時間：2022-02-16 08:37:46

導(dǎo)語：Python技術(shù)在期刊評價的應(yīng)用一文來源于網(wǎng)友上傳，不代表本站觀點，若需要原創(chuàng)文章可咨詢客服老師，歡迎參考。

Python技術(shù)在期刊評價的應(yīng)用

學(xué)術(shù)期刊一直是學(xué)術(shù)研究所關(guān)注的熱點，近年來，學(xué)術(shù)期刊評價呈現(xiàn)出多元化發(fā)展態(tài)勢，對相應(yīng)的學(xué)術(shù)研究和學(xué)科發(fā)展起到重要的促進作用。目前，國內(nèi)比較有影響力的評價體系有《中文核心期刊要目總覽》、《中國人文社會科學(xué)核心期刊要覽》、《中文社會科學(xué)引文索引》等。通過比較上述期刊評價體系中使用的評價指標(biāo)，發(fā)現(xiàn)大部分的指標(biāo)都是可以計算的定量指標(biāo)，一些定性指標(biāo)是定量化之后再參與計算[1,2]。這就為信息技術(shù)應(yīng)用于期刊評價提供了可能，加上大數(shù)據(jù)時代的到來，數(shù)據(jù)的來源多樣、數(shù)據(jù)量大的特點，使得信息技術(shù)加入期刊評價的行列更加必要。python 技術(shù)作為信息技術(shù)中的熱門技術(shù)，將Python技術(shù)應(yīng)用于期刊評價，可以擴展數(shù)據(jù)獲取的來源、提高數(shù)據(jù)的準(zhǔn)確率、增加定量指標(biāo)的數(shù)量等，進而提高評價結(jié)果的可靠性。

1Python技術(shù)

Python是一種高級的計算機編程語言，是由GuidovanRossum在20世紀(jì)80年代末，荷蘭國家數(shù)學(xué)和計算機科學(xué)研究所設(shè)計[3]。Python的語法結(jié)構(gòu)簡潔，在Python程序中沒有太多的語法細節(jié)和規(guī)則要求，初學(xué)者可以從語法細節(jié)中擺脫出來，只需要專注于分析程序所需要的邏輯和算法即可。Python具有豐富的數(shù)據(jù)結(jié)構(gòu)，除了基本的數(shù)值類型外，Python中還內(nèi)置了字符串、列表、元組、字典、集合等豐富的高級數(shù)據(jù)結(jié)構(gòu)，利用這些數(shù)據(jù)結(jié)構(gòu)可以解決很多的實際應(yīng)用問題，比如文本處理、數(shù)據(jù)分析等。Python是一種解釋性語言，就是用Python編寫的程序不需要編譯成二進制代碼，就可以直接運行源代碼程序。由于Python具有語法優(yōu)美、代碼簡潔、開發(fā)效率高、支持的模塊多等優(yōu)點，使其成為了當(dāng)前很受歡迎的腳本語言，應(yīng)用范圍較廣，包括網(wǎng)絡(luò)爬蟲、人工智能、網(wǎng)站以及手機應(yīng)用開發(fā)、數(shù)據(jù)分析等，因為是免費開源的資源，因此具有更多的用戶[4]。

2Python技術(shù)在數(shù)據(jù)獲取中的應(yīng)用

期刊評價工作中，首先需要有可以進行分析的數(shù)據(jù)。數(shù)據(jù)的獲取通過Python技術(shù)編寫網(wǎng)絡(luò)爬蟲程序來輔助進行數(shù)據(jù)的獲取。網(wǎng)絡(luò)爬蟲就是按照一定的規(guī)則，自動地抓取互聯(lián)網(wǎng)信息的程序[5]。網(wǎng)絡(luò)爬蟲可以獲取更多的數(shù)據(jù)源，并且這些數(shù)據(jù)源是根據(jù)需求進行的采集，可以去掉很多無關(guān)數(shù)據(jù)。通過爬蟲技術(shù)爬取數(shù)據(jù)，實際上就是向服務(wù)器請求數(shù)據(jù)，獲取響應(yīng)數(shù)據(jù)的過程[6]。Chrome開發(fā)者工具是一套內(nèi)置于GoogleChrome中的Web開發(fā)和調(diào)試工具，可以用來對網(wǎng)站進行迭代、調(diào)試和分析。Chrome開發(fā)者工具在整個爬蟲過程中作用很大，可以輔助用戶爬取信息、分析頁面和處理反扒。比較常用的模塊有元素面板（elements）、控制臺面板（console）、資源面板（source）、網(wǎng)絡(luò)面板（network）。通過元素面板，能查看到想抓取頁面渲染內(nèi)容所在的標(biāo)簽、使用什么css屬性等內(nèi)容，可以為網(wǎng)頁內(nèi)容提取提供相關(guān)的解析語句。控制臺面板（console）可以調(diào)試運行js代碼，在js解密過程中比較常用。資源面板主要是進行js斷點調(diào)試。網(wǎng)絡(luò)面板記錄頁面上每個網(wǎng)絡(luò)操作的相關(guān)信息，包括詳細的耗時數(shù)據(jù)、HTTP請求與響應(yīng)標(biāo)頭和Cookie等，就是通常說的抓包。通過抓包就可以向服務(wù)器獲取請求數(shù)據(jù)所需要的地址、請求頭（包括host、refer、origin、user-agent、Cookie等）、查詢參數(shù)、請求參數(shù)等，進而使用爬蟲程序來請求服務(wù)器的數(shù)據(jù)。請求到數(shù)據(jù)之后，進行內(nèi)容信息的提取，提取的內(nèi)容就是需要獲取的數(shù)據(jù)，共有3種解析方式包括正則表達式、css選擇器和xpath。正則表達式，又稱規(guī)則表達式，屬于計算機科學(xué)中的概念，在代碼中常被簡寫為regex、regexp或RE。正則表達式通常被用來檢索、替換那些符合某個模式或規(guī)則的文本。使用正則表達式，可以檢查字符串的合法性，可以提取字符串中的信息，比如提取一條短信中的數(shù)字或提取文件名的后綴等，也可以替換或分割字符串等。在爬蟲程序中，主要使用正則表達式提取所需要的數(shù)據(jù)以去掉多余的數(shù)據(jù)[5]。在正則表達式中，使用元字符匹配單個字符，比如使用\d表示匹配數(shù)字，使用點匹配任意一個字符（除了\n），使用+*表示匹配多個字符，使用.*表示匹配任意多個字符，使用[]表示匹配[]中列舉的字符等等。在CSS中，選擇器是一種模式，用于選擇需要添加樣式的元素。因此，可以使用CSS選擇器，在HTML頁面中找到數(shù)據(jù)所對應(yīng)的標(biāo)簽。在CSS選擇器中，常用的有標(biāo)簽選擇器、類選擇器、ID選擇器、組合選擇器、屬性提取器等。Xpath（XMLPathLanguage）是一種在HTML\XML文檔中查找信息的語言，可以用來在HTML\XML文檔中遍歷其元素和屬性。可以使用Xpath來快速定位HTML\XML文檔中的特定元素以及獲取節(jié)點信息，從而可以提取出所需要的數(shù)據(jù)。Xpath主要是使用路徑表達式來選取XML文檔中的節(jié)點或節(jié)點集。這些路徑表達式類似于電腦文件系統(tǒng)中看到的表達式。遇到復(fù)雜的提取規(guī)則可以這3種方式混合使用[7]。采集到數(shù)據(jù)之后，需要保存數(shù)據(jù)，數(shù)據(jù)存儲類型有分文本文件和二進制文件（包括音頻、圖片、視頻文件等），數(shù)據(jù)的保存形式有Excel、Json、Csv，也可以直接與數(shù)據(jù)庫連接存儲到數(shù)據(jù)庫中。期刊評價需要的數(shù)據(jù)會分布在不同的數(shù)據(jù)源中，可以針對不同的數(shù)據(jù)源編寫相應(yīng)的爬蟲程序，進而獲取所需要的數(shù)據(jù)。在期刊評價中可以通過網(wǎng)絡(luò)爬蟲獲取的字段有標(biāo)題、作者、地址、頁碼、年份、卷期、分類號、引用次數(shù)、下載次數(shù)、參考文獻、引用文獻、二次文獻轉(zhuǎn)載次數(shù)、期刊微信公眾號中的閱讀量與點贊量等，通過將這些字段進行計算，就可以得到評價期刊的指標(biāo)值，比如總被引頻次、篇均被引頻次、5年影響因子、高被引文獻量、自引量、社交媒體傳播情況等。期刊評價的結(jié)果正是基于這些指標(biāo)的計算。

3Python技術(shù)在數(shù)據(jù)清洗中的應(yīng)用

數(shù)據(jù)的準(zhǔn)確性對于評價結(jié)果的正確性、客觀性起著舉足輕重的作用。因此，數(shù)據(jù)計算之前需要對數(shù)據(jù)的內(nèi)容進行清洗、優(yōu)化，目的是刪除重復(fù)信息、糾正錯誤信息、并提供數(shù)據(jù)的一致性。由于原始數(shù)據(jù)包含有非學(xué)術(shù)論文，例如征稿通知、啟事、會議紀(jì)要等類型內(nèi)容，故需要進行清洗。數(shù)據(jù)清洗的任務(wù)是清洗掉不符合要求的數(shù)據(jù)，不符合要求的數(shù)據(jù)主要有不完整的數(shù)據(jù)、錯誤或無效的數(shù)據(jù)、重復(fù)的數(shù)據(jù)3大類[8]。清洗內(nèi)容包括檢查數(shù)據(jù)一致性、處理重復(fù)文獻、無效文獻和文獻信息不完整的瑕疵文獻等。其中，一致性檢查是指檢查原始數(shù)據(jù)表格中下載文獻總量與數(shù)據(jù)庫服務(wù)商中原始文獻數(shù)量的一致性；檢查數(shù)據(jù)內(nèi)容的一致性是指由于數(shù)據(jù)是單一途徑數(shù)據(jù)，不存在數(shù)據(jù)組合問題，故而內(nèi)容具有一致性。重復(fù)文獻處理：通過Python程序檢查有無重復(fù)文獻，若有，則刪除之；無效文獻和瑕疵文獻處理：根據(jù)無關(guān)文獻判定準(zhǔn)則和瑕疵文獻的重要性判斷準(zhǔn)則通過Python程序刪除，其中無關(guān)文獻判定準(zhǔn)則是：（1）原始文獻數(shù)據(jù)中題名含有“動態(tài)”、“研討會”、“悼念”、“短訊”、“征稿”、“工作會議”、“出席會議”、“紀(jì)要”、“紀(jì)事”、“會議綜述”、“啟事”等停用詞的則刪除整條文獻數(shù)據(jù)記錄；（2）原始文獻數(shù)據(jù)中所屬專題含有“人物傳記”字樣，則刪除整條文獻數(shù)據(jù)記錄；（3）原始文獻數(shù)據(jù)中作者為空的，則刪除整條文獻數(shù)據(jù)記錄。在期刊評價中，有效的文獻均為學(xué)術(shù)論文，根據(jù)大量數(shù)據(jù)的核驗與判斷，得到了數(shù)據(jù)清洗時用到的停用詞集合：“動態(tài)”、“研討會”、“悼念”、“短訊”、“征稿”、“工作會議”、“出席會議”、“紀(jì)要'”、“紀(jì)事”、“會議”、“綜述”、“啟事”、“訂閱”、“入選”、“召開”、“座談”、“會”、“年會”等。數(shù)據(jù)清洗的過程雖然在數(shù)據(jù)量較少、清洗步驟比較簡單時，可以用Excel替代完成，但是一旦數(shù)據(jù)量大、清洗規(guī)則較多時，使用Excel就沒有那么得心應(yīng)手了，比如運行速度會明顯下降、操作步驟也復(fù)雜得多。在期刊評價中，如果需要計算全周期的影響因子之類的指標(biāo)，這類指標(biāo)的計算需要用到期刊創(chuàng)刊以來的數(shù)據(jù)，數(shù)據(jù)量還是很大的，所以使用Python技術(shù)進行數(shù)據(jù)清洗是十分有必要的。

4Python技術(shù)在數(shù)據(jù)合并與計算中的應(yīng)用

在期刊評價中，一個指標(biāo)的數(shù)值可能存在多個數(shù)據(jù)源，那么就需要進行數(shù)據(jù)的合并。比如：二次文獻轉(zhuǎn)載量這個指標(biāo)，可能需要采集包括人大復(fù)印報刊資料、新華文摘等不同來源的轉(zhuǎn)載次數(shù)，那么就需要將這些數(shù)據(jù)進行合并。人工合并這些數(shù)據(jù)不但工作量大，而且容易出錯。使用Python技術(shù)來進行數(shù)據(jù)合并，節(jié)省時間，也可以降低出錯率，更重要的是工作可以復(fù)用，相似處理模式的數(shù)據(jù)可以稍微修改程序直接使用，人工處理就必須重新完整地走完全部流程，可謂是費時費力。數(shù)據(jù)的計算則是按照指標(biāo)定義，理清其邏輯關(guān)系進行代碼編寫，最終實現(xiàn)數(shù)據(jù)的自動化處理。以下列舉部分數(shù)據(jù)計算方法：綜合總被引頻次：評價周期內(nèi)，該期刊所載全部學(xué)術(shù)論文被期刊論文引用的次數(shù)總和。復(fù)合總被引頻次：評價周期內(nèi)，該期刊所載全部學(xué)術(shù)論文被期刊文獻、博碩士論文、專著、報紙引用的次數(shù)總和。篇均綜合被引頻次：評價周期內(nèi)，該期刊的綜合被引頻次除以該期刊所載文獻總量。篇均復(fù)合被引頻次：評價周期內(nèi)，該期刊的復(fù)合被引頻次除以該期刊所載文獻總量。5年綜合影響因子：該期刊5年中所有文獻被期刊文獻在當(dāng)年的被引頻次除以該刊近5年內(nèi)的發(fā)文量。5年復(fù)合影響因子：該期刊近5年中所有文獻被期刊文獻、博碩士論文、專著、報紙在當(dāng)年的被引頻次之和除以該刊近5年內(nèi)所載文獻總量。高被引文獻量：評價周期內(nèi)，該期刊所載全部文獻被包含在被引頻次TOP10%的數(shù)量。高被引文獻率：評價周期內(nèi)，該期刊所載全部文獻被包含在被引頻次TOP10%的數(shù)量除以評價周期內(nèi)該刊所載文獻總量。自被引量：評價周期內(nèi)，通過獲取到的引證文獻集合，篩選出該期刊引用本刊文獻的數(shù)量。自被引率：評價周期內(nèi)，通過獲取到的引證文獻集合，篩選出該期刊引用本刊文獻的數(shù)量除以該期刊的總被引頻次。Web下載量：評價周期內(nèi)，該期刊所載全部學(xué)術(shù)論文中，在數(shù)據(jù)庫出版并上網(wǎng)的論文被全文下載的次數(shù)。作者人數(shù)：評價周期內(nèi)，該期刊所有文獻所包含的作者數(shù)量。

5結(jié)語

在大數(shù)據(jù)時代，期刊評價也呈現(xiàn)出多元化發(fā)展態(tài)勢，這就說明所需要的數(shù)據(jù)也是多元化的，并且數(shù)據(jù)量大，那么勢必要求使用信息技術(shù)。比如Python技術(shù)來進行數(shù)據(jù)的一系列處理，包括數(shù)據(jù)獲取、清洗、合并、計算等，進而提高了工作效率。有了Python技術(shù)的助力，期刊評價工作可以擴大數(shù)據(jù)的多元化范圍，增加可量化指標(biāo)的數(shù)量，提高數(shù)據(jù)的準(zhǔn)確性，最終使得評價結(jié)果的可靠性更高。

上一篇：常態(tài)化掃黑除惡專項斗爭工作總結(jié)
下一篇：大數(shù)據(jù)在氣象保障的應(yīng)用