站內搜索 / download
中心新聞

推進大數據背景下人文社科跨學科交流與合作——南京大學人文社會科學大數據分析工具與方法工作坊綜述

發布時間:2019-09-04 11:09:00

為了進一步推進大數據背景下人文社科跨學科交流與合作,助力文科科研轉型創新,南京大學人文社會科學大數據研究院、南京大學信息管理學院聯合主辦了“南京大學人文社會科學大數據分析工具與方法工作坊”。本次會議吸引了校內多個院系和機構的教職工、博士生以及來自清華大學、武漢大學、大連理工大學、丹麥哥本哈根大學等高校和科研機構的專家學者近200人參會。

南京大學校長呂建院士、黨委常務副書記楊忠教授、宣傳部長王靖華、文科資深教授賴永海先生等出席了本次會議。會議由社科處處長王月清教授主持。呂校長在致辭中表示,數據時代的到來對人文社會科學的學術研究與評價產生了深刻的影響,而南京大學的人文社會學科需要直面發展中的轉型性挑戰和問題性挑戰,積極探索新方案、推動新實踐,努力走出新道路、建設新高峰,加快構建中國特色、世界一流、南大風格的哲學社會科學體系。隨后,孫建軍教授演示和報告了南京大學人文社會科學大數據近一年的建設進展,圍繞南京大屠殺史料集語義出版、科學家流動與遷徙網絡、上市公司創新能力指數等幾個典型應用,從文科研究方法、數據研究思維等角度探討了跨學科聯合研究的前景。

此外,人文社科資深教授賴永海,宣傳部、社科處、出版社、哲學系、商學院、外國語學院、信息管理學院、環境學院、地理海洋與科學學院等職能部門和院系的10余位專家、學者就人文社會科學大數據建設工作及其重要意義提出了相關建議,認為南京大學應進一步強化問題導向、強化融合導向、強化創新導向,面向國家重大戰略需求及經濟社會發展面臨的重大問題,發揮南大優勢,爭取在文化傳承、經濟轉型、社會治理、生態環境、大國關系等領域有所突破,推動“學者-團隊-學科”融合發展,探索新文科在學術原創、方法轉型、服務國家等方面的創新發展。與會學者還分別從各自學科優勢、數據驅動在研項目、大數據技術與平臺需求等方面,圍繞中國古典數據工程、環境保護與健康、長江經濟帶資源承載力、企業產業創新、文化走出去與術語語料建設等專題展開討論。


專題報告:基于數據分析的人文社會科學交叉研究

本次工作坊的五場主旨報告,主題為“基于數據分析的人文社會科學交叉研究”,來自信息管理科學、社會學、環境科學與計算機科學等不同學科背景的學者,圍繞數據分析方法與本學科科學問題,進行了充分交流與對話。主旨報告由南京大學朱慶華教授主持。

武漢大學信息管理學院王曉光教授是國內數字人文研究的先行者,他從智慧數據的視角闡述如何進行數字人文研究。演講涵蓋了數字人文的緣起與研究內容、面向數字人文的數據資源建設、智慧數據的興起、構建智慧數據的關鍵技術以及智慧數據的建設路徑與趨勢等主要內容。

南京大學中美中心陳云松教授通過生動的研究案例闡釋了如何借助大數據進行人文社科的研究,他分別從大數據的人文社科價值、大數據的思維信息維度、人文社科定量分析案例等角度總結人文社科大數據的作用體現于記錄當下、重讀歷史、啟發思辨,思維角度包括時間趨勢、空間差異、時空差異、網絡結構等,數據結構涉及時間序列、面板數據與網絡數據等。

南京大學環境學院張炳教授從環境科學的視角分享了如何基于大數據做環境政策分析,重點分享了他的研究團隊怎樣利用政府統計數據、隨機試驗數據、網絡大數據與市場調研數據,分別服務于污染的精細化暴露與健康影響、環境政策的社會經濟綜合評估等科研實踐。劉志遠副教授與胡偉副教授都來自計算機科學領域,他們各自對自然語言處理與知識圖譜表示學習在計算社會科學中的應用相得益彰。

清華大學計算機學院劉志遠副教授從語言與社會科學的關系入手,引入對計算社會科學的介紹,并從計算機科學的視角給出自然語言處理如何應用在計算社會科學的精彩案例,內容涉及社交媒體中的關鍵詞抽取、基于關鍵詞的職業預測、事件監測、基于符號的表示、分布表示、詞嵌入的應用、語言表示學習、知識圖譜、網絡表示學習等豐富內容。

南京大學計算機學院胡偉副教授具體分享知識圖譜表示學習及其應用,從知識圖譜的歷史與內涵、知識圖譜表示學習及其在知識圖譜補全、實體對齊、知識庫問答等方面的應用,并結合他近期的研究給出了具體的闡釋與研究展望。


工作坊A:數字技術與歷史人文研究工具

“數字技術與歷史人文研究工具”工作坊分別從藝術、文學、歷史和傳播學等不同的學科領域,圍繞等計算化方法帶來的方法革新與典型應用,探討了數字技術帶來的研究視角和研究尺度的變化。講座由武漢大學王曉光教授主持。

南京大學數字人文研究中心研究員陳靜副教授圍繞數字人文與人文圖文數字研究,提出傳統人文數據的表現形式主要是文本和圖像,一類模擬的、非連續的數據,無法直接使用計算化方法處理,需要經過研究者的經驗或者具體的研究情境加以量化;而數字人文處理的是數字的、選擇性建構的、可機器處理的數據。因此,數字人文不僅體現了數字轉向時代人文學者學術研究方法的變化,同時學者受數字技術和數字思維的影響,提出的一種跨學科的、“問題導向”的更智能的方法。數字人文的研究應該基于良好的數據基礎設施,新的人文研究思維設計以及跨學科的研究實施團隊。從方法角度看,數字人文提出了文本分析、網絡分析、時空分析和圖像分析等新的研究方法與研究模式,比如弗吉尼亞大學JeromeMcGann提出的“理性超文本”(RationaleofHyepertext)理論、芝加哥大學FrancoMoretti提出的遠讀模式(DistantReading)、MatthewJockers提出的宏觀分析模式(macroanalysis)、Jean-Baptiste Michel提出的文化組學概念等、哈佛大學“中國歷代人物傳記數據庫(CBDB)”開展的“群體傳記學(Prosopography)”、臺灣大學項潔團隊開展的文本脈絡圖景研究等。這些方法的出現,也導致了人文科學的研究尺度、研究問題設計方面的差異性。最后,陳靜副教授通過大尺度文化分析、類書、民國報刊廣告、大運河超尺度展示、黃帝內經中的顏色與問診等典型研究,展示了相關數字人文的研究設計與分析過程。

南京大學歷史學院的梁晨副教授圍繞量化數據與歷史研究,提出在中國的量化史學研究視野中,不論是對歷史信息或文本的處理精度,還是在多樣化展示、大規模量化等方法應用,都得到了前所未有的發展。但對歷史研究最大的沖擊,是對史料的“唯一性”與“開放性”的變更,是對歷史研究材料和歷史研究方法的重大變化。中國歷史量化研究的發展,推得動了一種新的“求是型”學術的發展,即追求數據自身或隱藏其中的無聲“事實”,而非基于研究者的理解和解釋。隨后,梁晨副教授圍繞李中清-康文林研究團隊的1700-2000年個人生命史研究中自己承擔的中國教育精英數據庫,詳細介紹了其數據獲取來源和加工方法、數據變量設置、不同變量的整理與關聯,到最后利用數據庫技術整理和發現數據中隱含的規律。

南京大學新聞傳播學院王成軍副教授圍繞計算傳播的方法和工具,從人們傳播行為的變化和計算傳播學的方法論著手,重點介紹了python用于解決計算傳播問題的數據包及其應用場景。在研究方法層面,主張計算傳播學是領域知識、數學和計算工程能力相結合的產物,需要在觀察、分析的基礎上,提出更高階的模型、算法、預測,從而建構大理論和重大問題。在案例分析環節,王成軍副教授通過對手機使用與財富預測、傳播行為預測、虛假新聞識別、自動書寫、英雄情節模型等典型應用,提出了計算方法、計算技能對于人文社會科學研究的重要價值。


工作坊B:交叉學科與數據科學方法

“交叉學科與數據科學方法”工作坊關注的是大數據分析方法和工具在交叉學科的應用。其話題包括大數據時代的思維對撞與機遇挑戰、多源數據融合的研究方法創新、大數據挖掘與可視化、行為科學研究中的大數據應用等議題。

清華大學經濟管理學院陳國青教授圍繞大數據時代背景,對人文社會科學研究中大數據帶來的思維對撞、機遇和挑戰進行了探討。大數據具有規模、多樣、價值、速度四個維度特征,大數據問題具有粒度縮放、跨界關聯和全局視圖的特點。在大數據時代,數據與每個人密不可分,各行各業都受到大數據的沖擊,大數據也對經濟、管理、藝術等學科領域的研究也帶來了新挑戰和研究空間。

建筑與城市規劃學院秦蕭助理研究員認為,傳統城市研究受到物質空間論、因果分析論、宏觀分析論三個方面的方法論限制,大數據的出現革新了城市研究的方法,具體表現為物質空間與活動空間的結合、因果關系與相關關系的結合、宏觀分析與微觀挖掘的結合。隨后,秦蕭助理研究員從區域城鎮聯系研究、城市問題研究、城市人口活動研究、城市居民出行研究、城市居民感知研究五個角度詮釋了城市研究中的多源數據應用,通過濟南城市發展戰略規劃、常州城市總體規劃、揚州棗林灣地區產業發展策劃、上海張江科技園(西北片區) 規劃設計、武漢經濟開發區東風大道沿線城市設計、南京虹悅城商業綜合體內部空間設計六個案例詳細闡述了城市規劃設計的大數據應用場景。

建筑與城市規劃學院張姍琪博士后以地理大數據的挖掘與可視化為主題,基于互聯網地理大數據、行為活動大數據兩種數據類型展開討論。其中,互聯網地理大數據具有語義信息豐富、類型豐富、空間精度高、時效性高等優點,數據來源包括空間社交媒體數據、生活服務類網站/APP、電子地圖類數據、政企開放數據,其應用方向包括基于空間社交媒體數據的城市功能區識別與評價、基于空間社交媒體數據的空間聯系分析、基于語義的空間主觀感受分析、基于群體智慧的預警和評估。行為活動大數據指出行、從事不同活動時的位置、軌跡數據,也包含活動類型、個體屬性等屬性信息,常用數據集包括手機數據、實時軌跡數據、OD(origin-destination)數據,其分析與應用包括出行行為時空間特征分析、網絡分析、個體活動空間分析。

丹麥哥本哈根商學院姜祺琪助理教授以游戲化健身應用為例,探討了行為科學研究中現場試驗數據分析研究。基于競爭機制的游戲化元素和合作機制的游戲化元素,依托社會互賴理論,構建了游戲化應用設計框架,通過設計實驗、開發實驗系統,對實驗數據進行分析。

數據科學推動了跨學科融合和學科知識體系的網絡化發展,在“交叉學科與數據科學方法”工作坊中,與會者圍繞大數據分析與研究方法展開了熱烈討論,既包括大數據發展時代背景的宏觀洞見,也包括跨學科的大數據應用的具體技術與方法實踐。


工作坊C: 專題數據集與數據分析方法:科學活動數據的獲取與分析

“專題數據集與數據分析方法:科學活動數據的獲取與分析”圍繞專題數據集——科學家活動數據,探討其數據收集、處理以及分析等整個生態過程中的具體方法與應用。其內容包括文獻計量分析與科學知識圖譜方法與應用、基于開放科學理念的知識服務實踐、科學數據與科學家行為數據跟蹤等內容。

大連理工大學WISE實驗室副主任胡志剛副教授圍繞文獻計量分析,著重通過對文獻分析的數據、工具等內容具體描述了?獻分析的流程。他通過講解國內外知名數據庫的使用、檢索等方法來對文獻分析的數據來源與獲取進行細致地解釋,并對相應的文獻分析方法進行闡述。基于此,胡志剛副教授分別從Online分析與Office分析兩個視角對文獻分析的工具進行詳細說明。其中重點對HistCite、BibExcel+Pajek、VOSviewr、CiteSpace等文獻分析工具的使用特點與場景、具體的操作過程以及實踐應用等進行較為詳盡的解說。

中國科學院文獻情報中心資源建設與知識組織中心副主任許哲平副研究員則結合中科院具體科研項目實踐,圍繞開放數據、科學數據、科研資源整合與關聯來探討知識服務的具體應用與實踐。許哲平副研究員在回溯數據演化歷史OSF、開放科學框架、OA資源清單、國外專業數據倉儲等內容的基礎上,重點圍繞數據資源類型、術語(Term/Taxonomy)主題詞表與知識組織體系(Thesaurus)、元數據、擴展和映射、本體(Ontology)、關聯開放數據、數據挖掘工具等相關內容的具體講解對知識服務類型及其擴展數據整合服務展開解析。最后,他結合科學院機構知識庫、APP和微信公眾號開發、國際合作項目BIFA、中國科學數據倉儲系統登記與共享平臺等相關技術服務案例對“資源+知識+技術”的新型服務和介入模式進行實踐應用介紹。

此外,南京大學信息管理學院教授李江教授則基于科學數據與科學家行為數據跟蹤向大家描繪了科學活動數據的獲取與分析的具體路徑。李江教授首先分別對諸如Open Science Data:Magacademic、Publons、Altmetric.com、PubMed、ORCID等開放數據集的特點、獲取應用以及數據集相互之間的比較分析展開詳盡的說明。緊接著,李江教授基于ORCID科學數據介紹具體的研究設計與應用,他基于睡美人的定量標準、創新的測度等知識點的詳盡介紹,對科學家行為數據跟蹤的研究設計展開具體的分析與闡述。

在該部分工作坊的討論中,每位學界嘉賓都分別從不同的視角對專題數據集與數據分析方法展開了詳盡的描述。總體來看,“專題數據集與數據分析方法:科學活動數據的獲取與分析”分論壇的議題多元,既有嚴謹扎實的科學研究,也有富含豐富實踐操作的案例應用輔以支撐,他們共同圍繞科學活動數據的獲取與分析這一具體內容為同學們答疑解惑。

6月25日,工作坊學員還參訪了南京大學人文社會科學大數據研究院,并了解了Dataverse以及相關大數據平臺的運營管理以及使用方法。

(轉自南京大學新聞網)

上一篇:“民國人物與民國政治”學術研討會暨臺灣大陸同鄉會文獻數據庫·江蘇庫上線發布會在南京召開

下一篇:著名歷史學家呂芳上教授來校講學

版權所有:南京大學中華民國史研究中心 蘇ICP備09043283號

電話(傳真):025-83594638 郵箱:[email protected] 地址:南京市漢口路22號逸夫管理科學樓

邁點科技技術支持

027期曾道人欲钱料