Chapter 2 Data Collection
本篇是第二章,內容是數據收集。
1.數據來源
做科學研究離不開數據,而數據的來源有哪些呢?
這里比較簡單地將數據來源分為兩類:直接(一手)數據和間接(二手)數據。
直接數據的數據獲取來源包括:觀測、調查、實驗。
間接數據的數據獲取來源包括:出版物、互聯網等。
接下來分別談談這幾個來源。
觀測——自然科學里有觀測,如氣象氣候、植物生長期等,社會科學同樣有觀測,譬如像街區人的觀測等。觀測的數據可以說是純粹第一手數據,在研究中是很寶貴的數據,但是很容易受到觀測記錄員主觀因素的影響。
調查——自然科學里的調查(室外樣品采集,環境狀況調查)一般是跟室內實驗相結合,而社會科學的調查會更豐富,如典型的問卷調查、訪談、座談會等。
實驗——實驗是自然科學的核心,這里就不詳述了(比如:土壤理化性質分析、植物生態生理特性分析)。不過近年來隨著學科交叉增多,社會科學也開始更多地引入實驗的方法(以筆者另一門公選課《初級社會網絡》為例,耶魯大學的社會心理學家米爾格蘭姆(Stanley Milgram)就設計了一個連鎖信件實驗,這就是著名的六度分割理論的由來)。
當然除了以上三種,我認為在現在的大數據時代,還存在一些新的直接數據來源。
- 物聯網(Interest of Thing,IOT),以各類傳感器(RFID、紅外感應系統、GPS、通量塔等)為代表,代表數據就是如今火熱的大數據——如RFID記錄數據、浮動車與出租車GPS軌跡數據、通量塔測量的NEE等。
- 遙感(Remote Sensing,RS),某種程度上,遙感也是靠傳感器接收數據,但是它與物聯網還是有所差別,故單列出來。作為地學和生態學背景(尤其是GIS和RS相關方向的)的學生,對遙感會非常熟悉。遙感的特征就是,可以大范圍快速獲取地表信息數據(譬如地形、地表溫度、氣溶膠、albedo等,當然這些都需要進行反演等)。
總的來說,觀測在自然科學和社會科學中都有滲透較多,但是觀測往往受到記錄人員主觀因素影響導致誤差。而且觀測的數據結構一般來說呈現非結構化的特征。調查在社會科學中有較多應用,自然科學中較少,而實驗則是在自然科學中應用廣泛,社會科學則應用較少。這兩類的實質是類似的,需要提前設計好調查的大綱或者實驗方案,然后按照設計好的大綱和方案進行調查和實驗。也因此這兩類數據結構化特征比較明顯。
所謂的間接數據就是指已經經過他人整理的相關數據。這邊列出來的主要包括:
出版物:統計年鑒、書籍、論文等。統計年鑒是大部分社會科學相關研究的重要數據來源,這邊就不詳述了。書籍對于很多如社會研究的文本分析是重要的數據來源。論文作為數據,是近年來興起的文獻計量學的典型數據。此外對Meta分析,論文里的數據則是重要來源。
互聯網:百度指數、阿里指數、大眾點評等數據。
互聯網數據可以利用網絡爬蟲獲取。
總的來說,間接數據易于獲取,作用廣泛,但使用的時候需要控制數據質量以及引用。
2.調查設計
這邊主要介紹的是數據的調查方式、調查方案的結構和設計以及調查問卷設計。
(1)數據的調查方式
數據的調查方式一般而言是遵循統計學規律的(我們稱之為統計調查方式),這里列舉了我國統計調查的常用方式:普查(人口普查、農業普查、甚至到最近剛剛發布成果的全國第一次地理國情普查)、抽樣調查(概率抽樣、非概率抽樣,具體后面第三章會詳述)、統計報表(統計公報)。
而除了以上之外,當我們需要自己收集直接數據的時候又可以分為以下幾種:
詢問調查類:
- 訪問調查
- 郵寄調查
- 電話調查
- 電腦輔助
- 座談會
- 個別深訪
觀察實驗
- 觀察
- 實驗
(2)調查方案的結構和設計
如何做調查?是很多人在科學研究中的第一道難關。這里給出一個關于做調查的普遍步驟流程圖:
那么調查方案又是什么呢?我認為調查方案就是調查的策劃書。明確你調查的一些目的、對象、項目以及調查方法等。一般結構如下:
- 調查目的
- 調查對象調查單位
- 調查項目
- 其他
(3)調查問卷設計
最后這部分是談談調查問卷設計的一些內容(包括筆者自己的一些經驗)。
問卷結構
- 開頭部分(問候語、填寫說明、問卷編號 )
- 甄別部分
- 主體部分
- 背景部分
其他部分就不詳述了,甄別部分一般是針對過濾的問題,就是不符合條件的即可跳過部分調查題目。接下來主要針對主體部分簡單介紹。
主體部分其實就是問卷主要調查的部分。一般來說要注意一下幾點。
- 提問內容盡可能簡短
- 用詞準確通俗(可按6W原則推敲:Who,Where,When,Why,What,How)
- 一項提問只包括一項內容
- 避免誘導性提問、否定形式提問、敏感性問題
而問題則又可以分為兩大類:開放性問題(自由回答型)和封閉性問題(選擇回答型)。
封閉性問題包括了二項選擇、多項選擇(單項、多項、限制選擇)、順序選擇法、評定尺度法、雙向列聯表法。
- 開放性問題——一般就是可以隨便答,這類數據一般是問卷者的主觀感受,不會受客觀影響。但是最大的問題在于數據收集呈現非結構化特征,多以文本形式存在。研究時必須通過重編碼、文本分析等方法。
- 封閉性問題——相當于是選擇題或者填空題。二項選擇就是,只有兩個選項(A或B);多項選擇則是有多個選項,可以選至少一個(一個為單項、一個以上且不限制選擇的數量為多項、一個以上且限制選擇的數量為限制);順序選擇法,就是給出多個選項,讓你按照自己的認識對選項進行排序;評定尺度法,給出多個選項且是有等級劃分的(如很差,差,一般,好,很好)進行選擇;雙向列聯表法,將兩類不同問題綜合到一起,用表格形式,橫向為一類問題,縱向為一類問題。
從筆者的經驗來說,在設置問卷的時候,必須要先從自己想研究的問題出發,思索如何用數據分析證明自己的結論,然后大致思索需要用來分析的統計方法與統計指標,然后對應選擇問題的形式,因為不同的問題形式對應的數據結構大不相同,而且統計方法也不盡相同。
最后的最后安利大家一個軟件:Survey123 for ArcGIS
這是由esri北京研發中心開發的一款外業數據收集軟件——獲得“問卷好幫手”稱號的application。
主要包括了桌面端Survey123 connect和移動端Survey123 app兩大軟件。可以簡便地建立問卷、分享問卷、搜集數據、分析數據,同時采集時受訪者的GPS位置也將被記錄。具體教程參照如下網址。
3.數據質量
采集數據的時候必須考慮的就是數據的質量,即降低采集數據時產生誤差。
科學研究中的數據誤差無可避免,而誤差的來源主要包括:抽樣誤差、非抽樣誤差。
抽樣誤差,在抽樣方式確定時就無法避免,具體的方法可能還是統計學萬能解藥———增加樣本量。
非抽樣誤差則包括了如下的內容:
- 抽樣框誤差
- 回答誤差
- 無回答誤差
- 調查員誤差
抽樣框誤差——其實就是抽取的樣本無法代表總體;回答誤差和無回答誤差都是由于受訪者導致的錯誤,而調查員誤差則無須再介紹,即采集者自身的誤差。
那么控制誤差的方法無非就在于樣本大小以及合適的數據框(針對非抽樣誤差和抽樣框誤差),靠重訪來進行修正(回答誤差和無回答誤差),調查員誤差則需要對調查員進行培訓。
當然這里還得普及一個概念,在統計學里面,precision(精度)和accuracy(準確性)是不相同的。中文里面往往因為兩個單詞都翻譯成精度,事實上這兩個詞指的是不一樣的內容。二者的區別可以看下面的圖。
這里做個簡單的解釋,事實上就是我們研究事物是個無法窮盡的總體,因此我們只能進行抽樣調查,那么多次抽樣調查研究之后,我們可以得到每次抽樣調查的均值(也可以是其他統計量),在圖中就是藍色的點,那么在靶中心的綠色部分,可以認為是總體的真正均值。那么也就是說高精度一般指的是,我們的樣本數據自身的變異性很小,也就是說,我們做了N次抽樣調查,而每次抽樣調查的樣本均值基本是穩定的。我們抽的N次都是相近的數據,也就是說我們的抽樣誤差盡可能小了(因為抽了N次數據變化不會太大)。而高準確性一般指的是,我們N次抽樣的樣本數據的平均值與總體數據差異很小。也就是說我們的N次樣本的均值與總體均值很接近,也就是說我們的非抽樣誤差盡可能小了(因為N次數據平均值與總體均值差異較小,說明我們抽的樣本能夠反映總體均值的特征)。
最后,總結下數據質量的控制要求:
- 精度(precision): 最低的抽樣誤差或隨機誤差
- 準確性(accuracy): 最小的非抽樣誤差或偏差
- 關聯性: 滿足用戶決策、 管理和研究的需要
- 及時性: 在最短的時間里取得并公布數據
- 一致性: 保持時間序列的可比性
- 最低成本: 以最經濟的方式取得數據