本文章內容基於萊斯大學 OpenStax 的 Psychology 2e,由夜黎重新編輯。(根據本書前言中的創用 CC BY 4.0 聲明)
原文傳送門:<2> Psychological Research — 2.3 Analyzing Findings
索引傳送門:《心理學2e》索引頁面
學習本章後,你將能夠:
- 解釋相關係數〔correlation coefficient〕告訴我們關於變數之間關係的信息
- 認識到相關性〔correlation〕並不表示變數之間存在因果關係
- 討論我們傾向於尋找不真正存在的變數之間的關係
- 解釋隨機抽樣以及將參與者分配到實驗組和對照組中
- 討論實驗者或參與者的偏見如何影響實驗結果
- 辨識自變數〔independent variables〕和應變數〔dependent variables〕
前言
你是否知道隨著冰淇淋銷量的增加,整體犯罪率也會增加? 沉迷於你最喜歡的冰淇淋口味,是否有可能讓你陷入犯罪狂潮〔crime spree〕? 或者在犯罪後,你認為你可能會決定用甜筒犒賞自己嗎? 毫無疑問,冰淇淋和犯罪之間存在關係(例如,Harper,2013),但判定一件事實際上導致了另一件事的發生是非常愚蠢的。
冰淇淋銷量和犯罪率更有可能與室外溫度有關。 天氣暖和的時候,很多人走出家門,互相交往,互相惹惱,並且有時甚至犯罪。 此外,當外面暖和時,我們更有可能尋求像冰淇淋這樣的涼爽食物。 我們如何確定兩件事之間是否確實存在關係? 當存在某種關係時,我們如何辨別它是巧合還是因果關係呢?
相關性研究
相關性〔correlation〕是指兩個或多個變數(例如冰淇淋消費和犯罪)之間存在關係,但這種關係並不一定意味著因果關係。 當兩個變數相關時,它僅僅意味著當一個變數發生變化時,另一個變數也會改變。 我們可以透過計算稱為相關係數〔correlation coefficient〕的統計量,來測量相關性。 相關係數是從 -1 到 +1 的數字,表示變數之間關係的強度和方向。 相關係數通常用字母 r 表示。
相關係數的數值部分表示關係的強度。 數字越接近 1(無論是負數還是正數)變數的相關性越強,並且〝一個變數隨著另一個變數的變化而變化〞的可預測性就越高。 數字越接近零,關係就越弱,並且變數之間的關係就越難預測。 例如,相關係數 0.9 表示相關性比相關係數 0.3 強得多。 如果變數彼此之間根本不相關,則相關係數為 0 。 上面有關冰淇淋和犯罪的範例是〝我們可能期望彼此沒有關係的兩個變數〞的範例。
相關係數的符號(正或負)表示關係的方向(圖 2.12)。 正相關〔positive correlation〕意味著變數朝同一方向移動。 換句話說,這意味著當一個變數增加時,另一個變數也會增加,反之,當一個變數減少時,另一個變數也會減少。 負相關〔negative correlation〕意味著變數朝相反方向移動。 如果兩個變數呈負相關,則一個變數的減少與另一個變數的增加相關,反之亦然。
冰淇淋和犯罪率的例子是正相關的,因為當氣溫升高時,這兩個變數都會增加。 正相關的其他例子包括〝個人身高和體重之間的關係〞或〝個人年齡和皺紋數量之間的關係〞。 人們可能認為一個人白天的疲勞程度與前一天晚上的睡眠時間之間存在負相關關係:隨著疲勞感的增加,睡眠時間會減少。 在負相關的現實例子中,Minnesota 大學的學生研究人員發現,學生每週睡眠時間少於 5 小時的平均天數與他們的 GPA 之間存在微弱的負相關 (r = -0.29) (Lowry ,迪恩和曼德斯,2010)。 請記住,負相關〔negative correlation〕與不相關〔no correlation〕不同。 例如,我們可能會發現睡眠時間和鞋碼之間沒有相關性。
如前所述,相關性具有預測價值。 想像一下,你是一所重點大學的招生委員會的成員。 你面臨大量的申請,但你只能容納一小部分申請者。 你如何決定誰應該被錄取? 你可以嘗試將目前學生的大學 GPA 與他們在標準化考試中(如SAT或ACT)的成績關聯起來。 透過觀察目前學生的相關性最強,你可以使用這些信息,來預測那些已申請入讀大學的學生的相對成功率。
相關性並不表示因果關係
相關性研究很有用,因為它使我們能夠發現兩個變數之間存在的〝關係的強度和方向〞。 然而,相關性是有限的,因為〝建立關係的存在〞並不能告訴我們因果關係〔cause and effect〕。 雖然變數有時是相關的,因為一個確實會導致另一個,但也可能是其他一些因素(混淆變項〔confounding variable〕),這實際上導致了我們感興趣的變數的系統性運動。 在前面提到的冰淇淋/犯罪率例子中,溫度是一個混淆變項,可以解釋兩個變數之間的關係。
即使我們無法指出明確的混淆變項,我們也不應該假設〝兩個變數之間的相關性〞意味著一個變數會導致另一個變數的變化。 當因果關係看起來清晰直觀時,這可能會令人沮喪。 回想一下我們對美國癌症協會所做研究的討論,以及他們的研究專案是如何首次證明吸菸與癌症之間的關聯性。 吸煙導致癌症的假設似乎是合理的,但如果我們受限於相關研究,那麼做出這種假設就超出了我們的界限。
不幸的是,人們總是錯誤地將因果關係視為相關性的函數。 這種主張在廣告和新聞報導中尤其常見。 例如,最近的研究發現,經常吃穀物的人比很少吃穀物的人,更容易保持健康的體重(Frantzen、Treviño、Echon、Garcia-Dominic 和 DiMarco,2013;Barton 等人,2005)。 猜猜穀物食品公司如何報告這項發現。 吃穀物真的能讓一個人保持健康的體重嗎?還是有其他可能的解釋,例如,與肥胖者或試圖節食而避免用餐的人相比,體重健康的人更有可能定期吃健康早餐(圖2.13) ? 雖然相關研究對於識別變數之間的關係非常有價值,但一個主要限制是無法建立因果關係。 心理學家想要對因果關係做出陳述,但唯一的方法是進行實驗來回答研究問題。 下一節描述科學實驗如何結合〝消除或控制、替代解釋〔alternative explanations〕〞的方法,使研究人員能夠探索一個變數的變化如何導致另一個變數的變化。
虛幻的相關性
〝基於相關研究做出錯誤因果關係陳述〞的誘惑並不是我們誤解數據的唯一方式。 我們也容易犯虛幻相關性的錯誤,尤其是在非系統性的觀察。 當人們相信兩件事之間存在著關係,但實際上不存在這種關係時,就會出現虛幻的相關性〔Illusory correlations〕或錯誤的相關性〔false correlations〕。 一種眾所周知的虛幻相關性是月相〔moon’s phases〕對人類行為的影響。 許多人熱切地斷言人類的行為會受到月相的影響,特別是滿月時人們的行為會很奇怪(圖2.14)。
不可否認,月球對我們的星球有著強大的影響。 海洋潮汐的漲落與月球的引力緊密相關。 因此,許多人相信我們也受到月球的影響是合乎邏輯的。 畢竟,我們的身體主要是由水組成的。 然而,對近 40 項研究的統合分析〔meta-analysis〕一致表明,月球與我們的行為之間並不存在關係(Rotton & Kelly,1985)。 雖然我們可能會更關注月相期間的奇怪行為,但奇怪行為的發生率在整個月球週期中保持不變。
為什麼我們如此容易相信這樣的虛幻相關性? 我們經常讀到或聽到這些信息,然後簡單地認為這些信息是有效的。 或者,我們對某件事如何運作有一種直覺,然後尋找證據來支持這種直覺,而忽略那些表明我們的直覺是錯誤的證據; 這就是所謂的確認偏誤〔confirmation bias〕。 其他時候,我們會根據最容易想到的信息發現虛幻相關性,即使這些信息非常有限。 儘管我們可能有信心能夠利用這些關係來更好地理解和預測我們周圍的世界,但虛幻的相關性可能會帶來重大缺陷。 例如,研究表明,虛幻的相關性(其中某些行為被不準確地歸因於某些群體)涉及偏見態度〔prejudicial attitudes〕的形成,最終可能導致歧視行為〔discriminatory behavior〕(Fiedler,2004)。
因果關係:進行實驗和使用數據
正如你所學到的,確定兩個變數之間存在因果關係的唯一方法是進行科學實驗。 實驗〝在科學背景下〞與〝在日常生活中〞有不同的意義。 在日常對話中,我們常用它來形容第一次嘗試某件事,例如嘗試〔experimenting〕新髮型或新食物。 然而,在科學背景下,實驗〔experiment〕對設計和實施有精確的要求。
實驗假設
為了進行實驗,研究人員必須有一個要測試的特定假設〔specific hypothesis〕。 正如你所學到的,可以〝透過對現實世界的直接觀察〞或〝在仔細審查先前的研究後〞製定假設。 例如,如果你認為在課堂上使用科技對學習有負面影響,那麼你基本上就提出了一個假設,即應該限制在課堂上使用技術,因為它會減少學習。 你是如何得出這個特定的假設? 你可能已經注意到,在筆記型電腦上記筆記的同學在課堂考試中的表現低於手寫筆記的同學,或者通過電腦程式接受課程的學生與通過現場老師接受課程的學生的表現水平不同測試時(圖2.15)。
這些個人觀察〔personal observations〕常常導致我們提出特定的假設,但我們不能使用有限的個人觀察和軼事證據〔anecdotal evidence〕來嚴格檢驗我們的假設。 相反,為了找出現實世界的數據是否支持我們的假設,我們必須進行實驗。
設計實驗
最基本的實驗設計涉及兩組:實驗組和對照組。 這兩組的設計是相同的,除了一個不同之處──實驗操縱〔experimental manipulation〕。 實驗組〔experimental group〕接受實驗操縱,即接受測試的處理或變數(在本例中為技術的使用),而對照組〔control group〕則沒有。 由於實驗操縱是實驗組和對照組之間的唯一差異,因此我們可以確定兩者之間的任何差異都是由於實驗操縱而不是偶然造成的。
在我們如何限制課堂上科技使用的例子中,我們讓實驗組使用電腦程式學習代數,然後測試他們的學習情況。 在老師在傳統課堂上教代數後,我們測量了對照組的學習情況。 重要的是,對照組的處理方式與實驗組類似,但對照組不接受實驗操縱。
我們還需要精確定義或實施〝如何測量代數學習〞。 操縱定義〔operational definition〕是對變數的精確描述,它對於讓其他人了解研究人員〝在特定實驗中,如何以及什麼〔how and what〕進行測量〞非常重要。 在實施學習時,我們可能會選擇考察測驗的表現,測驗涵蓋教師或電腦程式教授的材料。 我們也可能要求參與者以某種方式總結剛剛提供的資訊。 無論我們做出什麼決定,重要的是我們要以這樣的方式實施學習,讓第一次聽到我們的研究的人確切地知道〝我們所說的學習〞意味著什麼。 這有助於人們解釋我們的數據,以及如果他們選擇這樣做,他們能夠重複我們的實驗。
一旦我們對實驗參與者中的〝什麼被認為是科技的使用〞和〝什麼被認為是學習〞進行了操縱,我們就需要建立〝我們將如何進行實驗〞。 在這種情況下,我們可能會讓參與者花 45 分鐘學習代數(透過電腦程式或與數學老師一起學習),然後對 45 分鐘內涵蓋的材料進行測試。
理想情況下,為測試評分的人不知道誰被分配到實驗組或對照組,這是為了控制實驗者偏見。 實驗者偏差〔experimenter bias〕是指研究者的期望可能會扭曲研究結果的可能性。 請記住,進行實驗需要大量的計劃,參與研究計畫的人員有著支持他們假設的切身利益。 如果觀察者知道哪個孩子屬於哪一組,這可能會影響他們如何解釋模糊的反應,例如草率的筆跡或輕微的計算錯誤。 透過不知道哪個孩子屬於哪個群體,我們可以防止這些偏見。 這種情況是一項單盲研究〔single-blind study〕,這意味著其中一組(參與者)不知道自己屬於哪一組(實驗組或對照組),而進行實驗的研究人員知道每組中有哪些參與者。
在雙盲研究〔double-blind study〕中,研究人員和參與者都對小組作業不知情。 為什麼研究者想要進行一項沒人知道誰屬於哪一組的研究? 因為透過這樣做,我們可以控制實驗者和參與者的期望。 如果你熟悉“安慰劑效應〔placebo effect〕”這個詞,那麼你已經知道為什麼這是一個重要的考慮因素。 當人們的期望或信念影響或決定他們在特定情況下的經驗時,安慰劑效應就會發生。 換句話說,光是期待某件事發生就可以讓它發生。
安慰劑效應通常用測試新藥的有效性來描述。 想像一下,你在一家製藥公司工作,你認為自己有一種可以有效治療憂鬱症的新藥。 為了證明你的藥物有效,你對兩組進行了實驗:實驗組接受藥物治療,對照組則不接受藥物治療。 但你不希望參與者知道他們是否收到了藥物。
這是為什麼? 想像一下,你是這項研究的參與者,而你剛剛服用了一顆你認為可以改善情緒的藥丸。 因為你預期藥丸會產生作用,所以你可能會因為服用藥丸而感覺更好,而不是因為藥丸中實際含有任何藥物,這就是安慰劑效應。
為了確保對情緒的影響是由藥物而不是預期引起的,對照組接受安慰劑(在本例中為糖丸)。 現在每個人都得到一片藥丸,研究人員和實驗參與者都不知道誰得到了藥物,誰得到了糖丸。 實驗組和對照組之間的任何情緒差異現在都可以歸因於藥物本身,而不是實驗者的偏見或參與者的期望(圖 2.16)。
自變數和應變數
在研究實驗中,我們努力研究一件事的變化是否會導致另一件事的變化。 為了實現這一目標,我們必須在任何實驗研究中,注意兩個重要的變數或可以改變的東西:自變數和應變數。 自變數〔independent variable〕由實驗者操縱或控制。 在設計良好的實驗研究中,自變數是實驗組和對照組之間唯一重要的差異。 在我們的課堂科技使用如何影響學習的例子中,自變數是研究參與者的學習類型(圖 2.17)。 應變數〔dependent variable〕是研究者測量〝自變數有多大影響〞的變數。 在我們的例子中,應變數是參與者表現出的學習能力。
我們預期〝應變數將作為自變數的函數〞而變化。 換句話說,應變數取決於自變數。 思考〝自變數和應變數之間關係〞的一個好方法是提出這個問題:自變數對應變數有什麼影響? 回到我們的例子,透過電腦程式與面對面的講師上課相比,效果如何?
選擇並分配實驗參與者
現在我們的研究已經設計完成,我們需要獲得一個個體樣本來納入我們的實驗。 我們的研究涉及人類參與者,因此我們需要確定要包括哪些人。 參與者〔participants〕是心理學研究的主體,顧名思義,參與心理學研究的個體積極參與這個過程。 通常,心理學研究計畫依賴大學生作為參與者。 事實上,心理學子領域的絕大多數研究歷來都是以學生為研究參與者(Sears,1986;Arnett,2008)。 但大學生真的能代表一般民眾嗎? 與一般人群相比,大學生往往更年輕、教育程度更高、更自由,而且多元化程度較低。 儘管使用學生作為測試對象是一種公認的做法,但依賴如此有限的研究參與者可能會出現問題,因為很難將研究結果推廣到更大的人口。
我們假設的實驗涉及高中生,我們必須先產生學生樣本。 使用樣本是因為群體通常太大,無法合理地讓每個成員參與我們的特定實驗(圖 2.18)。 如果可能,我們應該使用隨機樣本〔random sample〕(還有其他類型的樣本,但出於本章的目的,我們將專注於隨機樣本)。 隨機樣本是人口較大的子集,其中人口中的每個成員都有平等的被選擇的機會。 隨機樣本是首選,因為如果樣本足夠大,我們可以合理地確定參與的個體代表更大的群體。 這意味著樣本中的特徵(性別、種族、社會經濟水平以及任何其他可能影響結果的特徵)的百分比接近較大人群中的百分比。
在我們的例子中,假設我們確定感興趣的人群是代數學生〔algebra students〕。 但代數學生的數量非常大,所以我們需要更具體; 相反,我們可以說我們感興趣的人口是某個特定城市的所有代數學生。 我們應該包括來自不同收入階層、家庭狀況、種族、民族、宗教和城鎮地理區域的學生。 有了這個更容易管理的群體,我們可以與當地學校合作,隨機選擇大約 200 名代數學生作為我們想要參與實驗的樣本。
總而言之,因為我們無法測試一個城市中所有的代數學生,所以我們希望找到一組大約 200 人的群體來反映該城市的組成。 有了代表性群體,我們就可以將我們的發現推廣到更大的人口,而不必擔心我們的樣本在某種程度上存在偏見。
現在我們有了樣本,實驗過程的下一步就是透過隨機分配將參與者分成實驗組和對照組。 透過隨機分配〔random assignment〕,所有參與者都有平等的機會被分配到任一組。 有統計軟體可以將樣本中的每個代數學生隨機分配到實驗組或對照組。
隨機分配對於合理的實驗設計至關重要。 如果樣本夠大,隨機分配使得各組之間不太可能存在系統性差異。 因此,舉例來說,我們不太可能出現一個完全由男性組成、具有特定種族認同或特定宗教意識形態的群體。 這很重要,因為如果在實驗開始之前各組存在系統性差異,我們將不知道在各組之間發現的任何差異的根源:這些差異是預先存在的,還是由自變量的操縱引起的? 隨機分配使我們可以假設〝實驗組和對照組之間觀察到的任何差異〞都是由於自變量的操縱造成的。
需要考慮的問題
雖然實驗允許科學家做出因果關係,但它們並非沒有問題。 真正的實驗需要實驗者操縱一個自變量,這可能會使心理學家想要解決的許多問題變得複雜。 例如,假設你想知道性別(自變數)對空間記憶(應變數)有何影響。 儘管你當然可以在利用空間記憶的任務中尋找男性和女性之間的差異,但你無法直接控制一個人的性別。 我們將這種類型的研究方法歸類為準實驗性的〔quasi-experimental〕,並認識到我們無法在這種情況下做出因果主張。
實驗者也受到道德約束。 例如,你將無法進行一項實驗,來確定童年經歷虐待是否會導致成年人的自尊水平降低。 要進行這樣的實驗,你需要將一些實驗參與者隨機分配到一個受到虐待的組別中,而該實驗是不道德的。
解釋實驗結果
一旦從實驗組和對照組收集數據,就會進行統計分析〔statistical analysis〕,以確定兩組之間是否有有意義的差異。 統計分析確定〝發現的差異有多大可能是偶然(因此沒有意義)造成的〞。 例如,如果對營養補充劑的有效性進行實驗,服用安慰劑藥丸(而不是補充劑)的人與服用補充劑的人有相同的結果,那麼該實驗表明營養補充劑無效。 一般來說,心理學家認為如果存在小於五分之一的機會觀察到這些差異,則這些差異在統計上是顯著的,前提是這些組實際上並不相互不同。換句話說,心理學家希望將提出 “偽陽性〔false positive〕” 主張的機會限制在百分之五或更低。
實驗的最大優勢在於能夠斷言〝研究結果中的任何顯著差異都是由自變數引起的〞。 發生這種情況是因為〝隨機選擇〞、〝隨機分配〞以及〝一個能夠限制實驗者偏見和參與者期望影響的設計〞應該會創建出在組成和治療方面相似的組別。 因此,組別之間的任何差異都可以歸因於自變量,現在我們終於可以做出因果陳述了。 如果我們發現觀看暴力電視節目比觀看非暴力節目會導致更多的暴力行為,那麼我們可以有把握地說,觀看暴力電視節目會導致暴力行為的增加。
報告研究
當心理學家完成一個研究計畫時,他們通常希望與其他科學家分享他們的發現。 美國心理學會 (APA) 出版了一本手冊,詳細介紹如何撰寫提交給科學期刊的論文。 與可能發表在像《今日心理學〔Psychology Today〕》這樣的雜誌上的文章不同,該雜誌面向對心理學感興趣的一般讀者,科學期刊通常發表同行評審期刊文章〔peer-reviewed journal articles〕,目標讀者是積極參與研究的專業人士和學者。
同行評審期刊文章〔peer-reviewed journal article〕由其他幾位具有該主題專業知識的科學家(通常是匿名的)閱讀。 這些同行評審員向作者和期刊編輯提供有關草稿品質的反饋。 同行評審會尋找研究合理性的充分理由、研究如何進行的清晰描述,以及研究是以道德方式進行的證據。 他們也尋找研究設計、方法和統計分析的缺陷。 他們根據研究過程中的觀察結果檢查作者得出的結論是否合理。 同行評審員也評論了該研究對於推進學科知識的價值。 這有助於防止科學文獻中不必要的研究結果重複,並在某種程度上確保每篇研究文章都提供新資訊。 最終,期刊編輯將匯總所有同行評審員的回饋,並確定該文章是否以當前狀態發表(這種情況很少見)、經過修訂後發表,或不接受發表。
同行評審為心理學研究提供了一定程度的品質控制。 構思或執行不當的研究可以被淘汰,甚至設計良好的研究也可以透過建議的修訂來改進。 同行評審還確保研究的描述足夠清晰,以便其他科學家能夠複製它,這意味著他們可以使用不同的樣本重複實驗以確定可靠性。 有時,複製涉及在原始發現的基礎上擴展的額外措施。 無論如何,每次重複都可以提供更多證據來支持原始研究結果。 已發表研究的成功複製使科學家更容易採用這些發現,而重複的失敗往往會讓人對原始文章的正當性〔legitimacy〕產生懷疑,並導致科學家轉向其他地方。 例如,如果一項已發表的研究表明,服用新藥可以幫助個人在不改變飲食的情況下達到健康體重,這將是醫學領域的重大進步。 但如果其他科學家無法複製這些結果,最初研究的主張就會受到質疑。
近年來,人們越來越擔心 “複製危機〔replication crisis〕”,它影響了包括心理學在內的許多科學領域。 一些最著名的研究和科學家的研究成果未能被其他人複製(如 Shrout 和 Rodgers,2018 年所述)。 事實上,即使是著名的諾貝爾獎得主科學家最近也撤回了一篇已發表的論文,因為她難以複製自己的結果(諾貝爾獎得主科學家Frances Arnold撤回論文,2020 年1 月3 日)。 這類結果促使一些科學家開始更加開放地合作,有些人認為當前的 “危機〔crisis〕” 實際上正在改善科學研究的方式以及與他人分享其結果的方式(Aschwanden,2018)。
疫苗與自閉症的迷思和已發表研究的撤回
一些科學家主張,常規兒童疫苗會導致一些兒童患有自閉症,事實上,一些同行評審的出版物發表了提出這些主張的研究。 自最初的報告以來,大規模的流行病學研究表明,疫苗接種不會導致自閉症,而且讓你的孩子接種疫苗比不接種疫苗要安全得多。 此外,提出這項主張的幾項原始研究已被撤回。
當資料因偽造、捏造或嚴重的研究設計問題而受到質疑時,已發表的作品可以被撤銷。 一旦撤銷,科學界就會被告知原始出版物有嚴重問題。 撤稿可以由〝領導研究的研究人員〞、〝研究合作者〞、〝僱用該研究人員的機構〞或〝最初發表該文章的期刊的編輯委員會〞發起。 在疫苗-自閉症案例中,撤回是因為存在重大利益衝突,其中主要研究人員在建立兒童疫苗與自閉症之間的聯繫方面擁有財務利益(Offit,2008)。 不幸的是,最初的研究受到了媒體的廣泛關注,以至於世界各地的許多父母都對是否讓孩子接種疫苗猶豫不決(圖 2.19)。 繼續依賴此類被揭穿的研究會產生重大後果。 例如,2019 年 1 月至 10 月期間,美國各地爆發了 22 起麻疹疫情,有超過 1,000 多人感染了麻疹(Patel 等,2019)。 這可能是由於被揭穿的研究引發的反疫苗運動所致。 有關疫苗/自閉症故事如何展開以及該故事的影響的更多信息,請參閱 Paul Offit 的書《自閉症的虛偽預言:糟糕的科學、危險的醫學和尋找治療方法〔Autism’s False Prophets: Bad Science, Risky Medicine, and the Search for a Cure〕》。
可靠性和有效性
可靠性和有效性是〝任何類型的資料收集都必須考慮〞的兩個重要考慮因素。 可靠性〔Reliability〕是指持續產生給定結果的能力。 在心理學研究的背景下,這意味著用於收集資料的任何儀器或工具都以一致、可重複的方式進行。 可靠性有多種不同類型。 其中一些包括評估者間的可靠性〔inter-rater reliability〕(兩個或多個不同的觀察者對所觀察到的內容達成一致的程度)、內部一致性〔internal consistency〕(測量相同事物的問卷上不同項目之間的相關程度),以及重測信度〔test-retest reliability〕(特定測量結果在多次管理中保持一致的程度)。
不幸的是,測量的一致性並不一定意味著你測量的結果是正確的。 為了說明這個概念,請考慮使用廚房秤來測量你早上吃的穀物的重量。 如果秤沒有正確校準,它可能會始終低估或高估正在測量的穀物數量。 雖然秤在產生一致結果方面高度可靠(例如,每次將相同數量的穀物倒入秤上會產生相同的讀數),但這些結果是不正確的。 這就是有效性發揮作用的地方。 有效性〔Validity〕是指給定的儀器或工具〝準確測量其應該測量的內容〞的程度,同樣,有效性可以有多種表達方式。 生態效度〔ecological validity 〕(研究結果推廣到現實世界應用的程度)、建構效度〔construct validity〕(給定變量實際上捕捉或測量了它打算測量〔intended to measure〕的程度)和表面效度〔face validity〕(給定變量在表面上似乎有效的程度)只是研究人員考慮的幾種類型。 雖然任何有效的措施都必然可靠,但反之則不一定成立。 研究人員努力使用高度可靠和有效的儀器。
SAT 和 ACT 的有效性如何?
SAT 和 ACT 等標準化考試旨在測量個人接受大學教育的能力,但此類考試的可靠性和有效性如何? 美國大學理事會進行的研究表明,SAT 成績對於一年級大學生的 GPA 具有很高的預測效度(Kobrin、Patterson、Shaw、Mattern 和 Barbuti,2008)。 在這種情況下,預測效度〔predictive validity〕是指測試有效預測大學新生 GPA 的能力。 鑑於許多高等教育機構要求 SAT 或 ACT 入學,這種高度的預測效度可能令人欣慰。
然而,由於多種因素,大學招生對 SAT 或 ACT 成績的重視程度正在改變。 其一,一些研究人員聲稱這些測驗存在偏見,來自歷史邊緣群體的學生處於不利地位,不公平地降低了被大學錄取的可能性(Santelices & Wilson,2010)。 此外,一些研究表明,這些測驗對一年級大學生 GPA 的預測能力被嚴重誇大了。 事實上,有人認為 SAT 的預測效度可能被高估了 150%(Rothstein,2004)。 許多高等教育機構開始考慮淡化 SAT 成績在入學決定中的重要性(Rimer,2008)。
最近國內外備受矚目的作弊醜聞只會增加對此類考試的審查,截至 2019 年 3 月,超過 1000 所高等教育機構放寬或取消了入學的SAT或ACT測試要求(Strauss,2019年,3 月19 日)。
更新紀錄
2023/10/01 發佈本文
評論