統計基礎工具說明

統計基礎工具幫助使用者正確的運用檢定來比較平均值及比例。

比較平均值及比例，是分析最常使用，也是最基礎的統計檢定。但是錯誤的運用檢定方法，會得到錯誤的結果，反而誤導了決策。例如，two-sample t-test 常用來比較兩組數據的平均。但要注意的是，t-test 假設兩組數據的分佈是近似常態，因此應用 t-test 時必須要確認數據分佈是否為常態。非常態分佈的數據，如果樣本數够大，依據中央極限定理，平均值的分佈會接近常態，在這種狀況下，也是可以使用 t-test。此外，離群值會降低判斷出平均值有差異的機率，因此檢驗數據中的離群值是否合理，也是做檢定的重要步驟。所以並不是拿到數據，就直接做 t-test，然後看 p-value 來決定平均值或比例有沒有差異，而是要仔細的檢視數據的型態，有無 outlier，數據是否有異常，再運用適合檢定方法。

在這個應用程式中，我們將檢視離群值及常態分佈整合至比較平均值或比例的檢定過程中，加上圖表的視覺化輔助，幫助使用者正確的比較平均或比例的差異。讀者可以參應用說明，以自己的資料進行更完整的平均值或比例檢定。

一、簡介：

統計基礎工具的應用介面包含三個功能：

Review and Clean Data：檢查數據中是否有重複的資料列，是否有遺失值及極端值。以及對數據做總結及檢視數據分佈。
Comparing Mean：比較平均值，包括 one-sample, two-sample 及 paired-sample。
Comparing Proportion：比較比例，包括 one-proportion, two-proportion 及 paired-proportion。

二、使用內建數據

應用程式中含有內建的數據，使用者可以使用內建的數據測試及了解介面功能。使用內建數據，勾選左側側邊欄的 ‘Use demo data’ 即可。如果要使用自己的數據，記得不要勾選這個選項。

使用介面

三、使用 Review and Clean Data

使用者可以利用這個介面功能檢查數據中：是否有重複的資料列、是否有遺失值及極端值，以及對數據做總結及檢視數據分佈。

四、使用 Comparing Mean

這個介面用於比較平均值是否有差異，包括 one-sample, two-sample 及 paired-sample。

輸入數據

數據內容先用試算表(例如 excel 或 google sheet) 輸入數據再儲存成 csv 格式。再利用側邊欄的 ‘Select a CSV file’ 選擇要分析的 csv 檔。

數據格式： csv 檔的第一列為欄位名稱，數據從第二列開始。

單一樣本群組 (one-sample)：將數據放在第一欄。

兩組樣本群組 (two-sample 及 paired-sample)：包含三個欄位。第一個欄位為每個樣本的 id，每一列為一個樣本, id 不可重複，若無特定 id, 編上流水號也可以。第二欄為樣本的群組別。第三欄為樣本的值，因為是 two-sample，所以應只有兩個群組別。欄位順序可以互換，在介面中，會選擇 id, 樣本值跟群組別相對應的欄位。