統計學(Statistical)重點整理-3
課程連結:
台灣交通大學 統計學(一) Statistics I 唐麗英老師
[統計學筆記及整理]
第五章 連續型隨機變數(Continuous Random Variables)
隨機變數(R.V.)的兩種型式
-
定義:離散型隨機變數 (Discrete Random Variable)
– 離散型隨機變數為計數值的隨機變數(計數)。
– 例:生產線上某次抽檢之不良品的數目 -
定義:連續型隨機變數 (Continuous Random Variable)
– 連續型隨機變數為連續值的隨機變數(量測)。
– 例:厚度、重量與長度
- 例:以下每個實驗都會產生一個隨機變量值(一次測量)。
1.說明隨機變量是離散變量還是連續變量。
2.至少在原則上確定隨機變量的所有可能值。
a)樹上的葉子數量。
離散型,x = 0,1,2.....
b)閱讀“如何撒謊統計”一書所需的時間
連續型,x >0
c)陪審團中的女性人數為12人。
離散型,x = 0,1,2.....12
d)過往車輛的速度。
連續型,x >0
e)翻轉硬幣兩次時觀察到的頭數。
離散型,x = 0,1,2
f)一次滾動一對公平骰子時出現的兩個數字的總和。
離散型,x = 2,3,4,..12
累加函數 The (Cumulative) Distribution Function
-
名詞:
1 ) 累加分怖函數 (Cumulative) Distribution Function(簡稱c.d.f. or d.f.)
2 ) 概率密度函數 (Probability) Density Function(簡稱p.d.f.)
3 ) 概率質量函數 (Probability) Mass Function(簡稱p.m.f.) -
"機率質量函數"和"機率密度函數"不同之處在於:
機率質量函數是對離散隨機變量定義的,本身代表該值的機率;
機率密度函數是對連續隨機變量定義的,本身不是機率,只有對連續隨機變量的機率密度函數在某區間內進行積分後才是機率。 -
Def:累加函數 The (Cumulative) Distribution Function(簡稱c.d.f. or d.f.)
隨機變量X的分佈函數(c.d.f.)被定義為
-
備註:
如果X是離散的R.V.,那麼
-
離散型概率函數如果使用連續型累加函數,則定積分累加起來時總機率會超過1。
-
Example:
- 例:假設一頂帽子包含四張紙; 每個滑動帶有數字1,2,3和4.從帽子中抽出一個滑動而不看。 設X是繪製的單位上的數字。
1)X的概率函數是多少?
2)X的累加函數是什麼?
3)繪製X的累加函數。
P(x)=0(x<1),P(x)=1/4(x=1,2,3,4),P(x)=0(x>4)
-
累加函數的特性
-
備註:我們可以使用c.d.f. ,FX(t),用於評估X在特定區間內的概率。
連續隨機變量的密度函數(The Density Function for a Continuous Random Variable)
-
Def:連續隨機變量
-X是一個連續的隨機變量,如果它的累加函數,FX(t)是X的連續函數,for −∞ < 𝒕 < ∞ .
-對於連續的R.V. X,概率函數的作用取自概率密度函數f(x)。 -
Def:連續R.V.的概率密度函數
-設X是具有累加函數的連續隨機變量,F(x)= P(X≤x)。
-X的概率密度函數是:
-連續R.V.的範圍 X是Rx = {x | f(x)≥0}
image.png
-
Example
-
連續型概率密度函數的屬性f(x):
-
備註:
-如果X是連續的R.V. 使用密度函數f(x),然後對於任何a <b,X落入區間(a,b)的概率是a和b之間密度函數下的面積:
-如果X是連續的R.V.,則X取任何特定值的概率為0:
-如果X是連續的R.V.,那麼
-
注意:對於離散的R.V.,情況並非如此。
-
c.d.f. 也可以定義為
-
c.d.f. 可用於評估X在某個區間內的概率:
期望值和綜合性指標(Expected Values and Summary Measures)
•衡量機率函數“重心”之指標(Measure of the Center of a probability Function)
-
衡量機率函數“重心”之指標:平均值或期望值。
-
回想:"離散型" 隨機變量的期望值
提供∑ |X| * p(x) < ∞。 如果總和發散,則期望值是不確定的。
如果X是離散的R.V. 使用概率質量函數p(x),X的期望值,由E(X)或μX(希臘字母mu)表示,是
-
注意:E(X)=μX是概率函數的平衡點
-
Def:"連續型"隨機變量的期望值
提供 ∫|x| ‧f(x)dx < ∞. 如果積分發散,則期望是不確定的。
如果X是連續的R.V. 密度函數f(x),X的預期值是
-
E(X)是X的所有可能值的加權平均值,每個值由其相關概率加權。
•衡量機率函數”變異”之指標(Measure of the variability of a Probability Function)
衡量機率函數”變異”之指標:差異(變異)或標準差
-
Def:任何 R.V. X的方差和標準差
-
Def:設X為連續R.V. 的概率密度函數f(x),讓g(X)為X的任何函數。然後g(X)的期望值通式是
-
定理5.1:設X為連續的R.V.,並且讓g1(X),g2(X),...,gk(X)為X的k個函數。然後,
-
定理5.2:設X為連續R.V. E(X) ,然後,
-
定理5.3:設X為連續R.V. ,E(X)=μ𝐗,Var(X)=σ𝐗2。如果Y = aX + b,其中a和b是任何常數,那麼
- 例:假設E(X)= 5,Var(X)= 10,查找
a) E(3X-5)
b) Var(3X-5)
c) Std(3X-5)
a)(3X-5)= Y,E(Y) = 3*E(X)-5 = 3*5-5 = 10
b)(3X-5)= Y,Var(Y) = 32*102 = 9*10 = 90
c)(3X-5)= Y,Std(Y) = Var(Y)1/2 =901/2
- 例:設X是連續的R.V. 有(機率)密度函數
a)
b)
- 例:如果T是連續的R.V. 與c.d.f.
對c.d.f. 做積分
,,
連續型機率分佈(Continuous Probability Distributions)
-
常用的連續型機率分佈
1)常態分佈(Normal Distribution)
2)對數常態分佈(Lognormal Distribution)
3)齊一分佈(Uniform Distribution)
4)珈瑪分佈(Gamma Distribution)
5)指數分佈(Exponential Distribution)
6)韋伯分佈(Weibull Distribution)
7)貝塔分佈(Beta Distribution) -
常態分佈(Normal Distribution)
-
何謂常態分佈?
自然界所觀察到的許多連續型隨機變數常呈鐘形分佈,如下圖所示。此鐘形分佈又稱為常態分佈(或高斯分佈)。
-
常態機率分佈
•=數學常數近似為3.1416
• =數學常數近似為2.718
•=總體均值或真實平均數
•=總體方差
•以N(μ,σ)表示
-
常態曲線
-
N(μ,σ) 的特性
1)對稱於 μ。
2)隨機變數 x 之值可由 -∞ 至 +∞ 。
3)鐘形分佈。
4)曲線下之面積為 1 。
5)集中趨勢的三個量數(平均數、中位數及眾數)是一致的。
-
μ 與 σ 如何影響常態曲線
-
由1)與2)可知:
μ - 位置參數(Location parameter)
σ - 變異參數(Dispersion parameter) -
何謂標準常態分佈?
– 平均數為0、標準差為1之常態分佈稱為標準常態分佈,以 N(0,1) 表之。
– 例:令Z為 N(0,1) 之隨機變數,亦即Z~N(0,1),其常態曲線如下圖。則,P(2≦Z≦3) = 曲線下介於2與3之間的面積=陰影部份之面積
-
如何利用表查出標準常態之機率(若無表則需直接代入高斯分怖公式,運算較複雜。)
– 表為標準常態分佈 N(0, 1) 之機率表。
– 設 Z~N(0, 1),請利用表找出下列之機率:
1)P(0.53≦Z≦2.42) = 0.4922-0.2019 = 0.2903
2)P(-1.81≦Z≦1.81) = 0.4649+0.4649 = 0.9298
3)P(0≦Z≦1.96) = 0.4750
4)P(Z≧-0.36) = 0.1406+0.5 = 0.6406
設 Z~N(0, 1),請利用表 C 值:
1)P(Z < C) = 0.95,0.95 - 0.5 = 0.45,C=1.645
2)P(Z > C) = 0.7019,0.7019 - 0.5 = 0.2019,C=0.53
3)P(Z > C) = 0.1379,0.5 - 0.1379 = 0.3621,C=1.09
4)P(Z < C) = 0.0110,0.5 - 0.0110 = 0.489,C=2.29
- 如何求出一般常態變數之機率
– 作法:先將其標準化(Standardize),轉換成標準常態變數後,再求其機率。標準化之公式如下:
-
例:設 X~N(10,2) ,平均數=10,標準差=2
a) 請找出 X 介於 11 與 13.6 間之機率
b) 請找出 X 大於 12 之機率
-
例:假設某產品之長度資料呈常態分佈,其平均數為38.5公分,標準差為2.5公分。若此產品之規格界限為38±2,請問此產品之不良率為何?(μ=38.5,σ=2.5)
-
檢查數據是否呈常態分佈
1)利用直方圖– 只要出現鐘形分佈圖形,即判定數據呈常態分佈
2)利用常態機率圖– 只要圖形呈直線,即判定數據呈常態分佈
3)利用統計檢定– 只要顯著度 p-value > 0.05,即判定數據呈常態分佈
a. 卡方適配度檢定(Chi-Square Goodness-of-fit Test)
b. K-S檢定(Kolmogorov-Smirnov test)
c. A-D檢定(Anderson-Darling Test) -
例:下列 75 筆數據為某模具上的孔徑尺寸值(mm),請檢查數據是否呈常態分佈?
-
對數常態分佈(Lognormal Distribution)
- 對數常態分佈
如果隨機變數Y=ln(X)為平均值μ以及標準差σ之常態分佈,則連續隨機變數 X 稱為對數常態分佈,而且其密度函數為
- μ:常態分佈Y的μ
-
σ:常態分佈Y的σ
- 對數常態分佈X的平均值μ與變異數σ2 分別為
- 例 :The current gain of certain transistors is measured in units which make it equal to the logarithm of 𝐈𝟎/𝐈𝐢, the ratio of the output to the input current. If it is normally distributed with μ = 2 and σ2 = 0.01, find
1)The probability that 𝐈𝟎/𝐈𝐢 will take on a value between 6.1 and 8.2.
2)The mean and the variance of the distribution of 𝐈𝟎/𝐈𝐢
齊一分佈(Uniform Distribution)
-
當且僅當X在區間(α,β)上均勻分佈時,連續隨機變量X稱為均勻隨機變量,即X的密度為
-
均勻R.V的均值和方差
-
例 如果X均勻分佈在(0,10)上,則計算出概率
a) X < 3
b) X > 6
c) 3 < X < 8
a) X < 3,
b)X > 6,
c)3 < X < 8,
- 例: 假設一家鋼鐵製造商的研究部門認為該公司的一台軋機正在生產不同厚度的鋼板。 厚度Y是均勻的隨機變量,其值在150和200mm之間。 任何厚度小於160毫米的薄板都必須報廢,因為它們對買方來說是不可接受的。
a)計算Y的平均值和標準偏差,即本機生產的紙張厚度。 然後繪製概率分佈圖,並在橫軸上顯示平均值。 還顯示圍繞平均值的1和2標準偏差間隔。
b)計算該機器生產的鋼板必須報廢的比例。
150~200機率密度為1/50
(a)
(b)
,良品比不良品=4:1
珈瑪分佈(Gamma Distribution)
-
幾個重要的概率密度(如指數,威布爾)是伽馬分佈的特例。
-
Def:X被稱為Gamma隨機變量,當且僅當
其中Γ(α)是伽馬函數的值
-
Gamma function
-
Gamma function的屬性
1)Γ(α) < ∞,𝑖𝑓α> 0
2)Γ(α) = (α - 1)Γ(α - 1),if α> 1
3)Γ(α) = (α - 1)!,if α是正整數 -
Gamma R.V的均值和方差
-
卡方分佈(The Chi-Square Probability Distribution)
參數稱為自由度。
卡方隨機變量是具有且的伽馬型隨機變量
-
卡方隨機變量的均值和方差是:
-
例:根據過去的經驗,製造商知道主要客戶產品投訴之間的時間長度Y(以月為單位)(投訴的間隔時間)的相對頻率分佈可以通過α= 2且β= 4的伽馬密度函數來建模。 在製造商收緊質量控制要求15個月後,第一個投訴就到了。 這是否表明主要客戶投訴之間的平均時間可能會增加?
由於Y = 15個月的平均值(μ+σ= 8 + 5.7 = 13.7個月)不超過1個標準差,我們不會將15個月視為Y的異常大的數值。因此,我們可以得出結論, 證據不足以表明公司新的質量控制計劃在增加投訴之間的平均時間方面是有效的。
指數分佈(Exponential Distribution)
- X稱為指數隨機變量,當且僅當
- 指數分佈是Gamma分佈的一個特例,α= 1
- 均勻R.V的均值和方差
-
例:觀察反應的核工程師測量β粒子排放之間的時間間隔。
-
這些衰減時間(以毫秒為單位)在下圖中顯示為直方圖
-
備註:
-可以證明,與泊松過程相關,連續到達之間的等待時間具有指數分佈。
-更具體地說,可以證明,如果在泊松過程中平均到達率(每單位時間的平均到達次數)是λ=𝟏/β,則直到第一次到達的時間,或者連續到達之間的等待時間, 具有𝟏/β的指數分佈。