Phương pháp kiểm định trong tương quan và hồi quy tuyến tính

Bigdatauni. com

Follow Fanpage

Contact

Ở bài viết trước chúng ta đã tìm hiểu qua cách phân tích tương quan để đánh giá mối quan hệ giữa 2 biến: quan hệ thuận, nghịch, hay không có quan hệ và tính bền vững quan hệ bằng hệ số tương quan (Coefficient of Correlation), đồng thời chúng ta đã xây dựng mô hình hồi quy tuyến tính đơn giản thông qua tìm hiểu cách triển khai các công thức tính hệ số hồi quy sử dụng phương pháp bình phương bé nhất, và thể hiện đường hồi quy trên đồ thị hàm số. Đồng thời chúng ta cũng đã làm quen với cách tính các giá trị SST (Total Sum of Squares), SSE (Sum of squares due to Errors), SSR (Sum of squares due to Regression) để tính hệ số xác định R2 (Coefficient of Determination), thể hiền phần tỷ lệ biến thiên của y mà chúng ta có thể giải thích bởi mối quan hệ tuyến tính giữa x và y.

Cũng trong bài viết trước BigDataUni đã ra mắt đến những bạn chiêu thức kiểm định hiệu quả của nghiên cứu và phân tích đối sánh tương quan. Trong bài viết tiếp theo tổng quan về hồi quy, tất cả chúng ta sẽ khám phá về những chiêu thức kiểm định vận dụng cho Simple linear regression, nhưng trước hết tất cả chúng ta sẽ xem qua mối liên hệ giữa thông số đối sánh tương quan và thông số hồi quy và chiêu thức kiểm định cho Correlation như một cách review lại kỹ năng và kiến thức cũ. Các bạn hoàn toàn có thể tìm hiểu thêm cụ thể bài viết trước trong link dưới đây : Tổng quan về Correlation và Simple linear regression ( chèn link vô sau ) Kiểm định giả thuyết ( Hypothesis Test ) là một trong những kỹ năng và kiến thức nền tảng, và quan trọng nhất trong nghành thống kê ( Statistics ), được sử dụng để nhìn nhận liệu những giả thuyết từ tài liệu mẫu hoàn toàn có thể suy ra tài liệu tổng thể và toàn diện nghiên cứu và điều tra được hay không. Nói cách khác dựa trên những tham số, đặc trưng của mẫu, những Tóm lại đưa ra về quy luật phân phối, những đặc trưng của tổng thể và toàn diện có hài hòa và hợp lý hay không .
Để khám phá kiểm định là gì, những bạn cũng hoàn toàn có thể xem qua bài viết BigDataUni trong link dưới đây : Tổng quan về Statistics : Inferential statistics ( thống kê suy luận )
Mối liên hệ giữa thông số hồi quy và thông số đối sánh tương quan
Quay trở lại với chủ đề bài viết, tiên phong là Correlation. Nhắc lại công thức tính thông số đối sánh tương quan, và cách lý giải mối quan hệ giữa 2 biến dựa trên thông số đối sánh tương quan :
Công thức trên ( n – 1 ) đã bị triệt tiêu. Theo triết lý rxy nằm từ – 1 đến + 1

  • Nếu hệ số rxy < 0, thì 2 biến có mối quan hệ theo chiều nghịch nhau, tức một biến tăng thì biến còn lại sẽ giảm hoặc ngược lại.
  • Hệ số rxy > 0 thì 2 biến có mối quan hệ thuận, một biến tăng, biến còn lại có thể tăng theo hoặc ngược lại.
  • Hệ số rxy = 0, thì 2 biến không có mối quan hệ tuyến tính với nhau.
  • Hệ số rxy  càng tiến gần giá trị -1, mối liên hệ nghịch càng chắc chắn, tương tự với giá trị 1, mối liên hệ thuận càng chắc chắn.

Có một quan tâm mà chúng tôi chưa đề cập đó chính là sự liên hệ giữa thông số đối sánh tương quan r và thông số đường hồi quy β1
Cả thông số đối sánh tương quan r và thông số đường hồi quy β1 đều hoàn toàn có thể diễn đạt mối quan hệ giữa 2 biến x và y bất kể. Với r tất cả chúng ta biết được nếu x tăng hay giảm thì y sẽ đổi khác theo khunh hướng thuận, hay nghịch và sự biến hóa này có vững chắc hay không, có được chứng minh và khẳng định chắc như đinh hay không. Lấy lại ví dụ bài viết trước xem xét mối quan hệ giữa số chiến dịch quảng cáo Facebook được triển khai trong mỗi tuần, lấy mẫu 10 tuần, và lệch giá thu nhận được mỗi tuần
Áp dụng công thức tất cả chúng ta tính được thông số đối sánh tương quan r = 0.92, qua đó chứng minh và khẳng định số chiến dịch quảng cáo Facebook trong 1 tuần sẽ có ảnh hưởng tác động làm tăng lệch giá, mối quan hệ giữa 2 biến là mối quan hệ thuận chiều, và vững chắc. Tuy nhiên giờ đây tất cả chúng ta muốn biết khi tăng 1 chiến dịch quảng cáo Facebook trong 1 tuần thì lệch giá sẽ tăng lên bao nhiêu trong chính tuần này, thì phải làm cách nào ? Chúng ta sẽ dùng thông số đường hồi quy β1 để xác lập. Phương trình tổng quát của mô hình hồi quy tuyến tính đơn thuần :
Phương trình hồi quy tổng quát vận dụng cho ví dụ trên :

Nhắc lại, β0 là giá trị ước lượng của y khi x đạt giá trị 0 (Intercept), β1 là độ dốc của đường hồi quy tuyến tính (Slope), nói cách khác là mức độ thay đổi của y khi x thay đổi 1 đơn vị, ε là sai số, thể hiện giá trị của các yếu tố khác không thể nghiên cứu hết và các yếu tố này vẫn tác động lên giá trị của y

Công thức tính thông số hồi quy b1 và giá trị b0
Chúng ta vận dụng cho ví dụ trên để tính b1 và b0, tác dụng những bạn sẽ có phương trình như sau :
b1 = 9200 / 20 = 460
b0 = 4880 – 460 * 3 = 3500 với 4880 là lệch giá trung bình, 3 là số chiến dịch trung bình mỗi tuần .
Phương trình hồi quy tuyến tính kiến thiết xây dựng được : y ^ = 3500 + 460 x Với b1 = 460, giá trị dương, tất cả chúng ta hoàn toàn có thể Tóm lại nếu trong tuần tăng trung bình 1 chiến dịch quảng cáo Facebook thì lệch giá trung bình sẽ tăng 460 ( 1000 VND )
Như vậy tất cả chúng ta đã thấy được sự độc lạ giữa r và b1 trong cách bộc lộ mối quan hệ giữa 2 biến tuy nhiên câu hỏi tiếp theo đặt ra. Tại sao tất cả chúng ta cần thông số đối sánh tương quan trong khi đã có thông số hồi quy định lượng rõ ràng hơn mối quan hệ giữa 2 biến ? Nói cách khác thay vì sử dụng thông số đối sánh tương quan, tất cả chúng ta hoàn toàn có thể sử dụng thông số hồi quy để xem xét tính bền vững và kiên cố trong quan hệ giữa 2 biến hay không ?
Câu vấn đáp là không hề. Hệ số hồi quy phụ thuộc vào vào đơn vị chức năng giám sát của biến tiềm năng y, và không có một số lượng giới hạn giá trị dự báo đơn cử tức thông số hồi quy hoàn toàn có thể rất cao cũng hoàn toàn có thể rất thấp, cũng hoàn toàn có thể rất lớn và rất nhỏ. Ví dụ ở trên khi b1 = 460 những bạn hoàn toàn có thể khẳng định chắc chắn đây là mối quan hệ vững chắc hay không ? Cơ sở nào để khẳng định chắc chắn ? Nhưng nếu so sánh với những tập dữ liệu khác nhau tất cả chúng ta hoàn toàn có thể sử dụng thông số hồi quy để khẳng định tính vững chắc. Ví dụ nếu không sử dụng chiến dịch quảng cáo thì công ty hoàn toàn có thể sử dụng chủ trương giảm giá trong những giờ cao điểm, vậy giả sử thông số b1 = 600, chứng tỏ chủ trương giảm giá có ảnh hưởng tác động mạnh hơn lên lệch giá trung bình, tuy nhiên tất cả chúng ta vẫn chưa xét đến b0 nên lại không hề chứng minh và khẳng định giá trị dự báo cho lệch giá của bên nào là lớn hơn
Hệ số đối sánh tương quan r phù hợp hơn khi nhìn nhận tính vững chắc trong mối quan hệ giữa 2 biến vì r được số lượng giới hạn từ – 1 đến 1, giá trị càng tiến gần 2 điểm số lượng giới hạn này thì mối quan hệ càng vững chắc bất kể thuận hay nghịch, không chăm sóc đến đơn vị chức năng giám sát của x và y. Trong công thức của thông số đối sánh tương quan có chung một thành phần trong công thức của thông số hồi quy, và trong thực tiễn trên cơ sở thống kê giám sát, nếu thông số hồi quy bằng 0 thì thông số đối sánh tương quan cũng sẽ bằng 0 – trường hợp biến x không có liên hệ hay góp phần gì trong quy trình dự báo giá trị y, nếu thông số đối sánh tương quan có giá trị dương thì thông số hồi quy cũng sẽ có giá trị dương và ngược lại. Hai quan tâm cực kỳ quan trọng chúng tôi muốn chú ý quan tâm đến những bạn lại không đề cập trong bài viết trước chính là :

  • Hệ số tương quan cao không thể hiện mối quan hệ nhân quả hoàn toàn giữa x và y
  • Hệ số tương quan thấp không có nghĩa x và y không có mối liên hệ, chỉ là mối quan hệ tuyến tính không mạnh mà thôi.

Nói tóm lại, hệ số tương quan r chính là hệ số hồi quy được chuẩn hóa (Standardized Slope), mối liên hệ giữa chúng được thể hiện qua công thức dưới đây:

Hệ số đối sánh tương quan sẽ bằng thông số hồi quy khi Sx = Sy, và vì nguyên do thông số đối sánh tương quan không bị ảnh hưởng tác động bởi đơn vị chức năng giám sát của những biến nên tất cả chúng ta hoàn toàn có thể chuẩn hóa giá trị của biến x và y, sử dụng công thức chuẩn hóa Z – score, tất cả chúng ta vẫn sẽ tính được tương tự như thông số r. Như vậy trên cơ sở thông số đối sánh tương quan là thông số chuẩn hóa của b, tất cả chúng ta hoàn toàn có thể Kết luận nếu giá trị chuẩn hóa Z của x đổi khác 1 đơn vị chức năng thì giá trị chuẩn hóa của Z của y sẽ biến hóa r đơn vị chức năng .
Như vậy, với lập luận trên tất cả chúng ta đang chứng minh và khẳng định ngược lại với kim chỉ nan trong bài viết trước và ở chính trong bài viết này về thông số đối sánh tương quan đó chính là : thông số đối sánh tương quan không lượng hóa được mối quan hệ giữa biến x và y, nhưng với giá trị được chuẩn hóa thì tất cả chúng ta hoàn toàn có thể. Công thức chuẩn hóa giá trị lấy ví dụ cho biến x dành cho những bạn chưa biết :
Như vậy tất cả chúng ta đã khám phá xong mối liên hệ giữa thông số đối sánh tương quan và thông số hồi quy. Tiếp theo tất cả chúng ta cùng làm quen với những chiêu thức kiểm định cho nghiên cứu và phân tích đối sánh tương quan và hồi quy tuyến tính đơn thuần .
Phương pháp kiểm định trong Correlation
( Phần này chúng tôi đã trình diễn trong bài viết trước, lần này chúng tôi chỉ làm rõ hơn 1 số ít yếu tố, chú ý quan tâm thêm những bạn phải có kiến thức và kỹ năng cơ bản về kiểm định vd như mức ý nghĩa, p-value )
Tại sao phải triển khai kiểm định trong nghiên cứu và phân tích đối sánh tương quan ? Đó chính là do tất cả chúng ta muốn khám phá xem liệu những Tóm lại ở mẫu hoàn toàn có thể vận dụng cho hàng loạt toàn diện và tổng thể nghiên cứu và điều tra hay không ? Ở ví dụ trên tất cả chúng ta tính được r = 0.92, và Tóm lại rằng những chiến dịch quảng cáo hoàn toàn có thể làm tăng lệch giá. Tuy nhiên tất cả chúng ta chỉ lấy có 10 tuần để nhìn nhận, giả sử nếu muốn xem xét trong cả năm vừa qua thậm chí còn từ lúc công ty mở màn chạy chiến dịch quảng cáo, tất cả chúng ta hoàn toàn có thể Kết luận tương tự như như trên được không ? Phương pháp kiểm định trong thống kê là công cụ hữu dụng để xử lý yếu tố này .
Ở bài viết trước chúng tôi đã đề cập đến những bạn công thức tính giá trị kiểm định t cho thông số đối sánh tương quan r để bác bỏ hay không bác bỏ giả thuyết có mối đối sánh tương quan giữa 2 biến .
pxy là thông số đối sánh tương quan của tổng thể và toàn diện, tất cả chúng ta có những giả thuyết H0 như sau :
H0 : pxy = 0 H0 : pxy ≤ 0 H0 : pxy ≥ 0
H1 : pxy ≠ 0 H1 : pxy > 0 H1 : pxy < 0 Pxy > 0, trong tổng thể và toàn diện, x và y có mối quan hệ thuận, Pxy < 0, trong tổng thể và toàn diện, x và y có mối quan hệ nghịch, Pxy = 0, trong toàn diện và tổng thể, x và y không có mối quan hệ. Chúng ta sẽ thống kê giám sát giá trị kiểm định t và so sánh với t tra bảng, với mức ý nghĩa α, và bậc tự do n – 2, H0 : pxy = 0 là kiểm định 2 phía, mức ý nghĩa α được chia 2 khi tra bảng, còn lại là kiểm định 1 phía và mức ý nghĩa α được giữ nguyên khi tra bảng . Cơ sở bác bỏ H0 Với kiểm định 2 phía : H0 : pxy = 0 được bác bỏ khi trị tuyệt đối của t lớn hơn t tra bảng ( tα / 2, n-2 ) Với kiểm định bên phải : H0 : pxy ≤ 0 được bác bỏ khi giá trị t dương lớn hơn giá trị dương của t tra bảng ( tα, n-2 ) Với kiểm định bên trái : H0 : pxy ≥ 0 được bác bỏ khi giá trị t < giá trị âm của t tra bảng ( tα, n-2 ) Nếu xét trên giá trị p-value, bác bỏ H0 khi p-value < α. ( p-value là mức ý nghĩa nhỏ nhất mà tại đó H0 bị bác bỏ ) Chúng ta sử dụng lại ví dụ trên để tính với r = 0.92 và được t = 6.8 Chúng ta sẽ tra bảng phân phối t để tìm t ( α ), n-2 với mức ý nghĩa α là 0.05 ( độ an toàn và đáng tin cậy 95 % ), bậc tự do n – 2 là 10 – 2 = 8, vì là kiểm định 1 bên nên tất cả chúng ta giữ nguyên α . Các bạn hoàn toàn có thể search trên Google để kiếm thông tin về bảng phân phối t để tra, ở đây chúng tôi đã tra sẵn t0. 05, 8 = 1.86. Như vậy t = 6.8 lớn hơn t tra bảng vậy tất cả chúng ta bác bỏ H0 và khẳng định chắc chắn có mối liên hệ thuận giữa 2 biến. Ngoài ra những bạn hoàn toàn có thể sử dụng p-value để xem xét bác bỏ H0 nếu p-value < α . Các bạn hoàn toàn có thể tra ngược lại bảng t với giá trị là 6.8 thì so sánh lên hàng trên cùng là giá trị bao nhiêu hoặc hoàn toàn có thể sử dụng hàm T.DIST.RT ( vì ở đây ta kiểm định 1 phía bên phải, RT – Right tailed ) trong excel nhập 6.8 và bậc tự do là 8 . Tuy nhiên một chú ý quan tâm quan trọng không chỉ trong giải pháp kiểm định trong Correlation mà còn ở những chiêu thức kiểm định khác đó chính là giá trị kiểm định chỉ cho tất cả chúng ta biết được liệu giả thuyết về toàn diện và tổng thể có được gật đầu hay không, nếu được hay không được, thì nó mới chỉ là thông tin, hay quan điểm mà tất cả chúng ta hoàn toàn có thể xem xét chứ không được dựa trọn vẹn mà đưa ra một quyết định hành động đơn cử, phải xem xét rất nhiều yếu tố khác .

Như chúng tôi đã đề cập hệ số tương quan cao hay không thấp không thể hiện hoàn toàn mối quan hệ nhân quả giữa 2 biến, ví dụ r = 0.92, chúng ta không thể 100% kết luận các chiến dịch quảng cáo sẽ làm tăng doanh thu mà phải thực hiện kiểm định hay lập phương trình hồi quy. Hay giả sử nếu thông kiểm định, giả thuyết doanh thu và chiến dịch quảng cáo có mối quan hệ thuận chiều bị bác bỏ, chúng ta vội vàng cho rằng chiến dịch quảng cáo không hiệu quả, không làm tăng doanh thu và loại bỏ phương pháp marketing này, không đầu tư nữa.

Đây là sai lầm đáng tiếc ! Chiến dịch quảng cáo Facebook không hiệu suất cao hoàn toàn có thể đến từ nhiều nguyên do khác nhau mà tất cả chúng ta chưa thanh tra rà soát hết, từ chính những thuật toán Facebook tiến hành để tối ưu thưởng thức người dùng cho đến những nội dung quảng cáo không thực sự lôi cuốn hay phù hợp với người dùng .
Nói tóm lại, tác dụng của chiêu thức kiểm định chỉ nên là thông tin tìm hiểu thêm chứ không phải yếu tố then chốt để tất cả chúng ta ra quyết định hành động .
Phương pháp kiểm định trong Simple linear regression
Khi triển khai nghiên cứu và phân tích hồi quy, và thiết lập phương trình hồi quy, tất cả chúng ta sẽ đưa ra những giả định phù hợp về mối quan hệ giữa 2 biến nhờ vào và độc lập, và những giả định này sẽ dựa trên phương trình tổng quát :
Phương pháp bình phương bé nhất sẽ cho tất cả chúng ta thống kê giám sát được những giá trị b0 và b1, những giá trị này sẽ được dùng để ước đạt cho β0 và β1. Kết quả tất cả chúng ta sẽ có được phương trình hồi quy ước đạt :

Chúng ta có hệ số xác định r2 (Coefficient of Determination) để đánh giá mức độ phù hợp của mô hình hay phương trình trong việc giải thích mối quan hệ giữa x và y.

( SST biểu lộ hàng loạt phần biến thiên của những giá trị y so với trung bình của nó. SSR biểu lộ phần chênh lệch giữa giá trị dự báo so với trung bình, được hiểu là sự biến thiên của y mà tất cả chúng ta hoàn toàn có thể lý giải được bằng biến x, và SSE là bộc lộ phần chênh lệch giữa giá trị trong thực tiễn và giá trị dự báo, không hề lý giải được nguyên do )
Tuy nhiên mặc dầu thông số xác lập có lớn như thế nào thì tất cả chúng ta không hề lấy phương trình hồi quy ước lượng để dùng cho chính phương trình hồi quy tổng quát, tất cả chúng ta phải triển khai nhiều giải pháp khác nhau để nhìn nhận chi tiết cụ thể hơn mức độ phù hợp, trong đó có chiêu thức kiểm định. Phương pháp kiểm định so với nghiên cứu và phân tích hồi quy phải dựa trên những giả định về sai số ε của phương trình hồi quy tổng quát. Nhắc lại, ε là sai số, bộc lộ giá trị của những yếu tố khác không hề điều tra và nghiên cứu hết và những yếu tố này vẫn tác động ảnh hưởng lên giá trị của y .

  • ε là một biến ngẫu nhiên có phân phối chuẩn với trung bình và giá trị kỳ vọng bằng 0: E(ε) = 0
  • ε có phương sai ký hiệu σ2 bằng nhau với mọi giá trị x.
  • Các giá trị ε là độc lập, không có mối quan hệ với nhau

Trong phương trình hồi quy tuyến tính đơn thuần, giá trị trung bình hay giá trị kỳ vọng của y phụ thuộc vào x sẽ là : E ( y ) = β0 + β1x. Nếu β1 = 0, E ( y ) = β0 lúc này y không có quan hệ tuyến tính với biến x, ngược lại với β1 khác 0. Chúng ta phải thực thi kiểm định để kiểm tra xem liệu thông số β1 có khác 0 hay không. Có 2 giải pháp kiểm định chính đó là kiểm định t và kiểm định F, cả 2 đều dựa trên việc ước đạt phương sai σ2 của sai số ε. Để uớc lượng phương sai σ2 của sai số ε, tất cả chúng ta sẽ sử dụng giá trị SSE, phần chênh lệch giữa giá trị thực tiễn và giá trị dự báo, không hề lý giải được nguyên do, tức ở đây tất cả chúng ta sẽ thống kê giám sát tổng chênh lệch bình phương giữa giá trị trong thực tiễn và giá trị dự báo. Giá trị ước đạt σ2 của sai số ε sẽ bằng SSE chia cho n – 2 là bậc tự do, được gọi là s2 hay se2 .

Giá trị ước lượng sau khi tính toán còn được gọi là MSE (Mean Square Error) – trung bình bình phương sai số dự báo, đây còn được coi là thước đo trong việc đánh giá mô hình hồi quy có hiệu quả trong việc dự báo hay không. Công thức tổng quát sau cùng:

Tiếp theo tất cả chúng ta sẽ tính sai số chuẩn của sai số ε ( standard error of the estimate ) bằng cách khai căn bậc 2 của phương sai được ước đạt :

Chúng ta đi vào phương pháp kiểm định đầu tiên. t – test, kiểm định t Chúng ta có thể đặt các giả thuyết như sau, tùy theo mục đích kiểm định:

H0 : β1 = 0 H0 : β1 ≤ 0 H0 : β1 ≥ 0
H1 : β1 ≠ 0 H1 : β1 > 0 H1 : β1 < 0 Tuy nhiên để kiểm định cho giá trị β1 cho tổng thể và toàn diện tất cả chúng ta phải dựa vào giá trị b1 tìm được từ bộ tài liệu mẫu, do đó tất cả chúng ta phải xem xét phân phối mẫu của b1 có đủ điều kiện kèm theo để thực thi kiểm định hay không. Phân phối mẫu của b1 có những đặc thù như sau :

  • Giá trị kỳ vọng E(b1) = β1
  • Độ lệch chuẩn:

  • Phân phối của mẫu thuộc dạng phân phối chuẩn

Như vậy ở đầu cuối tất cả chúng ta có công thức tổng quát của giá trị kiểm định t như sau :
Nguyên tắc bác bỏ H0 : Với kiểm định 2 phía : H0 : β1 = 0 được bác bỏ khi trị tuyệt đối của t lớn hơn t tra bảng ( tα / 2, n-2 ) Với kiểm định bên phải : H0 : β1 ≤ 0 được bác bỏ khi giá trị t dương lớn hơn giá trị dương của t tra bảng ( tα, n-2 )

Với kiểm định bên trái: H0: β1 ≥ 0 được bác bỏ khi giá trị t < giá trị âm của t tra bảng (tα, n-2) Nếu xét trên giá trị p-value, bác bỏ H0 khi p-value < α. (p-value là mức ý nghĩa nhỏ nhất mà tại đó H0 bị bác bỏ). Chúng ta cùng đi qua dạng kiểm định thứ 2 Ftest, kiểm định F

Tương tự như kiểm định t, kiểm định F, dựa trên phân phối F – một dạng phân phối Tỷ Lệ, cũng sẽ xác lập bác bỏ hay không bác bỏ giả thuyết H0 : β1 = 0. Tuy nhiên khác với kiểm định t, kiểm định F hoàn toàn có thể Tóm lại có hay không có mối quan hệ tuyến tính giữa một biến phụ thuộc vào y và nhiều biến độc lập x một cách tổng quát .
Chúng tôi sẽ trình diễn trường hợp này kỹ hơn trong bài viết sắp tới về Hồi quy tuyến tính đa biến ( bội ) .

Multiple linear regression, còn trong bài viết này chúng ta chỉ quan tâm trường hợp một biến x mà thôi. Kiểm định F ngoài sử dụng MSE, ước lượng phương sai của sai số, mà còn sử dụng thêm.

MSR(mean square regression) được tính bằng cách lấy SSR chia cho bậc tự do của phương trình hồi quy, là số biến độc lập có trong phương trình, ở đây chúng ta chỉ có 1 biến x nên bậc tự so bằng 1. MSR chính là giá trị ước lượng phương sai σ2 dựa trên SSR.

Lưu ý, kiểm định F cho hệ số hồi quy β1 chủ yếu là kiểm định 1 phía, sử dụng mức ý nghĩa α cho trước. Công thức tổng quát của giá trị kiểm định F là:

Cơ sở bác bỏ H0 :

  • p – value nhỏ hơn mức ý nghĩa α
  • giá trị F tính được phải lớn hơn giá trị F tra bảng phân phối F (với bậc tự do thứ nhất là 1 ở hàng trên cùng, và bậc tự do thứ hai là n – 2 ở cột ngoài cùng, α ở cột thứ 2 tính từ cột ngoài cùng)

Chúng ta có bảng ANOVA ( nghiên cứu và phân tích phương sai ) tổng quát như sau .

Phương pháp phân tích phương sai (Analysis of Variance) chúng tôi sẽ trình bày ở những bài viết sắp tới, cũng lưu ý thêm kiểm định F là phương pháp phân tích ANOVA để tìm hiểu mối quan hệ giữa 2 biến x và y dựa trên phương trình hồi quy.

Triển khai kiểm đinh t và kiểm định F cho ví dụ đơn cử
Chúng ta lấy lại ví dụ thứ 2 của bài viết trước để thực thi kiểm định. Giá sử một chuỗi shop gà rán có 10 shop nằm tại những Q. khác nhau trên thành phố Hồ Chí Minh, tại từng khu vực của từng shop sẽ có số lượng học viên, sinh viên sinh sống và học tập, chuỗi shop này muốn biết rằng lệch giá của từng shop có mối liên hệ nào với số lượng học viên, sinh viên này không ( dựa trên tài liệu lệch giá trung bình theo quý của mỗi shop, và tài liệu thống kê về số lượng học viên, sinh viên )
Gọi x là số lượng HS, SV, y là lệch giá, là biến tiềm năng dự báo, tất cả chúng ta sẽ sử dụng công thức tính bo và b1 để lập phương trình, tất cả chúng ta tính được trung bình x : TBx = 14000, trung bình của y : TBy = 66100 Với b1 = 2.57. Với số lượng HS, SV tăng 1000 thì lệch giá của 1 shop sẽ tăng 2570000 VND, và b0 = 30064. ( Cách đo lường và thống kê những thông số hồi quy và lập phương trình những bạn vui vẻ xem lại bài viết trước ) Chúng ta có phương trình hồi quy tuyến tính đơn thuần : Y ^ = 2.57 X + 30064 .
Chúng ta thay từng giá trị x vào phương trình mới tìm được để tính giá trị Y ^ dự báo, sau đó tính SSE, SSR dựa trên Y ^ .

Đặt giả thuyết :
H0 : β1 = 0 : Không có mối quan hệ giữa số HS, SV và lệch giá mỗi shop
H1 : β1 ≠ 0 Có mối quan hệ giữa số HS, SV và lệch giá mỗi shop
Các bạn vận dụng trình tự theo công thức chúng tôi trình diễn ở trên .
Kiểm định t : S = căn bậc 2 ( SSE / n – 2 ) = căn bậc 2 ( 263794372.4 / 8 ) = 5742.3 Sb = S / ( căn bậc 2 của Sx ) = 5742.3 / ( căn bậc 2 ( 568000000 ) ) = 0.24 t = b / Sb = 2.57 / 0.24 = 10.7
t tra bảng với mức ý nghĩa α = 5 %, bậc tự do là 8, tα / 2,8 = 2.306
Như vậy với t > tα / 2,8, tất cả chúng ta bác bỏ giả thuyết H0, tức có mối quan hệ giữa 2 biến số lượng học viên sinh viên trong khu vực và lệch giá của mỗi nhà hàng quán ăn trong khu vực ấy. Tương tự giá trị p-value = 0.000005 tính được nhỏ hơn rất nhiều so với mức ý nghĩa, nên tất cả chúng ta bác bỏ H0 .
Các bạn hoàn toàn có thể dùng hàm T.DIST trong excel để tìm p-value. Còn với kiểm định F : MSE = SSE / ( n – 2 ) = 263794372.4 / 8 = 32974295.77 MSR = SSR / 1 = 3763105640 F = MSR / MSE = 114 F tra bảng với mức ý nghĩa 5 %, Fα, 1,8 = 5.32 F > Fα, 1,8, tất cả chúng ta bác bỏ H0 và Kết luận tựa như như trên. Bảng ANOVA có được :

Significance F là p-value, các bạn cũng có thể sử dụng hàm F.DIST trong excel để tính.

Các triết lý trong bài viết được tìm hiểu thêm và kiểm chứng từ những tài liệu quốc tế về nghành nghề dịch vụ thống kê Statistics : The Art and Science of Learning from Data ” ( 4 th Global Edition 2018 ) của nhà xuất bản Pearson, “ Basic Statistics for Business and Economics ” ( 9 th Edition 2019 ) của nhà xuất bản Mc Graw Hill, “ Statistics for Business and Economics ” ( 13 th Edition 2017 ) của Cengage Learning )

Như vậy chúng ta đã tìm hiểu xong các phương pháp kiểm định trong hồi quy tuyến tính đơn giản. Ở bài viết tới chúng ta sẽ đi vào tìm hiểu mô hình hồi quy tuyến tính đa biến – Multiple linear regression. Mong các bạn tiếp tục ủng hộ BigDataUni.

Về chúng tôi, công ty BigDataUni với chuyên môn và kinh nghiệm trong lĩnh vực khai thác dữ liệu sẵn sàng hỗ trợ các công ty đối tác trong việc xây dựng và quản lý hệ thống dữ liệu một cách hợp lý, tối ưu nhất để hỗ trợ cho việc phân tích, khai thác dữ liệu và đưa ra các giải pháp. Các dịch vụ của chúng tôi bao gồm “Tư vấn và xây dựng hệ thống dữ liệu”, “Khai thác dữ liệu dựa trên các mô hình thuật toán”, “Xây dựng các chiến lược phát triển thị trường, chiến lược cạnh tranh”.

Các bài viết liên quan

Viết một bình luận