CÁCH TÍNH HIỆP PHƯƠNG SAI

     

Làm câu hỏi với những biến trong phân tích dữ liệu luôn đặt ra câu hỏi: những biến phụ thuộc, links và biến đổi với nhau như vậy nào? những biện pháp hiệp phương sai cùng hệ số đối sánh tuyến tính giúp tùy chỉnh cấu hình điều này.

Bạn đang xem: Cách tính hiệp phương sai

Đang xem: phương pháp tính hiệp phương sai

Hiệp phương sai mang về sự biến hóa giữa những biến. Họ sử dụng hiệp phương không đúng để giám sát mức độ hai biến biến hóa với nhau.Hệ số tương quan tuyến tính bật mý mối quan hệ giữa các biến. Bọn họ sử dụng mối đối sánh tương quan để xác minh mức độ liên kết nghiêm ngặt của hai biến hóa với nhau.

Phương không nên và tương quan – Nói một cách đối chọi giản

Cả hiệp phương không nên và đối sánh tương quan là hai quan niệm trong nghành nghề xác suất thống kê, đều nói tới mối quan hệ giới tính giữa các biến. Hiệp phương sai khẳng định mối liên kết có phía giữa các biến. Cực hiếm hiệp phương sai nằm trong vòng từ−∞ đến +∞ trong số ấy giá trị dương biểu lộ rằng cả nhì biến vận động theo cùng 1 hướng và cực hiếm âm bộc lộ rằng cả hai biến vận động ngược chiều nhau.

Tương quan là 1 trong những thước đo thống kê lại được tiêu chuẩn hóa biểu thị mức độ nhưng mà hai biến đổi có liên quan tuyến tính với nhau (nghĩa là chúng đổi khác cùng nhau với vận tốc không thay đổi bao nhiêu). Độ dạn dĩ và sự kết hợp định hướng của quan hệ giữa hai trở thành được khẳng định theo mối đối sánh và nó nằm trong tầm từ -1 mang lại +1. Giống như như hiệp phương sai, quý hiếm dương biểu hiện rằng cả nhị biến hoạt động theo và một hướng trong lúc giá trị âm cho bọn họ biết rằng chúng di chuyển theo những hướng ngược nhau.

Cả hiệp phương không nên và đối sánh đều là hầu hết công cụ quan trọng được sử dụng trong câu hỏi thăm dò tài liệu để lựa chọn đối tượng người dùng địa lý và phân tích đa biến.Ví dụ, một nhà chi tiêu đang tìm giải pháp phân tán khủng hoảng của danh mục đầu tư chi tiêu có thể search kiếm các cổ phiếu bao gồm hiệp phương không đúng cao, vì chưng điều đó cho thấy thêm giá của bọn chúng tăng và một lúc. Mặc dù nhiên, chỉ riêng biệt một hoạt động tương tự là không đủ.Sau đó, nhà đầu tư sẽ áp dụng số liệu tương quan để xác minh mức độ liên kết ngặt nghèo giữa các giá cp đó cùng với nhau.

Xem thêm: Tổng Hợp Các Cách Kết Bài Của Chuyện Chức Phán Sự Đền Tản Viên

Thiết lập mang lại code Python – truy tìm xuất tài liệu mẫu

Hãy xem tập dữ liệu, bên trên đó shop chúng tôi sẽ triển khai phân tích:

*

chúng ta lựa chọn hai cột nhằm phân tích – sepal_length cùng sepal_width.Trong một tệp Python bắt đầu (có thể khắc tên nó là covariance_correlation.py), hãy bước đầu bằng giải pháp tạo hai danh sách với những giá trị mang lại thuộc tính sepal_length cùng sepal_width của flower:

with open(“iris_setosa.csv”,”r”) as f: g=f.readlines() # Each line is split based on commas, và the các mục of floats are formed sep_length = ) for x in g> sep_width = ) for x in g>Trong khoa học dữ liệu, nó luôn luôn giúp trực quan tiền hóa dữ liệu bạn đang làm cho việc. Đây là biểu vật dụng hồi quy Seaborn (Biểu thứ phân tán + tương xứng hồi quy tuyến đường tính) của các thuộc tính setosa này trên những trục khác nhau:

*

Về mặt trực quan, các điểm dữ liệu bên cạnh đó có mối đối sánh cao gần với con đường hồi quy. Hãy coi liệu những quan ngay cạnh của bọn họ có khớp với những giá trị hiệp phương sai và tương quan của bọn chúng hay không.

Tính toán hiệp phương sai trong Python
Công thức sau đây tính hiệp phương sai:

*

Trong bí quyết trên,

xi, yi – are individual elements of the x & y seriesx̄, y̅ – are the mathematical means of the x & y seriesN – is the number of elements in the series

Mẫu số là N đối với tổng thể tập tài liệu và N – 1 đối với mẫu. Do tập tài liệu của chúng ta là một mẫu bé dại của tổng thể tập tài liệu Iris nên họ sử dụng N – 1.

def covariance(x, y): # Finding the mean of the series x & y mean_x = sum(x)/float(len(x)) mean_y = sum(y)/float(len(y)) # Subtracting mean from the individual elements sub_x = sub_y = numerator = sum(*sub_y for i in range(len(sub_x))>) denominator = len(x)-1 cov = numerator/denominator return covwith open(“iris_setosa.csv”, “r”) as f: … cov_func = covariance(sep_length, sep_width) print(“Covariance from the custom function:”, cov_func)Đầu tiên chúng ta tìm các giá trị trung bình của bộ dữ liệu. Sau đó, bọn họ sử dụng kỹ năng hiểu danh sách để lặp lại mọi bộ phận trong nhị chuỗi tài liệu của chúng ta và trừ cực hiếm của chúng mang đến giá trị trung bình.

Xem thêm: Luyện Từ Và Câu Trang 167 Lớp 4 Tập 1, Câu Kể Ai Làm Gì

Sau đó, chúng ta sử dụng những giá trị trung gian đó của hai chuỗi “và nhân bọn chúng với nhau vào một phương pháp hiểu danh sách khác. Bọn họ tính tổng hiệu quả của list đó và tàng trữ nó bên dưới dạng tử số. Chủng loại số dễ dãi hơn rất nhiều để tính toán, hãy nhớ bóc tách nó đi 1 khi bạn đang kiếm tìm hiệp phương sai cho tài liệu mẫu!

Sau đó, chúng ta trả về giá trị khi tử số được chia cho chủng loại số của nó, điều này dẫn đến hiệp phương sai.Ta được kết quả

Tính toán hệ số đối sánh tương quan trong Python

Để thể hiện quan hệ giữa 2 trở thành là “mạnh” tuyệt “yếu”, chúng ta sử dụng correlation vắt cho covariance.

*

xi, yi – are individual elements of the x và y seriesThe numerator corresponds khổng lồ the covarianceThe denominators correspond to lớn the individual standard deviations of x và y

def correlation(x, y): # Finding the mean of the series x và y mean_x = sum(x)/float(len(x)) mean_y = sum(y)/float(len(y)) # Subtracting mean from the individual elements sub_x = sub_y = # covariance for x and y numerator = sum(*sub_y for i in range(len(sub_x))>) # Standard Deviation of x & y std_deviation_x = sum(**2.0 for i in range(len(sub_x))>) std_deviation_y = sum(**2.0 for i in range(len(sub_y))>) # squaring by 0.5 to find the square root denominator = (std_deviation_x*std_deviation_y)**0.5 # short but equivalent khổng lồ (std_deviation_x**0.5) * (std_deviation_y**0.5) cor = numerator/denominator return corwith open(“iris_setosa.csv”, “r”) as f: … cor_func = correlation(sep_length, sep_width) print(“Correlation from the custom function:”, cor_func)Vì quý giá này buộc phải hiệp phương không nên của nhị biến phải hàm khá nhiều lần tính ra quý hiếm đó. Khi hiệp phương không đúng được tính, chúng ta tính độ lệch chuẩn cho từng biến. Tự đó, mối tương quan chỉ đơn giản và dễ dàng là phân chia hiệp phương không nên với phép nhân các bình phương của độ lệch chuẩn.Chạy mã này, bọn họ nhận được hiệu quả sau, xác thực rằng các thuộc tính này còn có mối quan hệ nam nữ dương (dấu của giá trị, hoặc +, – hoặc none nếu như 0) và bạo phổi (giá trị gần bởi 1):