קורלציה היא אחד הכלים הבסיסיים והחשובים ביותר בסטטיסטיקה, שמאפשר לנו למדוד את העוצמה והכיוון של הקשר בין שני משתנים או יותר. אבל מעבר למספר שהיא מייצרת, מה בדיוק הקורלציה אומרת לנו על המציאות? איך אפשר להבדיל בין קשר סטטיסטי לקשר סיבתי? ואילו שיטות קיימות למדידת קשרים מורכבים בין נתונים? המדריך הבא הוא בדיוק מה שצריך כדי להבין לעומק את המושג הזה וגם את ההקשרים השונים שלו ביום יום. קריאה מהנה!
מהי קורלציה בסטטיסטיקה?
קורלציה (או בעברית: מִתְאָם) היא מושג סטטיסטי המודד את עוצמת ואופי הקשר בין שני משתנים. במילים אחרות – היא מראה לנו האם וכמה שני דברים "זזים ביחד". חשוב להבין שהקורלציה לא רק מצביעה על קיום קשר, אלא גם מכמתת את עוצמתו בערך מספרי. המספר הזה, הנקרא מקדם הקורלציה, נע בין מינוס 1 לפלוס 1, כאשר כל ערך מספר לנו משהו שונה על טבע הקשר. ערך של פלוס 1 מצביע על קורלציה חיובית מושלמת, כלומר כשמשתנה אחד עולה, השני עולה איתו באופן מדויק וחזוי לחלוטין. לעומת זאת, ערך של מינוס 1 מעיד על קורלציה שלילית מושלמת, שבה עלייה במשתנה אחד גורמת לירידה מדויקת ועקבית במשתנה השני. ערך של 0 מראה שאין קשר לינארי בין המשתנים, כלומר השינויים באחד מהם לא קשורים באופן ישיר לשינויים בשני.
סוגי הקורלציה העיקריים
קורלציה חיובית
קורלציה חיובית מתקיימת כאשר שני משתנים נעים באותו כיוון. למשל, ככל שאנחנו מתאמנים יותר, כך השרירים שלנו חזקים יותר. דוגמה מוכרת בחינוך – ככל שהסטודנטים מקדישים יותר שעות ללימודים, כך הציונים שלהם גבוהים יותר (בדרך כלל).
קורלציה שלילית
קורלציה שלילית קיימת כאשר עלייה במשתנה אחד מקושרת לירידה במשתנה השני. הינה דוגמה מעניינת מעולם העסקים: מחירי הנפט וביצועי המניות החברות התעופה. ואיך זה בא לידי ביטוי בפועל? כשמחירי הנפט עולים, מניות חברות התעופה בדרך כלל יורדות, כי עלויות הדלק מהוות חלק משמעותי מההוצאות שלהן. התופעה הזו באה לידי ביטוי ישירות ברווח למניה של החברות האלה – עלייה במחירי הדלק פוגעת ברווחיות ולכן גם בתוצאות הפיננסיות שמדווחות למשקיעים.
אפס קורלציה
כאשר אין קשר לינארי בין שני המשתנים, אנחנו מדברים על אפס קורלציה או היעדר קורלציה. דוגמה טובה לאפס קורלציה: מספר הנעליים של תלמיד וציון במבחן מתמטיקה – אין שום סיבה שהם יהיו קשורים זה לזה. בעולם ההשקעות, סוגי משקיעים שונים מחפשים דווקא נכסים עם אפס קורלציה ביניהם, כיוון שזה מאפשר פיזור סיכונים אפקטיבי – כשנכס אחד יורד, השני נשאר יציב ולא מושפע באופן צפוי.
מקדמי הקורלציה החשובים ביותר
מקדם המתאם של פירסון
מקדם המתאם של פירסון הוא המדד הנפוץ ביותר למדידת קורלציה. הוא מודד את החוזק של הקשר הלינארי בין שני משתנים רציפים, ומתאים במיוחד כאשר הנתונים מתפלגים בקירוב לפי התפלגות נורמלית והקשר בין המשתנים הוא לינארי. למשל, נניח שמנהל קרן כספית בוחן את הקשר בין גובה של אנשים למשקל שלהם במחקר בריאות שהוא מממן. במקרה הזה, מקדם פירסון יעזור לו למדוד עד כמה השניים קשורים באופן לינארי – כלומר, האם ככל שמישהו גבוה יותר, הוא גם שוקל יותר באופן עקבי.
מקדם המתאם של ספירמן
מקדם המתאם של ספירמן הוא גרסה לא-פרמטרית של מקדם פירסון. במקום להשתמש בערכים עצמם, הוא עובד עם הדירוגים של הערכים, מה שהופך אותו לעמיד יותר לנקודות קיצון ולהפרות של הנחת הנורמליות. דוגמה פשוטה: נניח שאנחנו בוחנים את הקשר בין דירוג סטודנטים במבחן מתמטיקה לדירוג שלהם במבחן פיזיקה. במקום להסתכל על הציונים המדויקים (85, 92, 78…), ספירמן מסתכל על המיקום בדירוג – מי ראשון, שני, שלישי וכן הלאה. אז אם הסטודנט שהיה ראשון במתמטיקה גם ראשון בפיזיקה, השני במתמטיקה גם שני בפיזיקה וכו', נקבל קורלציה חזקה.
קורלציה מול סיבתיות – הבדל קריטי
"קורלציה אינה מעידה על סיבתיות" הוא אחד הכללים החשובים ביותר בסטטיסטיקה. קורלציה מראה רק שיש קשר בין משתנים, אבל לא מסבירה את הסיבה לקשר זה. כאשר אנחנו מוצאים קורלציה בין שני משתנים, כפי שקורה לא אחת במסגרת לימודי שוק ההון, יש כמה הסברים אפשריים למה שאנחנו רואים. הראשון הוא קשר סיבתי ישיר, שבו משתנה אחד באמת גורם לשני – כמו עישון המגביר את הסיכון לסרטן ריאות. אפשרות שנייה היא קשר סיבתי הפוך, כלומר למעשה המשתנה השני גורם לראשון. האפשרות השלישית היא שגורם חיצוני גורם לשני המשתנים בו זמנית – למשל, טמפרטורות גבוהות מעלות הן את מכירות הגלידה והן את מקרי הטביעה, מה שיוצר קורלציה בין שני הדברים למרות שאין ביניהם קשר ישיר.
שימושים של קורלציה בתחומים שונים
בשוק ההון והכלכלה
כשמדובר בהשקעות, קורלציה היא כלי חיוני לבניית תיק השקעות מאוזן. כשבונים תיק, המטרה היא לכלול נכסים עם קורלציה נמוכה או שלילית ביניהם ולכן מומלץ להכיר את סוגי ההשקעות השונים הזמינים, כדי להקטין את הסיכון הכולל ולמקסם את התשואה הצפויה. זו הסיבה שחשוב להבין את עקרונות השקעה במניות לפני בניית תיק מגוון. למשל, מניות ואג"ח לרוב מציגות קורלציה שלילית – כאשר שוק המניות יורד, אג"ח נוטות לעלות.
במחקר ובמדע
קורלציה היא כלי מחקרי בסיסי ברפואה – חוקרים משתמשים בה כדי לבחון קשרים בין גורמי סיכון למחלות. גם בפסיכולוגיה היא שימושית מאוד – חוקרים בוחנים קורלציות בין תכונות אישיות, התנהגויות ותוצאות חיים, למשל קיימת קורלציה חיובית בין מצפון אישי להצלחה אקדמית ותעסוקתית.
מגבלות וחולשות של ניתוח קורלציה
למרות השימוש הרב בניתוח קורלציה, חשוב להכיר את המגבלות והחולשות שלו כדי להימנע מפרשנויות שגויות. למשל, קורלציה איננה מראה סיבתיות – כפי שהדגמנו קודם, קשר סטטיסטי לא אומר שמשתנה אחד גורם לשני. בנוסף, הניתוח רגיש לערכים קיצוניים, כך שנקודת קיצון אחת יכולה להטות משמעותית את התוצאה ולתת תמונה מעוותת של הקשר האמיתי. מגבלה נוספת היא שמקדם פירסון מודד רק קשרים לינאריים, ולא יזהה קשרים מורכבים או לא-לינאריים שעלולים להיות חשובים. וגם, הניתוח עלול להיות מושפע מהטיות דגימה, כאשר מדגם לא מייצג יכול להוביל למסקנות שגויות על האוכלוסייה הכללית.
סיכום
קורלציה היא כלי רב עוצמה בסטטיסטיקה שמאפשר לנו לכמת את הקשר בין משתנים. היא עוזר לנו להבין את האופן שבו דברים קשורים זה לזה, אבל חשוב להשתמש בה בחוכמה ולהבין את מגבלותיה. בסופו של דבר, המפתח להבנת קורלציה הוא לזכור שהיא מראה קשר, לא סיבתיות, וזה אומר בפועל, שכאשר מוצאים קורלציה, זהו רק צעד ראשון בהבנת הקשר בין משתנים, ולא המילה האחרונה.