חשב חריגים

מְחַבֵּר: Charles Brown
תאריך הבריאה: 8 פברואר 2021
תאריך עדכון: 1 יולי 2024
Anonim
English Listening Practice. Jaws - Audiobook and Subtitles. Learn English with Audiobooks
וִידֵאוֹ: English Listening Practice. Jaws - Audiobook and Subtitles. Learn English with Audiobooks

תוֹכֶן

א יוצא מהכלל אוֹ יוצא מהכלל בסטטיסטיקה היא נקודת נתונים השונה באופן משמעותי מנקודות הנתונים האחרות במדגם. לעיתים קרובות, חריגים מצביעים על פערים או שגיאות במדידות לסטטיסטיקאים, שלאחריהם הם יכולים להסיר את החריגה ממערכת הנתונים. אם הם אכן בוחרים להסיר את החריגים ממערך הנתונים, זה עשוי לייצר שינויים משמעותיים במסקנות שהוסקו מהמחקר. זו הסיבה שחשוב לחשב ולקבוע חריגים אם ברצונך לפרש נתונים סטטיסטיים כראוי.

לדרוך

  1. למד כיצד לזהות חריגים אפשריים. לפני שנחליט אם להסיר ערכים חריגים מערך נתונים מסוים, עלינו כמובן לזהות תחילה את החריגים האפשריים במערך הנתונים. באופן כללי, חריגים הם נקודות הנתונים החורגות באופן משמעותי מהמגמה היוצרת את הערכים האחרים בקבוצה - במילים אחרות, הם לירות החוצה משאר הערכים. בדרך כלל קל לזהות זאת בטבלאות ו (במיוחד) בגרפים. אם מערך הנתונים מופיע בתרשים חזותי, החריגים יהיו "רחוקים" מהערכים האחרים. לדוגמא, אם מרבית הנקודות במערך הנתונים יוצרות קו ישר, חריגים לא יתאימו לקו זה.
    • בואו נסתכל על מערך נתונים המציג את הטמפרטורות של 12 אובייקטים שונים בחדר. אם הטמפרטורה של 11 מהאובייקטים נעה בכמה מעלות לכל היותר סביב 21 מעלות צלזיוס, בעוד שלחפץ אחד, תנור, יש טמפרטורה של 150 מעלות צלזיוס, תוכלו לראות במבט חטוף שככל הנראה התנור הוא חריג.
  2. מיין את כל נקודות הנתונים מהנמוך לגבוה ביותר. השלב הראשון בחישוב החריגים הוא למצוא את הערך החציוני (או הערך האמצעי) של מערך הנתונים. משימה זו הופכת לקלה בהרבה אם הערכים בערכה מסודרים מהנמוך לגבוה ביותר. אז לפני שתמשיך, מיין את הערכים במערך הנתונים שלך כך.
    • בואו נמשיך בדוגמה שלמעלה. הנה ערכת הנתונים שלנו המציגה את הטמפרטורות במעלות פרנהייט של עצמים שונים בחדר: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. אם אנו ממיינים את הערכים בקבוצה מהנמוך לגבוה ביותר, זה הופך להיות הסט החדש שלנו: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. חשב את החציון של מערך הנתונים. החציון של מערך נתונים הוא נקודת הנתונים שבה מחצית מהנתונים מעליה ומחצית מהנתונים מתחתיה - היא למעשה "מרכז" מערך הנתונים. אם מערך הנתונים מכיל מספר אי זוגי של נקודות, קל למצוא את החציון - החציון הוא הנקודה עם מספר הנקודות למעלה כמו להלן. אם יש מספר נקודות שווה, מכיוון שאין מרכז אחד, עליכם לקחת את הממוצע של שתי נקודות המרכז כדי למצוא את החציון. בעת חישוב חריגים, החציון מתייחס בדרך כלל על ידי המשתנה Q2 - מכיוון שהוא נמצא בין Q1 ל- Q3, הרבעון הראשון והשלישי. נקבע משתנים אלה בהמשך.
    • אל תתבלבלו בין מערכי נתונים עם מספר נקודות שווה - הממוצע של שתי הנקודות האמצעיות הוא לרוב מספר שאינו נמצא במערך הנתונים עצמו - זה בסדר. עם זאת, אם שתי נקודות האמצע זהות, הממוצע יהיה כמובן גם המספר הזה - גם זה בסדר.
    • בדוגמה שלנו יש לנו 12 נקודות. שני המונחים האמצעיים הם נקודות 6 ו -7 - 70 ו -71 בהתאמה. לכן חציון מערך הנתונים שלנו הוא הממוצע של שתי הנקודות הללו: ((70 + 71) / 2) =70,5.
  4. חשב את הרבעון הראשון. נקודה זו, אותה אנו מציינים עם המשתנה Q1, היא נקודת הנתונים שמתחתיה 25 אחוז (או רבע) מהתצפיות. במילים אחרות, זהו מרכז כל הנקודות בערכת הנתונים שלך לְהַלָן החציון. אם יש מספר זוגי של ערכים מתחת לחציון, עליך שוב לקחת את הממוצע של שני הערכים האמצעיים כדי למצוא את Q1, כפי שאולי עשית כדי לקבוע את החציון בעצמך.
    • בדוגמה שלנו שש נקודות הן מעל החציון ושש נקודות מתחתיו. אז כדי למצוא את הרבעון הראשון עלינו לקחת את הממוצע של שתי נקודות האמצע בשש הנקודות התחתונות. הנקודות 3 ו -4 מתוך שש התחתונות הן 70, ולכן הממוצע שלהן הוא ((70 + 70) / 2) =70. אז הערך שלנו לרבעון הראשון הוא 70.
  5. חשב את הרבעון השלישי. נקודה זו, שאותה אנו מציינים עם המשתנה Q3, היא נקודת הנתונים שמעליה 25 אחוז מהנתונים. מציאת Q3 זהה כמעט למציאת Q1, אלא שאנו בוחנים את הנקודות במקרה זה מֵעַל החציון.
    • בהמשך לדוגמה לעיל, אנו רואים ששתי נקודות האמצע של שש הנקודות מעל החציון הן 71 ו -72. הממוצע של שתי הנקודות הללו הוא ((71 + 72) / 2) =71,5. אז הערך שלנו לרבעון השלישי הוא 71.5.
  6. מצא את הטווח הבין-רבעוני. כעת לאחר שקבענו את Q1 ו- Q3 עלינו לחשב את המרחק בין שני המשתנים הללו. תוכלו למצוא את המרחק בין Q1 ל- Q3 על ידי הפחתת Q1 מ- Q3. הערך שאתה מקבל עבור הטווח הבין-רבעוני הוא קריטי לקביעת הגבולות לנקודות שאינן סוטות בערכת הנתונים שלך.
    • בדוגמה שלנו, הערכים עבור Q1 ו- Q3 הם 70 ו- 71.5, בהתאמה. כדי למצוא את הטווח הבין-רבעוני, אנו מחשבים את Q3 - Q1: 71.5 - 70 =1,5.
    • זה עובד גם אם Q1, Q3, או שני המספרים הם שליליים. לדוגמא, אם הערך שלנו עבור Q1 היה -70, הטווח הבין-רבעוני יהיה 71.5 - (-70) = 141.5, וזה נכון.
  7. מצא את "המגבלות הפנימיות" של מערך הנתונים. אתה יכול לזהות חריגים על ידי קביעה אם הם נופלים במספר גבולות מספריים; מה שמכונה "גבולות פנימיים" ו"גבולות חיצוניים ". נקודה החורגת מהגבולות הפנימיים של מערך הנתונים מסווגת כנקודה חריגה קלה, ונקודה מחוץ לגבולות החיצוניים מסווגת כאחת חריגה קיצונית. כדי למצוא את הגבולות הפנימיים של מערך הנתונים שלך, הכפל תחילה את הטווח הבין-רבעוני ב -1.5. הוסף את התוצאה ל- Q3 והחסר אותה מ- Q1. שתי התוצאות הן הגבולות הפנימיים של מערך הנתונים שלך.
    • בדוגמה שלנו, הטווח הבין-רבעוני הוא (71.5 - 70), או 1.5. הכפל זאת ב -1.5 כדי לקבל 2.25. אנו מוסיפים מספר זה ל- Q3 ומחסירים אותו מ- Q1 כדי למצוא את הגבולות הפנימיים באופן הבא:
      • 71,5 + 2,25=73,75
      • 70 - 2,25=67,75
      • אז הגבולות הפנימיים הם 67.75 ו- 73.75.
    • במערכת הנתונים שלנו, רק טמפרטורת התנור - 300 מעלות פרנהייט - נמצאת מחוץ לטווח זה. אז זה עשוי להיות חריג מתון. עם זאת, טרם קבענו אם טמפרטורה זו היא חריגה קיצונית, אז בואו לא נקפוץ למסקנות עדיין.
  8. מצא את "הגבולות החיצוניים" של מערך הנתונים. אתה עושה את זה באותו אופן כמו עם הגבולות הפנימיים, עם ההבדל היחיד שאתה מכפיל את המרחק הבין-רבעוני ב -3 במקום 1.5. לאחר מכן מוסיפים את התוצאה ל- Q3 ומחסירים מ- Q1 כדי למצוא את ערכי הגבול החיצוניים.
    • בדוגמה שלנו, אנו מכפילים את המרחק הבין-רביעי ב- 3 כדי לקבל (1.5 * 3) או 4.5. כעת אנו יכולים למצוא את הגבולות החיצוניים באותו אופן כמו הגבולות הפנימיים:
      • 71,5 + 4,5=76
      • 70 - 4,5=65,5
      • אז הגבולות החיצוניים הם 65.5 ו -76.
    • נקודות נתונים שנמצאות מחוץ לגבולות החיצוניים נחשבות לחריגות קיצוניות. בדוגמה שלנו, טמפרטורת התנור, 300 מעלות פרנהייט, היא הרבה מעבר לגבולות החיצוניים. אז טמפרטורת התנור היא בְּהֶחלֵט חריג קיצוני.
  9. השתמש בהערכה איכותית כדי לקבוע אם עליך "לזרוק" את החריגים. בשיטה הנ"ל תוכלו לקבוע אם נקודות מסוימות הן חריגות קלות, חריגות קיצוניות או ללא חריגות כלל. אבל אל תטעו - הכרת נקודה כזר חורג הופכת אותה רק לאחת מוּעֲמָד להסרה ממערך הנתונים, ולא מיד נקודה שמוסרת צריך להפוך ל. ה סיבה מדוע חריגה שונה משאר הנקודות בערכה יש חשיבות מכרעת לקביעת האם יש להסיר את החריגה. באופן כללי, חריגים הנגרמים משגיאה כלשהי - שגיאה במדידות, בהקלטות או בתכנון הניסוי, למשל - מוסרים. לעומת זאת, חריגים שאינם נגרמים על ידי שגיאות וחושפים מידע או טרנדים חדשים ולא צפויים בדרך כלל לֹא נמחק.
    • קריטריון נוסף שיש לקחת בחשבון הוא האם החריגים משפיעים על הממוצע של מערך הנתונים באופן מוטה או מטעה. זה חשוב במיוחד אם אתה מתכנן להסיק מסקנות מממוצע מערך הנתונים שלך.
    • בואו נשפוט את הדוגמה שלנו. מאז הֲכִי גָבוֹהַ אין זה סביר שהתנור הגיע לטמפרטורה של 300 מעלות צלזיוס בגלל כוח טבע בלתי צפוי כלשהו, ​​בדוגמה שלנו אנו יכולים להסיק כמעט בוודאות של 100% שהתנור הופעל בטעות וגרם לקריאת טמפרטורה גבוהה באופן חריג. בנוסף, אם אנו לא מסירים את החריג, ממוצע מערך הנתונים שלנו יוצא ל (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89.67 ° F, בעוד הממוצע לְלֹא החריג יוצא ל (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70.55 ° F.
      • מכיוון שהמוצר החיצוני נגרם על ידי טעות אנושית, ומכיוון שלא נכון לומר שטמפרטורת החדר הממוצעת הייתה קרובה ל -32 מעלות צלזיוס, עלינו לבחור להשתמש במניין החיצוני שלנו. לְהַסִיר.
  10. להבין את החשיבות של שמירה (לפעמים) על חריגים. אמנם יש להסיר חריגים מסוימים ממערך הנתונים מכיוון שהם תוצאה של שגיאות או משום שהם מטעים את התוצאות בצורה מטעה, אך יש לשמור על חריגים אחרים. למשל, אם הושג כראוי חריגה (ולכן לא תוצאה של טעות) ו / או אם החריגה מציעה תובנה חדשה לגבי התופעה שאותה יש למדוד, אין להסיר אותה באופן מיידי. ניסויים מדעיים הם מצבים רגישים במיוחד בכל הנוגע להתמודדות עם חריגים - בטעות הסרה של חריגה יכולה להיות זריקת מידע חשוב אודות מגמה או גילוי חדשים.
    • לדוגמא, דמיין שאנו מתכננים תרופה חדשה כדי לגרום לדגים בחוות דגים להיות גדולים יותר. בואו להשתמש בערכת הנתונים הישנה שלנו ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), עם ההפרש שכל נקודה מייצגת כעת את מסת הדג (בגרמים ) לאחר טיפול בתרופה ניסיונית אחרת מלידה. במילים אחרות, התרופה הראשונה העניקה לדג אחד מסה של 71 גרם, השנייה נתנה לדג אחר מסה של 70 גרם, וכן הלאה. במצב זה 300 עוֹד חריגה ענקית, אבל אנחנו לא צריכים להסיר אותה עכשיו. מכיוון שאם אנו מניחים שהמייצג אינו תוצאה של שגיאה, הוא מייצג הצלחה רבה בניסוי שלנו. התרופה שהפיקה דג של 300 גרם עבדה טוב יותר מכל תרופה אחרת, אז זהו רוב נקודת נתונים חשובה במערך שלנו, במקום הכי פחות נקודת נתונים חשובה.

טיפים

  • אם אתה מגלה חריגים, נסה להסביר אותם לפני שתסיר אותם ממערך הנתונים; הם יכולים להצביע על שגיאות מדידה או חריגות בהתפלגות.

צרכים

  • מַחשְׁבוֹן