חריגים: המקום שבו מדע הנתונים פוגש סיפורי הצלחה
מדע הנתונים הפך את הפרדיגמה: חריגים אינם עוד "טעויות שיש לבטל" אלא מידע בעל ערך שיש להבין. חריג בודד יכול לעוות לחלוטין מודל רגרסיה לינארית - שינוי השיפוע מ-2 ל-10 - אך ביטולו עלול לגרום לאובדן האות החשוב ביותר במערך הנתונים. למידת מכונה מציגה כלים מתוחכמים: Isolation Forest מבודד חריגים על ידי בניית עצי החלטה אקראיים, Local Outlier Factor מנתח צפיפות מקומית, ואוטואנקודרים משחזרים נתונים רגילים ומסמנים את מה שהם לא מצליחים לשחזר. ישנם חריגים גלובליים (טמפרטורה -10°C באזורים הטרופיים), חריגים הקשריים (הוצאה של 1,000 אירו בשכונה ענייה) וחריגים קולקטיביים (שיאים מסונכרנים בתעבורת הרשת המצביעים על התקפה). הקבלה עם גלדוול: "כלל 10,000 השעות" שנוי במחלוקת - פול מקרטני אמר, "קבוצות רבות עשו 10,000 שעות בהמבורג ללא הצלחה; התיאוריה אינה חסינת תקלות". הצלחה מתמטית אסייתית אינה גנטית אלא תרבותית: מערכת המספרים האינטואיטיבית יותר של סין, גידול אורז דורש שיפור מתמיד לעומת התרחבות טריטוריאלית של החקלאות המערבית. יישומים בעולם האמיתי: בנקים בבריטניה מפצים 18% מההפסדים הפוטנציאליים באמצעות זיהוי אנומליות בזמן אמת, ייצור מזהה פגמים מיקרוסקופיים שבדיקה אנושית הייתה מפספסת, שירותי בריאות מאמתים נתוני ניסויים קליניים עם רגישות של 85%+ לזיהוי אנומליות. לקח אחרון: ככל שמדע הנתונים עובר מסילוק חריגים להבנתם, עלינו לראות קריירות לא קונבנציונליות לא כאנומליות שיש לתקן אלא כמסלולים בעלי ערך שיש לחקור.