האם כותרות סרטים ארוכות מביאות לסרטים טובים יותר?

עם 56 אותיות, 19 הברות ו-11 מילים,ציפורי טרף (והשחרור המופלא של הארלי קווין אחת)מצטרף לשורותבירדמן או (הסגולה הבלתי צפויה של בורות)ובוראט: לימוד תרבות של אמריקה למען תועלת האומה המפוארת של קזחסטןבדברי הימים של כותרות סרטים ארוכים. המסע להחזרת דמותו של הארלי דרש בבירור תואר ששונה באותה מידה מ-12 אותיות, ארבע הברות, שתי מיליםיחידת המתאבדיםכפי שיכול להיות.

חוץ מזה להיות מלאי פה,בירדמן או (הסגולה הבלתי צפויה של בורות)ובוראט: לימוד תרבות של אמריקה למען תועלת האומה המפוארת של קזחסטןבמקרה יש גם דירוגים קריטיים גבוהים, שניהם עומדים על 91% "טריים" בצובר הביקורות Rotten Tomatoes. בהשוואה לשטופים אחרונים כמוחתוליםודוליטל, שמתהדרים בתארים מטורפים של מילה אחת ובניקודים איומים של Rotten Tomatoes, השמות המדיניים האלה נראים מעידים על ייחוס קולנועי גבוה יותר.

האם יתכן שבהשוואה לעמיתיהם הפחות מילוליים, סרטים עם כותרות ארוכות פשוט... טובים יותר? עושהציפורי טרף (והשחרור המופלא של הארלי קווין אחת)יש לך שלב קריטי בתחרות סרטי גיבורי העל, רק על ידי הוספת הברות על הפוסטר שלה?

הודות לקסם הסטטיסטיקה, יש דרך לבדוק את ההשערה. אנחנו הולכים להוכיח - עם מתמטיקה! - האם סרטים עם כותרות ארוכות יותר טובים או לא.

טעם הסרט הוא סובייקטיבי, אבל נשתמש בציוני המבקרים של Rotten Tomatoes כברומטר להצבת כמה סמנים כמותיים על הרעיון של "סרט טוב". יתר על כן, הבה נבהיר את כלל הזהב של הסטטיסטיקה: מתאם אינו מרמז על סיבתיות. נניח שהתזה שלנו נכונה, ואנו מוצאים מגמה בין ציונים קריטיים לסרטים עם כותרות ארוכות. זה לא אומר בהכרח שאחד גורם לשני, אלא שהם חולקים מערכת יחסים חזקה שיכולה להיות מושפעת ממגוון רחב של גורמים (סרטים עם כותרות ארוכות ויומרניות עשויים לאהוב אנשים ארוכים ויומרנים, למשל). ובכל זאת, אם אכן יש קשר בין אורך הכותרת לבין ניקוד קריטי, נוכל לקבל הוכחה קונקרטית למהבירדמן או (הסגולה הבלתי צפויה של בורות)התקבל כל כך טוב.

אפשר להניח מסורק את רשימת 100 הסרטים המובילים של Rotten Tomatoes בכל הזמניםשכותרים קצרים יותר משחקים טוב יותר עבור המבקרים, כשבערך 50% מהכותרים מסתפקים במילה אחת או שתיים. אבל זכור כי 52% מההסרטים הגרועים ביותר על Rotten Tomatoesהם גם מילים של אחת עד שתיים. בנוסף, רשימות הסרטים הטובות והגרועות אינן אומרות לנו דבר על הסרטים שהם רעים-אבל-לא-רעים או טובים-אבל-לא-טובים מדי - אנחנו צריכים לקבל מדגם מלא של סרטים מכל עבר את סולם האיכות כדי לראות אם אכן יש מגמה.

חשיבותה של אקראיות

מחקרים סטטיסטיים חזקים משלבים אקראיות על מנת למנוע הטיה לא מודעת. מכיוון שהתזה שלי עוסקת כסרטים ארוכים יותר טובים יותר, אני לא יכול פשוט להמשיך ולבחור סרטים קצרים גרועים כדי למלא את הסגל שלי. זו תהיה רמאות. וגם אם אני חושב שאני לא עושה את זה כי אני רוצה שהתוצאות שלי ילכו בכיוון אחד, אולי אעשה את זה בלי לחשוב. כאן נכנסת האקראיות.

כדי להשיג אקראיות, השתמשתי ב-aרשימת Letterboxd "רולטת סרטים אקראית".מתוך 7,596 סרטים שאצר המשתמש טוביאס אנדרסן. באמצעות אמחולל מספרים אקראיים,ניווטתי לסרט המיועד ברשימה, הוספתי אותו לגיליון אלקטרוני, ואז חזרתי על התהליך עד שהגעתי ל-100 כותרים. רשימת "רולטת סרטים אקראית" היא נרחבת ואקראית (במיוחד לי, כאדם שלא הגיע אליה), אבל נאלצתי להעביר כמה כותרים שלא היו להם ציוני Rotten Tomatoes. ערכים בולטים שלא הגיעו לקיצוץ כוללים:ה-Gnome-Mobile,Hot Splash,קרב דם, ומנהל הצינוק. סרטים שעשו:מאסטר ומפקד: הצד הרחוק של העולם,מקס הזועם מעבר לת'אנדרדום,חייה הפרטיים של פיפה לי,שֶׁף,טיטוס,דרד, ואבא לונג רגלס.

[כתב ויתור:מכיוון שלא ידעתי את הכותרות שהמחולל האקראי יפרק החוצה, כן רציתי להבטיח שיהיו לפחות שני כותרים ארוכים מאוד ושני כותרים קצרים מאוד, כל אחד מתאים לאיכות סרטים שונה. קלטתי באופן ידניחתולים(רע) ובירדמן או (הסגולה הבלתי צפויה של בורות)(טוב), כמו גםאמדאוס(טוב) וילד בחצר המלך ארתור(רַע).]

מפרקים דברים

קשה לכמת כותרות בלבד, אז פירקתי אותן עוד יותר לפי מספר האותיות, המילים וההברות - מכיוון שיש הבדל ברור ביןחתוליםואמדאוס- למרות שלא ספרתי סוגריים, סימני פיסוק ורווחים בתור תווים. ספרתי גם מספרים כמילה אחת. בסופו של דבר, הייתי משתמש בכל אחד מהפרמטרים הללו (מילים, הברות ואותיות) בגרפים נפרדים, אך עם אותו ניתוח שיחול על כל אחד מהם.

הגיוני הנתונים

לאחר איסוף הנתונים, יצרתי עלילות פיזור פשוטות ב-Google Sheets. [הערת המחבר:לסטטיסטיקאים השואפים שם בחוץ, Microsoft Excel טוב יותר מבחינה אובייקטיבית, אבל Google Sheets הוא בחינם, מותק.] עלילות פיזור הן הלחם והחמאה של ניתוח סטטיסטי. הנקודות הללו מהוות משמעות לכל הנתונים. בעיקרון, עלילות פיזור לוקחות רשימות של מספרים ומעלות אותן בצורה ויזואלית, מה שמאפשר לנו לראות בבירור אם יש קשר אפשרי בין משתנים.

לאורך ציר ה-x, יש לנו את אלמנט הניבוי - במקרה זה אורך הסרט, בין אם הוא מועבר באמצעות מילים, הברות או אותיות. על ציר ה-y, אנו משרטטים את האלמנט המנובא, במקרה זה הציון Rotten Tomatoes. כל נקודה, במקרה זה, מייצגת סרט. למשל, אם רק זממנוחתוליםובירדמן או (הסגולה הבלתי צפויה של בורות)בהתבסס על מספר המילים בכותרת שלהן, נקבל את זה:

תרשים: Petrana Radulovic/Polygon

באופן אידיאלי, על מנת לתמוך בהשערה שלנו, נרצה לקבל שיפוע כלפי מעלה, המייצג מתאם חיובי, כפי שנראה לעיל. שוב, כל נקודה מייצגת סרט; במקרה הזה,חתוליםנמצא בצד שמאל למטה ובירדמן או (הסגולה הבלתי צפויה של בורות)נמצא בצד ימין למעלה. הם משורטטים תוך שימוש במספר המילים בכותרות שלהם בתור קואורדינטת ה-x והציון של Rotten Tomatoes בתור קואורדינטת ה-y.

קו המגמה שנוצר הוא קו ההתאמה הטוב ביותר, כלומר הוא מתאים את עצמו הכי טוב שהוא יכול בתוך כל הנתונים. בדוגמה הפשוטה מדי הזו, הנתונים שלנו הם רק שתי נקודות, כך ששתיהן נופלות עליהן בצורה מסודרת. מקרים אחרים עם פיזור נתונים כאוטי יותר יראו נקודות מעל ומתחת לקו. במקרה שלנו, הקו הוא כלי שיעזור לדמיין מגמות בנתונים, אם יש כאלה.

מכיוון שההשערה שלנו היא שלכותרים ארוכים יותר יש ציונים טובים יותר, אנחנו מחפשים שיפוע כלפי מעלה. שיפוע כלפי מטה, או מתאם שלילי, יתרחש אם כותרות ארוכות יותר מרמזות על סרטים גרועים, כמו למשל אם זממתיאמדאוסוילד בחצר המלך ארתור.

בוא נראה כמה גרפים

עם 100 כותרות סרטים, כל אחת מחולקת לפי אותיות, הברות ומילים, כעת יש לנו את הנתונים שלנו.הכותרות כללושנות ה-56מסביב לעולם ב-80 יום(22 אותיות, שמונה הברות, שש מילים),רכבת אחרונה מגבעת הנשק(20 אותיות, חמש הברות, חמש מילים);שלך, שלי ושלנו(15 אותיות, ארבע הברות, ארבע מילים);אקשן ג'קסון(13 אותיות, ארבע הברות, שתי מילים);ילדה לבנה(תשע אותיות, שתי הברות, שתי מילים); ושל 2017המומיה(שמונה אותיות, שלוש הברות, שתי מילים).

כמו בדוגמה המאוד פשוטה שלנו, בגרפים למטה, כל נקודה מייצגת סרט, כאשר כל ערך x מייצג את אורכו (נקבע על ידי אותיות, הברות או מילים, בהתאם לגרף) וכל ערך y מייצג את הערך המקביל של הסרט מבקרי RT ציון. שלא כמו בדוגמה הפשוטה מאוד, הדברים הופכים קצת יותר פראיים:

תרשים: Petrana Radulovic/Polygon

תרשים: Petrana Radulovic/Polygon

תרשים: Petrana Radulovic/Polygon

זכור את קו המגמה כלפי מעלה ב-חתוליםובירדמן או (הסגולה הבלתי צפויה של בורות)דוּגמָה? בכל אחד מהגרפים שלנו - אותיות, הברות ומילים - קו המגמה מצביע כלפי מעלה בצורה דומה, ומציין את הדפוס לו קיווינו: כותרות ארוכות יותר מרמזות על ציונים טובים יותר. זה לא דרמטי כמו הדוגמה המזוייפת, אבל זההואשָׁם.

האם עשיתי את זה? האם פירקתי את המבקרים המצטברים של Rotten Tomatoes לחיוניות שלהם?

ובכן, לא לגמרי

למרות שאני עורך את המחקר שלי בצורה הנכונה, ויכולתי בהחלט להוציא את התרשימים מהקשרם ולהציג את הממצאים שלי, אני אדם אתי. אני לא יכול רק להטות סטטיסטיקה כדי להוכיח את הטענה שלי. קדימה.

בסטטיסטיקה, יש משתנה המכונה מקדם המתאם,ר, המסמל את החוזק בין שתי קבוצות של משתנים, כגון מספר האותיות בכותרות סרטים וציוני Rotten Tomatoes בהתאמה. המשוואה בפועל מסורבלת (ראה להלן), אבל למרבה המזל, ל-Google Sheets יש פקודה מובנית ([מכחכח גרון]Google Sheets, הפעלקורל) שמייצר anר-ערך כאשר אתה מזין שתי שורות של נתונים. ארשל 1 (או -1 בכיוון השני) פירושו שהקשר חזק מאוד, ואילו anרשל 0 פירושו שהקשר אינו קיים.

תמונה: Data Science Central

משתנה נוסף הנפוץ בסטטיסטיקה הואר2- הר-ערך, אבל בריבוע. סטטיסטיקאים משתמשיםר2לעתים קרובות יותר מאשררלכמת את הקשר בין שני משתנים, שכן זה מבטל את ההיבט השלילי ולכן הוא פחות מבלבל. עם זאת, יש לציין שבהחלט יש מקרים שבהם יש לא-גדולר2(כמו 0.2) שמכסה R מקובל אחרת (0.44).

לאחר חיבור הנתונים דרך הפקודות של Google Sheets שיוצרותרור2, עובדה מתגלה: הן הר-ערך ור2-ערך עבור כל אחד מהגרפים האלה די מבאס.

"מספר מילים נגד עגבניות רקובות" זה הגרוע ביותר, עם עלובר2של 0.006 ו-anרשל .07, שבעצם לא מרמז על שום מתאם. "מספר אותיות לעומת ציון עגבניות רקובות" מתנדנד פנימה עםר2של 0.024 ו-anרשל 0.15. יש ניצוץ קטן וזעיר של תקווה - בעוד הר2עבור הברות הוא 0.04 די פתטי, הרהערך הוא 0.2. זה מאוד מאוד חלש, אבל בגלל ההנחיות ל"מקובל"ר-הערך יכול להשתנות בהתאם לספר הלימוד הספציפי או לפרמטרים שבהם נעשה שימוש (ובהחלט ניתן לתמרן אותם),רערך של 0.2 עדיין יכול להצביע עלכַּמָהסוג של מערכת יחסים.

אתה יודע, אם היינו נואשים ורצינו לטשטש את הנתונים שלנו. מה שאנחנו לא. אבל אני רק אומר - אנחנו יכולים.

למרבה הצער, לפי הסטנדרטים האתיים שלי, אני לא יכול לתמוך בהשערה שלי שסרטים עם כותרות ארוכות יותר נחשבים לטובים יותר בעיני המבקרים. אני יכול אולי לטעון שלכותרות מילוליות יותר, מרובות-הברות יש נטייה חלשה להיות אהובים קריטיים... אבל התרשים הבוהק בספר הסטטיסטיקה שלי להנדסה במכללה של מקובלרערכים היו קוראים לי שקרן ורודפים את החלומות שלי.

לכל הפחות, למדנו כאן משהו היום, ואנחנו יכולים להמשיך לדעת שאם מישהו במסיבה מפוארת מנסה להצביע על כך שמבקרי קולנוע אוהבים כותרים ארוכים, יש לנו הפרכה מיידית ונתמכת.