פרויקט ניתוח נתונים חינם

🦔 און מלצר   📅 מאי 2020

תגיות: ניתוח נתונים , פייתון , SQL , python , מדריך , שאלות למתחילים , שאלות למתקדמים , data analysis , קורס SQL , שאלות לראיון עבודה,  תרגול TSQL, DML , SSMS , SQL SERVER

במאמר הבא נדבר על פרוייקט ניתוח נתונים חינמי עבורכם שתוכלו לתרגל.

בהעדפה יש לפתור את המשימה בעזרת SQL אבל למי שמעוניין ניתן לפתור את אותן בעיות על ידי שימוש בכלים אחריo כמו Excel , Python או כלי BI Front-End כגון PowerBI , Tableau

The Titanic Dataset

הפרויקט הוא חינמי וחופשי

הורידו את הפרויקט והתחילו לפתור !

כל data science מתחיל או כל מי שעבר ב-kaggle פגש את ה- titanic dataset.

קצת רקע , באפריל 1912 , ספינת התענוגות התנגשה בקרחון ולאחר מכן , יש שיגידו אסון , קיבלנו את הסרט טיטניק ואת הפריצה למסך של דקפריו.

ספינת כללה 2,224 אנשי צוות ונוסעים ואת המסע לא שרדו 1,502 מתוכם.

החל מצמיחת נושא ניתוח נתונים  ו- data science בשנים האחרונות , השתמשו במקור המידע הזה כדי לנסות ולחזות מה הן המאפיינים Features שתרמו לסיכויי ההשרדות של הנוסעים. 

למרות שניתוח מקור המידע הזה מוכר, הוספתי לו טוויסט קטן

אז מקור המידע שלנו מכיל

  • 14 עמודות
  • 1,309 רשומות

כל רשומה מייצגת נוסע בספינה.

הסבר על העמודות

מספר סידורי שם עמודה סוג נתונים הסבר
1
pclass
int
מחלקה
2
survived
int
האם שרד? 1 כן, 0 לא.
3
name
string
שם מלא כולל תואר
4
sex
string
מגדר
5
age
double
גיל
6
sibsp
int
כמות אחים\בני זוג בהפלגה. אחים ואחים חורגים , בעל ואיש. ארוסים או פלגשות לא נספרים בעמודה זאת.
7
parch
int
כמות ילדים\הורים בהפלגה.אם , אב, בן, בת, ילדים חורגים. ישנם ילדים בהפליגו עם מטפלת ולכן יופיע עבורם 0.
8
ticket
string
מספר כרטיס
9
fare
double
מחיר כרטיס
10
cabin
string
מספר תא
11
embarked
char(1)
רציף עלייה להפלגה
12
boat
string
מספר סירת הצלה
13
body
int
מספר זיהוי גוף
14
home.dest
string
בית מול יעד
answer = input('do you have a question?...');

if you.haveQuestion(answer):
   | askMe();
else:
   | print('Good Luck!');
   
print('Done!'); 
  1. אין לייצר טבלאות פיזיות ולא להוסיף ,למחוק או לעדכן עמודות,כל עוד לא נאמר במפורש.
  2. כלי עבודה אחד, במידה והחלטתם לבצע בעזרת SQL , יש להשתמש רק ביכולות הכלי לאורך המשימה.
  3. התמודדו לבד! לפני שרצים לחפש תשובות ברשת, נסו, קראו דוקיומנטציה. זכרו, בא בקלות הולך בקלות.
  1. השתדלו להשתמש בסקריפטים , כך תוכלו לשחזר את הפעולות שעשיתם.
  2. השתמשו בהערות המתעדות את הלוגיקה וקבלת ההחלטות שלכם.
  3. תכננו, כשקופצים ראש לעיתים בסוף מגלים שטעינו בהתחלה.
  4. בדקו את עצמכם! בצעו בדיקות סבירות ותקינות של התוצאות שלכם, זה הסקריפט רץ לא אומר שהוא נכון!

כללי המשחק

  1. אין לייצר טבלאות פיזיות ולא להוסיף ,למחוק או לעדכן עמודות,כל עוד לא נאמר במפורש.
  2. כלי עבודה אחד, במידה והחלטתם לבצע בעזרת SQL , יש להשתמש רק ביכולות הכלי לאורך המשימה.
  3. התמודדו לבד! לפני שרצים לחפש תשובות ברשת, נסו, קראו דוקיומנטציה. זכרו, בא בקלות הולך בקלות.

טיפים להצלחה

  1. השתדלו להשתמש בסקריפטים , כך תוכלו לשחזר את הפעולות שעשיתם.
  2. השתמשו בהערות המתעדות את הלוגיקה וקבלת ההחלטות שלכם.
  3. תכננו, כשקופצים ראש לעיתים בסוף מגלים שטעינו בהתחלה.
  4. בדקו את עצמכם! בצעו בדיקות סבירות ותקינות של התוצאות שלכם, זה הסקריפט רץ לא אומר שהוא נכון!

ניקוי וטיוב נתונים data Cleansing

השלב הראשוני הוא הכנת המידע.

כלל אצבע הוא שבערך 80-90% מהזמן מושקע בהכנת המידע לקראת הניתוח.

מתודות עבודה נכונות ופרצדורות מסודרות פותרות חלק עיקרי מבזבוזי הזמן והתקלות מזמן העבודה

משימה 1
הסר את עמודת BODY
משימה 2
הפרד את עמודת NAME לעמודות הבאות:
  • שם פרטי
  • שם משפחה
  • תואר
משימה 3

צרו עמודת PassengerGroup:

  • male – גיל גדול או שווה ל-18.
  • female – גיל גדול או שווה ל-18.
  • child (בן ו-בת) – גיל מתחת ל-18.
  • unknown – גיל לא ידוע.
משימה 4
עדכנו את הערך שנמצא בעמודת embarked:
  • C = Cherbourg
  • Q = Queenstown
  • S = Southampton
משימה 5
עדכנו את הערך שנמצא בעמודת pclass:
  • 1=Upper
  • 2=Middle
  • 3=Low
משימה 6
צרו עמודה חדשה PersonFare , הניחו שמחיר כרטיס מתחלק באופן שווה בין בני משפחה, עבור כל נוסע יש לחשב את המחיר כרטיס עבורו.
משימה 7
צרו עמודה חדשה Deck , יש לזהות את אות הרציף בו נמצא הנוסע לפי מספר החדר שלו.במידה ולא ניתן לזהות את האות, יש לציין unknown.
משימה 8
צרו עמודה חדשה TicketCount המחשבת לכל מספר כרטיס כמה יעדים יחודיים יש בגין הכרטיס.
משימה 9

השלימו יעדים חסרים, במידה ומדובר באותו כרטיס נסיעה ובאחת הרשומות חסר יעד, יש להשלים אותו עם היעד הסמוך לו (1 מעל או 1 מתחת) של נוסע אחר בעל אותו כרטיס.

משימה 10

צור עמודת עזר בשם Dest_REGION , את הערך יש לחץ מעמודת home.dest

  • מכל מחרוזת יש לקחת את החלק שלאחר הפסיק האחרון.
  • במידה ואין פסיק ואין סלאש יש לקחת את המילה במלואה.
  • במידה ויש סלאש / במחרוזת , יש לקחת את החלק האחרון (שלאחר הפסיק) שלאחר הסלאש. למשל בערך “Wimbledon Park, London / Hayling Island, Hants ” ניקח את Hants

ניתוח נתונים data Analysis

אז אחרי שניקינו, הכנו והבנו את המידע הזמן לנתח.

בדרך כלל, הדרישה העסקית נשמעת פשוטה אבל המציאות עולה על הדימיון והיישום דורש לעיתים חשיבה מחוץ לקופסא.

יש לבחון כל תוצאה שמקבלים.

נחלק את המשימות לרמות,

ניתוח נתונים למתחילים

  1. מהו היעד המבוקש ביותר לפי עמודת Dest_REGION ?
  2. האם ישנם בני אותה משפחה עם יעד שונה? (יש להשתמש בשם המשפחה שיצרנו)
  3. הציגו בני אותו שם משפחה שישנו בתאים שונים? (יש להשתמש בשם המשפחה שיצרנו)
  4. הציגו את המשפחה השלישית בגודלה, במידה ויש כמה משפחות באותו הגודל יש להציג את זאת ששילמה מחיר כרטיס הגבוה ביותר.
  5. מה הן 3 השמות הפרטיים הנפוצים ביותר?
  6. מה הן 3 השמות הפרטיים הארוכים ביותר?

100 | במיוחד עבורך!

101 | ראיון עבודה ? נינג’ת נתונים ?

102 | צרו קשר עוד היום לקבלת סיוע הכוונה וליווי אישי לקראת התפקיד הבא שלכם !

103 | dataom.mail@gmail.com

ניתוח נתונים לבעלי ניסיון

  1. הציגו לפי מחלקת נוסעים, את כמות הנוסעים שנסעו לבד ואת היחס שלהם מכלל הנוסעים באותה מחלקה
  2. הציגו לפי רציף ,מחלקה ומגדר את אחוזי ההשרדות
  3. חלקו את הגילאים לקבוצות של עשורים (0-10,10-20…) והציגו לפי מקבץ, מגדר ומחלקה את אחוזי ההשרדות.
  4. הציגו את 5 המשפחות שתפסו הכי הרבה תאי מגורים (יש להשתמש בשם המשפחה שיצרנו בלבד, נא להתעלם ממידע לגבי מקור ויעד)

ניתוח נתונים למתקדמים

משימה 1
This content is for registered users only. Please login.
משימה 2
This content is for registered users only. Please login.
משימה 3
This content is for registered users only. Please login.

סיכום

כדי לנתח נתונים צריכה להיות לנו היכולת לעצב את המידע ולחלץ ממנו את מה שאנחנו צריכים, גם אם זה לא מופיע בדרך שבה היינו רוצים.

מאחל לכולכם הצלחה רבה !

נפגש בפרויקט הבא.

ללמוד ממקצוענים!

רכשו היום את הכלים להצלחה מחר

עוד בוגר שעוקף את המתחרים בעוד...

  • 00דקות
  • 00שניות

המרצה שלך

און מלצר

אני  און מלצר  רואה חשבון, לשעבר ראש צוות ניתוח נתונים וכיום מרצה מוביל לעולם אנליזה ונתונים, פיתוח בינה עסקית ומקצועות ההיי-טק .

אני כאן, כי אני אוהב ללמד , אוהב את האתגר שיש בפתרון בעיות קוד והיופי שנמצא בתוך הנתונים.

יותר מזה ,אני מאמין ויודע שכל אחד יכול ומסוגל לתכנת ולנתח נתונים
וזאת זכות גדולה בשבילי להעביר את הידע


אז למה אתם מחכים? הצטרפו אליי

נגישות