opencodeiiita · ishanrajsingh · Jan 9, 2026
diff --git a/EDA/ishanrajsingh.ipynb b/EDA/ishanrajsingh.ipynb
@@ -0,0 +1,156 @@
+import pandas as pd
+import numpy as np
+import matplotlib.pyplot as plt
+import seaborn as sns
+import warnings
+warnings.filterwarnings('ignore')
+
+sns.set_style("whitegrid")
+plt.rcParams['figure.figsize'] = (10, 6)
+
+df = pd.read_csv('/kaggle/input/titanic/train_and_test2.csv')
+
+print("\n1. FIRST 5 ROWS OF THE DATASET:")
+print(df.head())
+
+print("\n2. DATASET SHAPE:")
+print(f"Rows: {df.shape[0]}, Columns: {df.shape[1]}")
+
+print("\n3. DATASET INFORMATION:")
+print(df.info())
+
+print("\n4. COLUMN NAMES:")
+print(df.columns.tolist())
+
+df.rename(columns={'2urvived': 'Survived'}, inplace=True)
+
+zero_cols = [col for col in df.columns if 'zero' in col.lower()]
+df.drop(zero_cols, axis=1, inplace=True)
+print(f"\nDropped {len(zero_cols)} zero-value columns")
+
+missing_values = df.isnull().sum()
+missing_percent = (df.isnull().sum() / len(df)) * 100
+missing_df = pd.DataFrame({
+    'Missing Count': missing_values,
+    'Percentage': missing_percent
+})
+print("\nMissing Values:")
+print(missing_df[missing_df['Missing Count'] > 0])
+
+df['Embarked'].fillna(df['Embarked'].mode()[0], inplace=True)
+
+print(f"\nCleaned dataset shape: {df.shape}")
+print(f"Remaining columns: {df.columns.tolist()}")
+
+print("\nStatistical Summary:")
+print(df.describe())
+
+sex_map = {0: 'male', 1: 'female'}
+embarked_map = {0.0: 'C', 1.0: 'Q', 2.0: 'S'}
+
+print(f"\nSurvival Rate: {df['Survived'].mean():.2%}")
+print(f"\nGender Distribution (0=male, 1=female):")
+print(df['Sex'].value_counts())
+print(f"\nPassenger Class Distribution:")
+print(df['Pclass'].value_counts().sort_index())
+print(f"\nEmbarked Port Distribution (0=C, 1=Q, 2=S):")
+print(df['Embarked'].value_counts().sort_index())
+
+# Visualization 1: Survival Distribution
+plt.figure(figsize=(8, 6))
+survival_counts = df['Survived'].value_counts()
+plt.bar(['Did Not Survive', 'Survived'], survival_counts.values, color=['#FF6B6B', '#4ECDC4'])
+plt.title('Survival Distribution on Titanic', fontsize=16, fontweight='bold')
+plt.ylabel('Number of Passengers', fontsize=12)
+plt.xlabel('Survival Status', fontsize=12)
+for i, v in enumerate(survival_counts.values):
+    plt.text(i, v + 20, str(v), ha='center', fontweight='bold')
+plt.tight_layout()
+plt.savefig('survival_distribution.png', dpi=300, bbox_inches='tight')
+plt.close()
+
+# Visualization 2: Age Distribution
+plt.figure(figsize=(10, 6))
+plt.hist(df['Age'], bins=30, color='#95E1D3', edgecolor='black', alpha=0.7)
+plt.axvline(df['Age'].mean(), color='red', linestyle='--', linewidth=2, label=f'Mean: {df["Age"].mean():.1f}')
+plt.axvline(df['Age'].median(), color='blue', linestyle='--', linewidth=2, label=f'Median: {df["Age"].median():.1f}')
+plt.title('Age Distribution of Passengers', fontsize=16, fontweight='bold')
+plt.xlabel('Age', fontsize=12)
+plt.ylabel('Frequency', fontsize=12)
+plt.legend()
+plt.tight_layout()
+plt.savefig('age_distribution.png', dpi=300, bbox_inches='tight')
+plt.close()
+
+# Visualization 3: Survival by Class and Gender
+plt.figure(figsize=(12, 6))
+df_temp = df.copy()
+df_temp['Gender'] = df_temp['Sex'].map({0: 'Male', 1: 'Female'})
+survival_gender_class = df_temp.groupby(['Pclass', 'Gender'])['Survived'].mean().unstack()
+survival_gender_class.plot(kind='bar', color=['#4ECDC4', '#FF6B6B'], width=0.7)
+plt.title('Survival Rate by Passenger Class and Gender', fontsize=16, fontweight='bold')
+plt.xlabel('Passenger Class', fontsize=12)
+plt.ylabel('Survival Rate', fontsize=12)
+plt.legend(['Female', 'Male'], title='Gender')
+plt.xticks(rotation=0)
+plt.ylim(0, 1)
+plt.tight_layout()
+plt.savefig('survival_by_class_gender.png', dpi=300, bbox_inches='tight')
+plt.close()
+
+# Visualization 4: Fare Distribution by Class
+plt.figure(figsize=(12, 6))
+colors = {1: '#E74C3C', 2: '#3498DB', 3: '#2ECC71'}
+for pclass in sorted(df['Pclass'].unique()):
+    data = df[df['Pclass'] == pclass]
+    plt.scatter(data.index, data['Fare'], alpha=0.6, 
+                label=f'Class {pclass}', color=colors[pclass], s=50)
+plt.title('Fare Distribution by Passenger Class', fontsize=16, fontweight='bold')
+plt.xlabel('Passenger Index', fontsize=12)
+plt.ylabel('Fare (£)', fontsize=12)
+plt.legend()
+plt.tight_layout()
+plt.savefig('fare_distribution_scatter.png', dpi=300, bbox_inches='tight')
+plt.close()
+
+# Visualization 5: Survival by Family Size
+plt.figure(figsize=(10, 6))
+df['FamilySize'] = df['sibsp'] + df['Parch'] + 1
+family_survival = df.groupby('FamilySize')['Survived'].agg(['mean', 'count'])
+plt.bar(family_survival.index, family_survival['mean'], color='#9B59B6', alpha=0.7)
+plt.title('Survival Rate by Family Size', fontsize=16, fontweight='bold')
+plt.xlabel('Family Size (including passenger)', fontsize=12)
+plt.ylabel('Survival Rate', fontsize=12)
+plt.xticks(family_survival.index)
+for i, (idx, row) in enumerate(family_survival.iterrows()):
+    plt.text(idx, row['mean'] + 0.02, f"n={row['count']}", ha='center', fontsize=9)
+plt.tight_layout()
+plt.savefig('survival_by_family_size.png', dpi=300, bbox_inches='tight')
+plt.close()
+
+# Key Insights
+print(f"1. Overall survival rate: {df['Survived'].mean():.2%}")
+print(f"2. Female survival rate: {df[df['Sex']==1]['Survived'].mean():.2%}")
+print(f"3. Male survival rate: {df[df['Sex']==0]['Survived'].mean():.2%}")
+print(f"4. Class 1 survival rate: {df[df['Pclass']==1]['Survived'].mean():.2%}")
+print(f"5. Class 2 survival rate: {df[df['Pclass']==2]['Survived'].mean():.2%}")
+print(f"6. Class 3 survival rate: {df[df['Pclass']==3]['Survived'].mean():.2%}")
+print(f"7. Average age: {df['Age'].mean():.1f} years")
+print(f"8. Average fare: £{df['Fare'].mean():.2f}")
+print(f"9. Passengers with siblings/spouses: {(df['sibsp'] > 0).sum()}")
+print(f"10. Passengers with parents/children: {(df['Parch'] > 0).sum()}")
+
+print("\nSurvival by Embarked Port:")
+for port in sorted(df['Embarked'].unique()):
+    port_name = embarked_map.get(port, 'Unknown')
+    rate = df[df['Embarked']==port]['Survived'].mean()
+    count = len(df[df['Embarked']==port])
+    print(f"  Port {port_name}: {rate:.2%} (n={count})")
+
+print("\nSurvival by Family Size:")
+for size in sorted(df['FamilySize'].unique())[:8]:
+    rate = df[df['FamilySize']==size]['Survived'].mean()
+    count = len(df[df['FamilySize']==size])
+    print(f"  Family size {size}: {rate:.2%} (n={count})")
+
+print("EDA COMPLETE")