- 问题 两个df已经使用on='项目名称'完成merge,但其他字段如负责人、单位等可能完全相同但形成了_x和_y后缀,如果多次合并,则列很长且重复列非常多 合并后的df_all中,有两列虽然列名不同,但其实是相同值需要对比,如果完全相同,则删除第二列
- 要求
相同的列转换为1列,并将后缀删除;
如果有列值是空值,以非空列值为准;
删除多余的列;一般为右侧列;有差异不删除,相同值的左侧保留原数据,右侧变更为Nan 有 学部、所属学部 两列,其实应该是相同列,对此两列进行对比;规则参照前面的要求 - 操作
df_all = clean_merged_df(df_all)
df_all = compare_and_clean_columns(df_all,'学部','所属学部')