在Excel中,我们经常要处理数据清单,例如,员工档案,产品明细。这种数据中有可能存在重复的数据,需要进行处理。基于不同的情况,对重复数据的处理是不同的。一般来说,我们可以把实际工作中对重复数据的处理归结为以下五种情况: 1. 识别重复数据(或者非重复数据) 2. 删除重复数据(每条数据保留一条) 3. 挑出不重复列表 4. 计数(不重复数据的个数) 5. 阻止重复数据的产生 我们分别来介绍如何处理这些情况。 1. 识别重复数据(或者非重复数据) 例如,在下面的表格中,我们记录了超市中所有销售的产品。
我们需要基于这个数据进行后续的数据分析。这就要求这个数据中每个数据只能出现一次(唯一性)。但是,仅仅是凭眼睛观察我们也可以发现里面的数据不唯一。这时,我们需要找出其中重复的数据,然后有针对行的进行分析,看看是什么原因导致了这些数据的重复。 这种需求就是重复数据的识别。这里就用到了countif函数。 在物品名称列后面添加一个辅助列,然后再单元格C3中数据公式: =COUNTIF($B$3:$B$47,B3) 如下图:
一定要注意其中的相对引用和绝对引用。 然后通过鼠标拖拽填充整个辅助列对应区域,将得到如下结果
容易发现,辅助列中值为1的对应的是非重复数据,大于1的对应的是重复数据。 理解了这个方式,我们还可以用可视化的方法使所有重复数据变色显示,这样我们可以直接在表中找到这个数据。 方法是用条件格式。方法如下: 首先选中整个物品名称的数据,$B$3:$B$47。然后选择“开始”——>“条件格式”——>“新建规则”,在新建规则对话框中,选择“使用公式确定要设置格式的单元格”,然后在“为符合此公示的值设置格式”框中输入公式 =countif($B$3:$B$47,B3)>1 如下图:
点击确定后,你将得到如下的结果
可以看到,所有的重复数据都一目了然。 2. 删除重复数据 有时所有重复的数据是我们不需要的,我们需要删除重复数据,每条数据只保留一条。这时,最简单的方法就是使用Excel自带功能“删除重复项”。方法如下: 鼠标选中任意产品,然后点击“数据”菜单中的工具“删除重复项”
得到如下对话框
点击确定,Excel会删除掉所有重复数据(只保留一条),并提示如下信息 |