对于支持SELECT …… INTO……FROM语句的数据库来说,这样一句
SELECT DISTINCT * INTO NewTable FROM PRODUCT
就可把数据导入到一个新表(NewTable )中。或者可以用INERT INTO …… SELECT DISTINCT * FROM ……把它导入到一个现有的表中。总之有了正确的数据集,再如何处理就好办了。相信大家知道这个合并重复数据的关键字DISTINCT后,再不会用游标来处理重复数据了吧。
这是第一步,有时可能我们不想一下把它们压缩掉,而是想先看看到底谁出了问题。好的,用下面的语句可以找出重复的记录,最右边一列“ROW_COUNT”表示这行数据在表中重复的次数:
SELECT ID, PNAME, PRICE, NUMBER, PDESCRIPTION, COUNT(*) ROW_COUNT
FROM PRODUCT
GROUP BY ID, PNAME, PRICE, NUMBER, PDESCRIPTION
HAVING COUNT(*) > 1
IDPNAMEPRICENUMBERPDESCRIPTIONROW_COUNT
1Apple123000NULL2
(所影响的行数为 1 行)
其实就是关键字GROUP BY …… HAVING和统计函数COUNT的一个简单运用,记得在GROUP BY 后面写上完整的字段列表。这表示我们要的是那些完全一致的数据,每个字段都一样。
PRODUCT表中的数据很多时,用前面的方法直接生成正确的数据集效率很低。现在有了这个结果集,我们可以高效率工作了。现在,我们用
SELECT ID, PNAME, PRICE, NUMBER, PDESCRIPTION
FROM PRODUCT
GROUP BY ID, PNAME, PRICE, NUMBER, PDESCRIPTION
HAVING COUNT(*) > 1
把重复的数据生成为一个经过压缩的正确数据集,用前述的方法导出到一个临时表中,然后用
DELETE FROM PRODUCT
WHERE ID IN (
SELECT ID
FROM PRODUCT
GROUP BY ID, PNAME, PRICE, NUMBER, PDESCRIPTION
HAVING COUNT(*) > 1
)
把重复数据从PRODUCT表中删除,再把压缩好的数据插入PRODUCT。现在PRODUCT表中不再有完全重复,不可标识的数据了。