MongoDB 去重复数据 大量数据
去除 datas
表中 $leaf_cert.fingerprint
字段出现重复的文档记录, 并且开启了磁盘占用,避免遇到内存16MB限制
db.getCollection("datas").aggregate([
{
$group:{_id:{fingerprint:'$leaf_cert.fingerprint'},count:{$sum:1},dups:{$addToSet:'$_id'}}
},
{
$match:{count:{$gt:1}}
}
], { allowDiskUse: true }).forEach(function(it){
it.dups.shift();
db.getCollection("datas").remove({_id: {$in: it.dups}});
})