删除SAS数据集中的重复值方法总结_动视

删除SAS数据集中的重复值方法总结

2025-09-28 00:23:14 责编:小OO

点击下载本文 文档为doc格式

删除SAS数据集中的重复值方法汇总 2012-2-2 14:12阅读(5)下一篇：1亿个脑筋急转弯... |返回日志列表转载(5)分享(2)评论复制地址更多

主体内容转载自： http://blog.sina.com.cn/s/blog_5d3b177c0100bblp.html5d3b177c0100bblp.html

阳历同学将程序在sas9.1中进行了调试，并加上少许注释。

1、用first，last语句实现（参考sas help "How the DATA Step Identifies BY Groups"）

data clasdata;

input id name $ class $ ;

datalines;

3456 Amber CHEM101

3456 Amber MATH102

4567 Denise ENGL201

2345 Ginny CHEM101

2345 Ginny ENGL201

2345 Ginny MATH102

1234 Lynn CHEM101

1234 Lynn MATH102

5678 Rick CHEM101

5678 Rick HIST300

;

run;

proc sort data=clasdata;

by name class;

run;

data dups nodups ;

set clasdata ;

by name class ;

if first.class and last.class then output nodups;

else output dups ;

run;

data nodups2;

set clasdata ;

by name class ;

if first.class then output;

run;

2 、另一个删除重复值的方法就是用sort过程步的nodupkey选项以及dupout选项。（从clasdata中删除重复了的记录到nodups3中保存）

proc sort data=clasdata dupout=nodups3 nodupkey;

by name class;

run;

注意这里用到的是dupout，而不是out，out将在下面作介绍。

3 另一个删除重复值的方法就是用sort过程步的nodup选项。

data clasdata;

input id name $ class $ ;

datalines;

3456 Amber CHEM101

3456 Amber MATH102

4567 Denise ENGL201

2345 Ginny CHEM101

2345 Ginny ENGL201

2345 Ginny MATH102

1234 Lynn CHEM101

1234 Lynn MATH102

5678 Rick CHEM101

5678 Rick HIST300

;

run;

proc sort data =clasdata out=nodups33 nodup;

by name class;

run ;

前面讲的方法是每条观测值observation所有变量都相同的重复，下面讲的是单个变量重复的情况，这些方法用于查找例如主键ID是否有多条重复数据的情况。

4 、用freq统计某变量的值重复的情况

proc freq data=Clasdata noprint;

table ID/out=Nodups4(keep=ID Count where=(Count>1));

run;

如果要测试两个变量，则用到by选项

proc sort data =Clasdata;

by name class;

run ;

proc freq data =Clasdata noprint ;

by name ;

table class / out = DUPS3 (keep = name class Count) ;

run ;

5、用sort过程步的nodupkey选项以及out选项。

proc sort data=clasdata out=nodups5 nodupkey;

by id;

run;

这里ID变量每个值将只出现一次，其余全部删除了。其意思就是ID

作为数据集clasdata的主键。

我们还可以让两个变量（name，class）作为主键：

proc sort data=clasdata out=nodups6

nodupkey;

by name class;

run;下载本文

显示全文

全部频道