当前位置: > Linux命令 >

awk 数组排序教程(内置函数排序与自定义排序函数)

时间:2015-05-02 01:41来源:linux.it.net.cn 作者:IT
awk数组排序的实例教程,包括通过内置函数(asort,asorti使用) 排序,通过管道发送到sort排序,awk自定义排序函数,需要的朋友参考下。


awk数组是关联数组。
for…in循环输出时候,默认打印出来是无序数组。

例如:
 

 
[chengmo@localhost ~]$ awk 'BEGIN{info = "this is a test";split(info,tA," ");for(k in tA){print k,tA[k];}}'
4 test
1 this
2 is
3 a
 

 
按照顺序输出,通过键值定位方式输出:
 

 
[chengmo@localhost ~]$ awk 'BEGIN{info = "this is a test";slen=split(info,tA," ");for(i=1;i<=slen;i++){print i,tA[i];}}'       
1 this
2 is
3 a
4 test
 

 
一、通过内置函数(asort,asorti使用) awk 3.1以上版本才支持
asort使用说明
srcarrlen=asort[srcarr,dscarr]

默认返回值是:
原数组长度,传入参数dscarr则将排序后数组赋值给dscarr.

例子:
 

 
[chengmo@localhost ~]$ awk 'BEGIN{
a[100]=100;
a[2]=224;
a[3]=34;
slen=asort(a,tA);
for(i=1;i<=slen;i++)
{print i,tA[i];}
}'
1 34
2 100
3 224
 

asort只对值进行了排序,因此丢掉原先键值。
 
2、asorti 使用说明
 

 
[chengmo@localhost ~]$ awk 'BEGIN{
a["d"]=100;
a["a"]=224;
a["c"]=34;
slen=asorti(a,tA);
for(i=1;i<=slen;i++)
{print i,tA[i],a[tA[i]];}
}'
1 a 224
2 c 34
3 d 100
 

asorti对键值 进行排序(字符串类型),将生成新的数组放入:tA中。

二、通过管道发送到sort排序
 

 
[chengmo@localhost ~]$awk 'BEGIN{
a[100]=100;
a[2]=224;
a[3]=34;
for(i in a)
{print i,a[i] | "sort -r -n -k2";}
}'
2 224
100 100
3 34
 

 
通过管道,发送到外部程序“sort”排序,-r 从大到小,-n 按照数字排序,-k2 以第2列排序。
通过将数据丢给第3方的sort命令,所有问题变得非常简单。
如果以key值排序 –k2 变成 -k1即可。


例子:
 

 
[chengmo@localhost ~]$ awk 'BEGIN{
a[100]=100;
a[2]=224;
a[3]=34;
for(i in a)
{print i,a[i] | "sort -r -n -k1";}
}'
100 100
3 34
2 224
 

 
三、自定义排序函数
awk自定义函数结构:
 

 
function funname(p1,p2,p3)
{
    staction;
    return value;
}
 

以上是:
awk自定义函数表示方式,默认传入参数都是以引用方式传入,return值,只能是字符型或者数值型。
不能返回数组类型。
如果返回数组类型。需要通过形参方式传入,再获得。

awk返回数组类型:
 

 
awk 'function test(ary){
 for(i=0;i<10;i++){
  ary[i]=i;
 }
 return i;
}
BEGIN{
 n=test(array);
 for(i=0;i<n;i++){
  print array[i];
 }
}
'
 

排序函数:
 

#arr 传入一维数组
#key 排序类型 1是按照值排序 2按照键值
#datatype 比较类型 1按照数字排序 2按照字符串排序
#tarr 排序返回的数组
#splitseq 分割字符串 数组中键与值之间分割字符串
#return 数组长度
#实现思路,将原始数组a[‘a’]=100 排序后变成 a[1]=a分隔符100 ,然后按照下标递归显示内容。

本排序使用冒泡方式:
 

 
function sortArr(arr,key,datatype,tarr,splitseq)
{
    if(key ~ /[^1-2]/) 
    {return tarr;}
    for(k in arr)
    {
      tarr[++alen]=(k""splitseq""arr[k]);
    }
    for(m=1;m<=alen;m++)
    {
        for(n=1;n<=alen-m-1;n++)
        {
            split(tarr[m],tm,splitseq);
            split(tarr[n+1],tn,splitseq);
                tnum=tarr[m];
            if(datatype==1)
            {
                if(tm[key]+0<tn[key]+0)
                {
                     tarr[m]=tarr[n+1];
                     tarr[n+1]=tnum;
                }
            }
            else
            {
                if((tm[key]"") < (tn[key]""))
                {
                     tarr[m]=tarr[n+1];
                     tarr[n+1]=tnum;
                }
            }
        }
    }
    return alen;
}
 

 
完整代码:
 

 
[chengmo@centos5 ~]$ awk 'BEGIN{
a["a"]=100;
a["b"]=110;
a["c"]=10;
splitseq="%%";
alen=sortArr(a,2,1,tarr,splitseq);
for(m=1;m<=alen;m++)
{
    split(tarr[m],ta,splitseq);
    print m,ta[1],ta[2];
}
}
function sortArr(arr,key,datatype,tarr,splitseq)
{
    if(key ~ /[^1-2]/) 
    {return tarr;}
    for(k in arr)
    {
      tarr[++alen]=(k""splitseq""arr[k]);
    }
    for(m=1;m<=alen;m++)
    {
        for(n=1;n<=alen-m-1;n++)
        {
            split(tarr[m],tm,splitseq);
            split(tarr[n+1],tn,splitseq);
                tnum=tarr[m];
            if(datatype==1)
            {
                if(tm[key]+0<tn[key]+0)
                {
                     tarr[m]=tarr[n+1];
                     tarr[n+1]=tnum;
                }
            }
            else
            {
                if((tm[key]"") < (tn[key]""))
                {
                     tarr[m]=tarr[n+1];
                     tarr[n+1]=tnum;
                }
            }
        }
    }
    return alen;
}
'
1 b 110
2 a 100
3 c 10
 

总结:
awk数组排序,对于少量数据排序,就性能而言,使用自定义函数性能要高,不需要另外再开启进程。
对于大量数据,排序第2种方法还是很不错的。

 
(责任编辑:IT)
------分隔线----------------------------
栏目列表
推荐内容