awk字符串函数的用法,awk sprintf()和printf()字符串函数格式化输出数据,tolower()和toupper()函数实现字符串大小写转换,substr函数字符串截取等,awk字符串函数综合教程。 awk 字符串函数 格式化输出 awk提供了两个函数printf()和sprintf()。 如同其它许多awk部件一样,这些函数等同于相应的C语言函数。
printf()会将格式化字符串打印到stdout,而sprintf()则返回可以赋值给变量的格式化字符串。 在Linux系统上,可以输入"man 3 printf"来查看printf()帮助页面。 以下是一些awk sprintf()和printf()的样本代码。可以看到,它们几乎与C语言完全相同。
代码 1.1: awk sprintf()和printf()样本代码
x=1
b="foo" printf("%s got a %d on the last test\n","Jim",83) myout=("%s-%d",b,x) print myout
代码 1.2: 代码输出
Jim got a 83 on the last test
foo-1 字符串函数 awk有许多字符串函数,这是件好事。在awk中,确实需要字符串函数,因为不能象在其它语言(如C、C++和Python)中那样将字符串看作是字符数组。例如,如果执行以下代码:
代码 1.3: 代码示例
mystring="How are you doing today?"
print mystring[3]
代码 1.4: 代码错误信息 首先,有一个基本length()函数,它返回字符串的长度。以下是它的使用方法:
代码 1.5: length()函数示例
代码 1.6: 打印值
代码 1.7: index()函数示例
代码 1.8: 函数输出 另外两个简单的函数,tolower()和toupper()。与您猜想的一样,这两个函数将返回字符串并且将所有字符分别转换成小写或大写。请注意,tolower()和toupper()返回新的字符串,不会修改原来的字符串。这段代码:
代码 1.9: 将字符转换成大写或小写
print tolower(mystring)
print toupper(mystring) print mystring ……将产生以下输出:
代码 1.10: 输出
代码 1.11: substr()函数示例
代码 1.12: 另一个示例
print substr(mystring,9,3)
awk将打印:
代码 1.13: awk的打印结果 现在,我们讨论一些更耐人寻味的函数,首先是match()。match()与index()非常相似,它与index()的区别在于它并不搜索子串,它搜索的是规则表达式。match()函数将返回匹配的起始位置,如果没有找到匹配,则返回0。此外,match()还将设置两个变量,叫作RSTART和RLENGTH。RSTART包含返回值(第一个匹配的位置),RLENGTH指定它占据的字符跨度(如果没有找到匹配,则返回-1)。通过使用RSTART、RLENGTH、substr()和一个小循环,可以轻松地迭代字符串中的每个匹配。以下是一个match()调用示例:
代码 1.14: match()调用示例
代码 1.15: 上面函数的输出 现在,我们将研究两个字符串替换函数,sub()和gsub()。这些函数与目前已经讨论过的函数略有不同,因为它们确实修改原始字符串。以下是一个模板,显示了如何调用sub():
代码 1.16: sub()函数模板
代码 1.17: sub()和gsub()函数调用示例
sub(/o/,"O",mystring)
print mystring mystring="How are you doing today?" gsub(/o/,"O",mystring) print mystring 必须将mystring复位成其初始值,因为第一个sub()调用直接修改了mystring。在执行时,此代码将使awk输出:
代码 1.18: awk输出 通过介绍函数split(),我们来汇总一下已讨论过的函数。split()的任务是“切开”字符串,并将各部分放到使用整数下标的数组中。以下是一个split()调用示例:
代码 1.19: split()调用示例
代码 1.20: 代码示例
print mymonths[1],mymonths[numelements]
……将打印:
代码 1.21: 示例输出 简短注释──调用length()、sub()或gsub()时,可以去掉最后一个自变量,这样awk将对$0(整个当前行)应用函数调用。要打印文件中每一行的长度,使用以下awk脚本:
代码 1.22: 打印文件中每一行的长度 几星期前,我决定用awk编写自己的支票簿结算程序。我决定使用简单的tab定界文本文件,以便于输入最近的存款和提款记录。其思路是将这个数据交给awk脚本,该脚本会自动合计所有金额,并告诉我余额。以下是我决定如何将所有交易记录到"ASCII checkbook"中:
代码 1.23: ASCII checkbox的交易记录 代码 1.24: 存款示例
23 Aug 2000 - inco - Y Boss Man 2001.00 用于计算当前余额的算法不太难。awk只需要依次读取每一行。如果列出了费用分类帐,但没有收入分类帐(为"-"),那么这一项就是借方。如果列出了收入分类帐,但没有费用分类帐(为"-"),那么这一项就是贷方。而且,如果同时列出了费用和收入分类帐,那么这个金额就是“分类帐转帐”;即,从费用分类帐减去美元金额,并将此金额添加到收入分类帐。此外,所有这些分类帐都是虚拟的,但对于跟踪收入和支出以及预算却非常有用。 将从第一行(BEGIN块和函数定义)开始:
代码 1.25: balance,第1部分
#!/usr/bin/env awk -f
function monthdigit(mymonth) { 首先,执行"chmod +x myscript"命令,那么将第一行"#!..."添加到任何awk脚本将使它可以直接从shell中执行。其余行定义了BEGIN块,在awk开始处理支票簿文件之前将执行这个代码块。我们将FS(字段分隔符)设置成"\t+",它会告诉awk字段由一个或多个tab分隔。另外,我们定义了字符串months,下面将出现的monthdigit()函数将使用它。 最后三行显示了如何定义自己的awk。格式很简单──输入"function",再输入名称,然后在括号中输入由逗号分隔的参数。在此之后,"{ }"代码块包含了您希望这个函数执行的代码。所有函数都可以访问全局变量(如months变量)。另外,awk提供了"return"语句,它允许函数返回一个值,并执行类似于C和其它语言中"return"的操作。这个特定函数将以3个字母字符串格式表示的月份名称转换成等价的数值。例如,以下代码:
代码 1.26: monthdigit()调用示例
代码 1.27: monthdigit()调用示例 财务函数 以下是其它三个执行簿记的函数。我们即将见到的主代码块将调用这些函数之一,按顺序处理支票簿文件的每一行,从而将相应交易记录到awk数组中。有三种基本交易,贷方(doincome)、借方(doexpense)和转帐(dotransfer)。您会发现这三个函数全都接受一个自变量,叫作mybalance。mybalance是二维数组的一个占位符,我们将它作为自变量进行传递。目前,我们还没有处理过二维数组;但是,在下面可以看到,语法非常简单。只须用逗号分隔每一维就行了。 我们将按以下方式将信息记录到"mybalance"中。数组的第一维从0到12,用于指定月份,0代表全年。第二维是四个字母的分类帐,如"food"或"inco";这是我们处理的真实分类帐。因此,要查找全年食品分类帐的余额,应查看mybalance[0,"food"]。要查找6月的收入,应查看mybalance[6,"inco"]。
代码 1.28: 查找出入信息
function doincome(mybalance) {
function doexpense(mybalance) {
function dotransfer(mybalance) { 调用doincome()或任何其它函数时,我们将交易记录到两个位置──mybalance[0,category]和mybalance[curmonth, category],它们分别表示全年的分类帐余额和当月的分类帐余额。这让我们稍后可以轻松地生成年度或月度收入/支出明细分类帐。 如果研究这些函数,将发现在我的引用中传递了mybalance引用的数组。另外,我们还引用了几个全局变量:curmonth,它保存了当前记录所属的月份的数值,$2(费用分类帐),$3(收入分类帐)和金额($7,美元金额)。调用doincome()和其它函数时,已经为要处理的当前记录(行)正确设置了所有这些变量。 主块 以下是主代码块,它包含了分析每一行输入数据的代码。请记住,由于正确设置了FS,可以用$1引用第一个字段,用$2引用第二个字段,依次类推。调用doincome()和其它函数时,这些函数可以从函数内部访问curmonth、$2、$3和金额的当前值。请先研究代码,在代码之后可以见到我的说明。
代码 1.29: balance,第3部分
{
#tally up the transaction properly 在主块中,前两行将curmonth设置成1到12之间的整数,并将金额设置成字段7(使代码易于理解)。然后,是四行有趣的代码,它们将值写到数组globcat中。globcat,或称作全局分类帐数组,用于记录在文件中遇到的所有分类帐──"inco"、"misc"、"food"、"util"等。例如,如果$2 == "inco",则将globcat["inco"]设置成"yes"。稍后,我们可以使用简单的"for (x in globcat)"循环来迭代分类帐列表。 在接着的大约二十行中,我们分析字段$2和$3,并适当记录交易。如果$2=="-"且$3!="-",表示我们有收入,因此调用doincome()。如果是相反的情况,则调用doexpense();如果$2和$3都包含分类帐,则调用dotransfer()。每次我们都将"balance"数组传递给这些函数,从而在这些函数中记录适当的数据。 您还会发现几行代码说“if ( $5 == "Y" ),那么将同一个交易记录到balance2中”。我们在这里究竟做了些什么?您将回忆起$5包含"Y"或"N",并记录交易是否已经过帐到帐户。由于仅当过帐了交易时我们才将交易记录到balance2,因此balance2包含了真实的帐户余额,而"balance"包含了所有交易,不管是否已经过帐。可以使用balance2来验证数据项(因为它应该与当前银行帐户余额匹配),可以使用"balance"来确保没有透支帐户(因为它会考虑您开出的尚未兑现的所有支票)。 生成报表 主块重复处理了每一行记录之后,现在我们有了关于比较全面的、按分类帐和按月份划分的借方和贷方记录。现在,在这种情况下最合适的做法是只须定义生成报表的END块:
代码 1.30: 生成最终报表
END {
bal=0 bal2=0 for (x in globcat) { bal=bal+balance[0,x] bal2=bal2+balance2[0,x] } printf("Your available funds: %10.2f\n", bal) printf("Your account balance: %10.2f\n", bal2) }
这个报表将打印出汇总 升级
我使用这个程序的更高级版本来管理我的个人和企业财务。我的版本(由于篇幅限制不能在此涵盖)会打印出收入和费用的月度明细分类帐,包括年度总合、净收入和其它许多内容。它甚至以HTML格式输出数据,因此我可以在Web浏览器中查看它。:) 如果您认为这个程序有用,我建议您将这些特性添加到这个脚本中。不必将它配置成要记录任何附加信息;所需的全部信息已经在balance和balance2里面了。只要升级END块就万事具备了! |