当前位置: > shell编程 >

shell 字符串的存储 详解

时间:2014-10-17 12:16来源:linux.it.net.cn 作者:it

字符串是一连串的字符而已,为了操作方便,往往可以让字符串呈现出一定的结构。

不关心字符串在内存中的实际存储结构,仅仅关系它呈现出来的逻辑结构。

比如,这样一个字符串:"get the length of me",我们可以从不同的方面来呈现它。

1,通过字符在串中的位置来呈现它
通过指定位置来找到某个子串。这在c语言里头通常可以利用指针来做。
而在shell编程中,有很多可用的工具,诸如expr,awk都提供了类似的方法来实现子串的查询动作。
两者都几乎支持模式匹配(match)和完全匹配(index)。

匹配字符串开头的子串长度
 

复制代码代码示例:

expr match "$string" '$substring'
$substring是一个正则表达式.

expr "$string" : '$substring'
$substring是一个正则表达式.

stringZ=abcABC123ABCabc
#       |------|

echo `expr match "$stringZ" 'abc[A-Z]*.2'`   # 8
echo `expr "$stringZ" : 'abc[A-Z]*.2'`       # 8

2,根据某个分割符来取得字符串的各个部分

这里最常见的就是行分割符、空格或者TAB分割符了,前者用来当行号,我们似乎已经司空见惯了,因为我们的编辑器就这样“莫名”地处理着行分割符(在unix下为\n,在其他系统下有一些
不同,比如windows下为\r\n)。而空格或者TAB键经常用来分割数据库的各个字段,这似乎也是司空见惯的事情。

正是因为这样,所以产生了大量优秀的行编辑工具,诸如grep,awk,sed等。在“行内”(姑且这么说吧,就是处理单行,即字符串里头不再包含行分割符)的字符串分割方面,cut和awk提供了
非常优越的“行内”(处理单行)处理能力。

3,处理用分割符分割好的各个部分

同样是用到分割符,但为了更方便的操作分割以后的字符串的各个部分,我们抽象了“数组”这么一个数据结构,从而让我们更加方便地通过下标来获取某个指定的部分。
bash提供了这么一种数据结构,而优秀的awk也同样提供了它。

例子:利用数组存放"get the length of me"的用空格分开的各个部分。
 

复制代码代码示例:

//1. bash提供的数组数据结构,它是以数字为下标的,和C语言从0开始的下标一样
$ var="get the length of me"
$ var_arr=($var)    #这里把字符串var存放到字符串数组var_arr中了,默认以空格作为分割符
$ echo ${var_arr[0]} ${var_arr[1]} ${var_arr[2]} ${var_arr[3]} ${var_arr[4]}
get the length of me
$ echo ${var_arr[@]}    #这个就是整个字符串所有部分啦,这里可以用*代替@,下同
get the length of me
$ echo ${#var_arr[@]}    #记得上面求某个字符串的长度么,#操作符,如果想求某个数组元素的字符串长度,那么就把@换成下标吧
5
// 你也可以直接给某个数组元素赋值
$ var_arr[5]="new_element"
$ echo ${var_arr[5]}
6
$ echo ${var_arr[5]}
new_element
// bash里头实际上还提供了一种类似于“数组”的功能,即"for i in 用指定分割符分开的字符串" 的用法
// 即,你可以很方便的获取某个字符串的某个部分
$  for i in $var; do echo -n $i" "; done;
get the length of me

//2. awk里头的数组,注意比较它和bash提供的数组的异同
// split把一行按照空格分割,存放到数组var_arr中,并返回数组的长度。注意:这里的第一个元素下标不是0,而是1
$ echo $var | awk '{printf("%d %s\n", split($0, var_arr, " "), var_arr[1]);}' 
5 get
// 实际上,上面的操作很类似awk自身的行处理功能:awk默认把一行按照空格分割为多个域,并可以通过$1,$2,$3...来获取,$0表示整行
// 这里的NF是该行的域的总数,类似于上面数组的长度,它同样提供了一种通过“下标”访问某个字符串的功能
$ echo $var | awk '{printf("%d | %s %s %s %s %s | %s\n", NF, $1, $2, $3, $4, $5, $0);}'
5 | get the length of me | get the length of me
// awk的“数组”功能何止于此呢,看看它的for引用吧,注意,这个和bash里头的for不太一样,i不是元素本身,而是下标
$ echo $var | awk '{split($0, var_arr, " "); for(i in var_arr) printf("%s ",var_arr);}'
get the length of me 
$ echo $var | awk '{split($0, var_arr, " "); for(i in var_arr) printf("%s ",i);}'
1 2 3 4 5 
// awk还有更“厉害”的处理能力,它的下标可以不是数字,而可以是字符串,从而变成了“关联”数组
// 比如,实现一个非凡的应用,把某个文件中的某个系统调用名替换成地址。
$ cat symbol 
sys_exit
sys_read
sys_close
$ ls /boot/System.map*
$ awk '{if(FILENAME ~ "System.map") map[$3]=$1; else {printf("%s\n", map[$1])}}' /boot/System.map-2.6.20-16-generic symbol 
c0129a80
c0177310
c0175d80
// 另外,awk还支持删除某个数组元素,不用时可以用delete函数删除掉。awk还支持二维数组。


(责任编辑:IT)
------分隔线----------------------------
栏目列表
推荐内容