CentOS 5.x和CentOS 6.x限制单个用户线程数上限的不同行为
时间:2015-01-22 18:55 来源:linux.it.net.cn 作者:IT
在使用HiveServer的过程中,通过一个Java程序向其并发提交多个Job,我们发现在同时提交的任务较多的时候,程序就会莫名其妙地卡住,并报出内存溢出(OOM)的错误,但是经过排查,系统还有数十GB的内存处于FREE状态,JVM的内存上限也非常大,所以可以断定问题的原因并不是因为内存不够,而有其它原因。
根据以往的经验,我们在部署服务器的时候,会设置一个系统最大打开文件数量和系统最大进程(线程)数,这个值我们在root用户下做了如下设置(设置在/etc/security/limits.conf文件中):
在CODE上查看代码片派生到我的代码片
* - nproc 1024000
* - nofile 1024000
这样的话,root用户能开启的最大进程(线程)数量就是1024000。但是这个设置能否继承到其它用户的设置上却在CentOS 5.8与CentOS 6.4之间有了差别:
首先,在CentOS 5.8上:
在CODE上查看代码片派生到我的代码片
[root@monet00 ~]# useradd testuser
[root@monet00 ~]# su - testuser
[testuser@monet00 ~]$ ulimit -u
1024000
[testuser@monet00 ~]$ ulimit -u
1024000
可以看到,新增加的用户成功继承了root设置的系统设置。
然后,在CentOS 6.4上却是:
在CODE上查看代码片派生到我的代码片
[root@etl-1 ~]# useradd testuser
[root@etl-1 ~]# su - testuser
[testuser@etl-1 ~]$ ulimit -u
1024
就是因为这个原因,我们在6.4版本的CentOS上,虽然设置了系统的最大线程数是1024000,但是对于运行HiveServer的hive用户而言,它能够开启最大进程(线程)数仍然是默认的1024个,这样就导致,任务提交比较密集的时候,会出现莫名其妙的失败。至于解决办法,就是加入以下配置,明确对hive用户的配置:
在CODE上查看代码片派生到我的代码片
hive - nofile 1024000
hive - nproc 1024000
这样,在我们放大了提交JOB的并行压力之后,系统也能够完美地运行成功。
从这件事情上可以看出,经验固然重要,但是不能把自己关在这些经验构筑的笼子中,必须常怀怀疑的态度,做完工作之后,一定要再次检查,确保达到我们想要的效果。
(责任编辑:IT)
在使用HiveServer的过程中,通过一个Java程序向其并发提交多个Job,我们发现在同时提交的任务较多的时候,程序就会莫名其妙地卡住,并报出内存溢出(OOM)的错误,但是经过排查,系统还有数十GB的内存处于FREE状态,JVM的内存上限也非常大,所以可以断定问题的原因并不是因为内存不够,而有其它原因。
根据以往的经验,我们在部署服务器的时候,会设置一个系统最大打开文件数量和系统最大进程(线程)数,这个值我们在root用户下做了如下设置(设置在/etc/security/limits.conf文件中):
在CODE上查看代码片派生到我的代码片
* - nproc 1024000
* - nofile 1024000
这样的话,root用户能开启的最大进程(线程)数量就是1024000。但是这个设置能否继承到其它用户的设置上却在CentOS 5.8与CentOS 6.4之间有了差别:
首先,在CentOS 5.8上:
在CODE上查看代码片派生到我的代码片
[root@monet00 ~]# useradd testuser
[root@monet00 ~]# su - testuser
[testuser@monet00 ~]$ ulimit -u
1024000
[testuser@monet00 ~]$ ulimit -u
1024000
可以看到,新增加的用户成功继承了root设置的系统设置。
然后,在CentOS 6.4上却是:
在CODE上查看代码片派生到我的代码片
[root@etl-1 ~]# useradd testuser
[root@etl-1 ~]# su - testuser
[testuser@etl-1 ~]$ ulimit -u
1024
就是因为这个原因,我们在6.4版本的CentOS上,虽然设置了系统的最大线程数是1024000,但是对于运行HiveServer的hive用户而言,它能够开启最大进程(线程)数仍然是默认的1024个,这样就导致,任务提交比较密集的时候,会出现莫名其妙的失败。至于解决办法,就是加入以下配置,明确对hive用户的配置:
在CODE上查看代码片派生到我的代码片
hive - nofile 1024000
hive - nproc 1024000
这样,在我们放大了提交JOB的并行压力之后,系统也能够完美地运行成功。
从这件事情上可以看出,经验固然重要,但是不能把自己关在这些经验构筑的笼子中,必须常怀怀疑的态度,做完工作之后,一定要再次检查,确保达到我们想要的效果。
(责任编辑:IT) |