小王同学 - 搭建多人共用的GPU服务器 的评论 https://feelncut.com/2018/05/03/145.html zh-CN [TOC] #### 背景 目前实验室GPU使用情况是:大部分同学的配有单台1080/TITAN Xp。后来购入了两台4卡的机器,老师的意思是希望可以作为服务器使用,能够多人同时使用,互不影... Fri, 21 Feb 2020 00:47:08 +0800 Fri, 21 Feb 2020 00:47:08 +0800 pizi https://feelncut.com/2018/05/03/145.html#comment-24 https://feelncut.com/2018/05/03/145.html#comment-24 Fri, 21 Feb 2020 00:47:08 +0800 pizi 一个卡就不要限制资源了...错开时间跑吧...

]]>
https://feelncut.com/2018/05/03/145.html#comment-24#comments
padluo https://feelncut.com/2018/05/03/145.html#comment-21 https://feelncut.com/2018/05/03/145.html#comment-21 Sun, 14 Jul 2019 11:34:58 +0800 padluo 请问如何控制到用户使用1个GPU卡的具体多少资源呢?

]]>
https://feelncut.com/2018/05/03/145.html#comment-21#comments
pizi https://feelncut.com/2018/05/03/145.html#comment-18 https://feelncut.com/2018/05/03/145.html#comment-18 Fri, 14 Dec 2018 09:04:19 +0800 pizi 文章里写了的,lxc config device add yourContainerName gpu gpu

]]>
https://feelncut.com/2018/05/03/145.html#comment-18#comments
zzd https://feelncut.com/2018/05/03/145.html#comment-17 https://feelncut.com/2018/05/03/145.html#comment-17 Sat, 08 Dec 2018 21:55:15 +0800 zzd lxc config device add yourContainerName gpu0 gpu id=0

如果是 挂载多个GPU呢。。。。

]]>
https://feelncut.com/2018/05/03/145.html#comment-17#comments
Fangxin Wang https://feelncut.com/2018/05/03/145.html#comment-16 https://feelncut.com/2018/05/03/145.html#comment-16 Thu, 09 Aug 2018 15:03:21 +0800 Fangxin Wang 是自动并且强制安装新的显卡驱动的,我还是用run包安装吧,再次感谢

]]>
https://feelncut.com/2018/05/03/145.html#comment-16#comments
pizi https://feelncut.com/2018/05/03/145.html#comment-15 https://feelncut.com/2018/05/03/145.html#comment-15 Thu, 09 Aug 2018 14:21:27 +0800 pizi 如上条回复中安装过程那篇文章,我安装cuda都是通过`cuda_xx_xx.sh`文件安装,安装时提示是否安装cuda中带有的显卡驱动,由于已经自己安装,所以选择否,不让cuda自己安装驱动。所以没有遇到你说的这种问题。你在安装`deb`包的过程中,是提示你是否安装该版本显卡驱动,还是强制必须安装该版本?

]]>
https://feelncut.com/2018/05/03/145.html#comment-15#comments
Fangxin Wang https://feelncut.com/2018/05/03/145.html#comment-14 https://feelncut.com/2018/05/03/145.html#comment-14 Thu, 09 Aug 2018 14:10:03 +0800 Fangxin Wang 谢谢,安装的时候还有一个问题,我在host上先装了390.77的显卡驱动,然后安装了cuda 9.0的deb包,然后安装过程中提示我要改变显卡驱动的版本号,安装完毕后,显卡驱动变成了384.130;而容器和host上的驱动版本应保持一致,所以我必须在容器里先安装驱动,再安装cuda9.0,只是为了把驱动降级;那如果我以后在host上安装cuda9.2,它又会自动将驱动版本升级为398.xx,那么这样的话,是不是已经创建的容器,我每个都要再装一次cuda9.2 来使其和host上面的显卡驱动保持一致呢

]]>
https://feelncut.com/2018/05/03/145.html#comment-14#comments
pizi https://feelncut.com/2018/05/03/145.html#comment-13 https://feelncut.com/2018/05/03/145.html#comment-13 Thu, 09 Aug 2018 13:54:08 +0800 pizi ld.so.config参见https://feelncut.com/2018/01/09/46.html,文章中只配置了cuda环境变量和动态库,cudnn因为安装到了cuda目录中,所以配置一次即可。如果cudnn不在cuda目录中,按照配置cuda的方法配置一次cudnn即可。

]]>
https://feelncut.com/2018/05/03/145.html#comment-13#comments
Fangxin Wang https://feelncut.com/2018/05/03/145.html#comment-12 https://feelncut.com/2018/05/03/145.html#comment-12 Wed, 08 Aug 2018 23:05:06 +0800 Fangxin Wang 我在host上安装了显卡驱动,cuda9.0和cuda9.2, 分别把cudnn v7和cudnn v7.1复制到了里面。用lxd创建了一个容器,挂载了host上的/usr/local,并在容器内设置了LD_LIBRARY_PATH和PATH分别指向cuda9.0的lib64和bin。在host上,输入nvidia-smi,会出现显卡的信息,而在容器内输入nvidia-smi,会出现Failed to initialize NVML: Driver/library version mismatch。如果想其它教程中所说的,在host和容器上分别装一次driver,cuda和cudnn,则不会出现问题,但我想这失去了容器的意义。看到您所说的通过添加库文件和相关路径,即可在多个容器间共享cuda和cudnn,非常兴奋,希望您能在您的文章中给出具体的步骤,谢谢

]]>
https://feelncut.com/2018/05/03/145.html#comment-12#comments
Fangxin Wang https://feelncut.com/2018/05/03/145.html#comment-11 https://feelncut.com/2018/05/03/145.html#comment-11 Wed, 08 Aug 2018 19:58:17 +0800 Fangxin Wang 放到ld.so.config是什么操作

]]>
https://feelncut.com/2018/05/03/145.html#comment-11#comments