小王同学 - 搭建多人共用的GPU服务器 的评论 [TOC] #### 背景 目前实验室GPU使用情况是:大部分同学的配有单台1080/TITAN Xp。后来购入了两台4卡的机器,老师的意思是希望可以作为服务器使用,能够多人同时使用,互不影... 2020-02-21T00:47:08+08:00 Typecho https://feelncut.com/feed/atom/2018/05/03/145.html <![CDATA[pizi]]> https://feelncut.com/2018/05/03/145.html#comment-24 2020-02-21T00:47:08+08:00 2020-02-21T00:47:08+08:00 pizi https://feelncut.com 一个卡就不要限制资源了...错开时间跑吧...

]]>
<![CDATA[padluo]]> https://feelncut.com/2018/05/03/145.html#comment-21 2019-07-14T11:34:58+08:00 2019-07-14T11:34:58+08:00 padluo 请问如何控制到用户使用1个GPU卡的具体多少资源呢?

]]>
<![CDATA[pizi]]> https://feelncut.com/2018/05/03/145.html#comment-18 2018-12-14T09:04:19+08:00 2018-12-14T09:04:19+08:00 pizi https://feelncut.com 文章里写了的,lxc config device add yourContainerName gpu gpu

]]>
<![CDATA[zzd]]> https://feelncut.com/2018/05/03/145.html#comment-17 2018-12-08T21:55:15+08:00 2018-12-08T21:55:15+08:00 zzd lxc config device add yourContainerName gpu0 gpu id=0

如果是 挂载多个GPU呢。。。。

]]>
<![CDATA[Fangxin Wang]]> https://feelncut.com/2018/05/03/145.html#comment-16 2018-08-09T15:03:21+08:00 2018-08-09T15:03:21+08:00 Fangxin Wang 是自动并且强制安装新的显卡驱动的,我还是用run包安装吧,再次感谢

]]>
<![CDATA[pizi]]> https://feelncut.com/2018/05/03/145.html#comment-15 2018-08-09T14:21:27+08:00 2018-08-09T14:21:27+08:00 pizi https://feelncut.com 如上条回复中安装过程那篇文章,我安装cuda都是通过`cuda_xx_xx.sh`文件安装,安装时提示是否安装cuda中带有的显卡驱动,由于已经自己安装,所以选择否,不让cuda自己安装驱动。所以没有遇到你说的这种问题。你在安装`deb`包的过程中,是提示你是否安装该版本显卡驱动,还是强制必须安装该版本?

]]>
<![CDATA[Fangxin Wang]]> https://feelncut.com/2018/05/03/145.html#comment-14 2018-08-09T14:10:03+08:00 2018-08-09T14:10:03+08:00 Fangxin Wang 谢谢,安装的时候还有一个问题,我在host上先装了390.77的显卡驱动,然后安装了cuda 9.0的deb包,然后安装过程中提示我要改变显卡驱动的版本号,安装完毕后,显卡驱动变成了384.130;而容器和host上的驱动版本应保持一致,所以我必须在容器里先安装驱动,再安装cuda9.0,只是为了把驱动降级;那如果我以后在host上安装cuda9.2,它又会自动将驱动版本升级为398.xx,那么这样的话,是不是已经创建的容器,我每个都要再装一次cuda9.2 来使其和host上面的显卡驱动保持一致呢

]]>
<![CDATA[pizi]]> https://feelncut.com/2018/05/03/145.html#comment-13 2018-08-09T13:54:08+08:00 2018-08-09T13:54:08+08:00 pizi https://feelncut.com ld.so.config参见https://feelncut.com/2018/01/09/46.html,文章中只配置了cuda环境变量和动态库,cudnn因为安装到了cuda目录中,所以配置一次即可。如果cudnn不在cuda目录中,按照配置cuda的方法配置一次cudnn即可。

]]>
<![CDATA[Fangxin Wang]]> https://feelncut.com/2018/05/03/145.html#comment-12 2018-08-08T23:05:06+08:00 2018-08-08T23:05:06+08:00 Fangxin Wang 我在host上安装了显卡驱动,cuda9.0和cuda9.2, 分别把cudnn v7和cudnn v7.1复制到了里面。用lxd创建了一个容器,挂载了host上的/usr/local,并在容器内设置了LD_LIBRARY_PATH和PATH分别指向cuda9.0的lib64和bin。在host上,输入nvidia-smi,会出现显卡的信息,而在容器内输入nvidia-smi,会出现Failed to initialize NVML: Driver/library version mismatch。如果想其它教程中所说的,在host和容器上分别装一次driver,cuda和cudnn,则不会出现问题,但我想这失去了容器的意义。看到您所说的通过添加库文件和相关路径,即可在多个容器间共享cuda和cudnn,非常兴奋,希望您能在您的文章中给出具体的步骤,谢谢

]]>
<![CDATA[Fangxin Wang]]> https://feelncut.com/2018/05/03/145.html#comment-11 2018-08-08T19:58:17+08:00 2018-08-08T19:58:17+08:00 Fangxin Wang 放到ld.so.config是什么操作

]]>