1.如何調用CUDA環境調試GPU程序?
A:運行 srun -n 1 --exclusive -p gpu2Q --gres=gpu:2 --pty bash 提交一個互式作業,即可以獨占模式申請一個雙卡GPU節點,提交后終端會自動切換到分配的節點中,完成調試后,回到登錄節點正常使用作業提交(在作業腳本中指定GPU隊列和GPU數量)。
2.使用vi編輯文件時,左下角顯示“DOS”,表示文件為DOS格式,該如何轉換成Unix格式?
A:運行命令dos2unix 文件名。
3.平臺軟件安裝在什么位置?如何啟用MPI編譯器編譯程序?
A:平臺所有共用軟件都安裝在/public/software目錄下;平臺安裝了多種MPI編譯器,推薦使用Intel MPI和MKL數學庫,加載Intel MPI編譯環境可執行: source /public/software/intel/intel2019/intel2019-env.sh
4.如何在平臺安裝需要管理員權限的軟件?
A: 如果您采購了正版或具有正規授權的軟件,可以聯系軟件公司協助安裝,期間需要管理員權限、或需要配置軟件使用范圍的,可以和軟件公司一起到信息與網絡中心3樓340辦公室找管理員協助安裝。其他免費、開源的軟件,可以發郵件到hpc@csu.edu.cn請求管理員協助安裝到平臺的公共軟件目錄下。
5.如何在平臺使用32位或其他linux操作系統環境?
A:平臺提供了singuarity容器供不同計算環境需求使用。如:啟用一個32位的CentOS6 環境,可提交一個容器作業:
srun -n1 --pty singularity run /public/software/singularity/containers/centos_6_i386.sif
目前平臺的容器鏡像放置在/public/software/singularity/containers目錄下,用戶如有其他容器鏡像需求,請發郵件到hpc@csu.edu.cn
6.如何在平臺使用圖形界面軟件?
A:為避免用戶直接在登錄節點運行程序,影響其它用戶正常使用,平臺不直接提供遠程桌面(VNC)方式用于圖形界面軟件。需要使用圖形界面的用戶,需提交一個交互式計算任務,使軟件運行在計算節點上。以運行python編輯器spyder的圖形界面為例:
(1)用戶首先需具有一個X虛擬桌面:Linux系統或者Mac OS的用戶,可以在ssh登錄時增加 -X 參數;Windows系統用戶可以使用Xming或者MobaXterm(推薦)連接平臺,并開啟“X server”。
(2)提交一個交互式作業啟動spyder編輯器:srun -n1 --exclusive --x11 /public/software/anaconda3/bin/spyder
7.如何安裝使用anaconda環境并安裝需要的軟件包?
A:平臺在/public/software/anaconda目錄下安裝了相應的軟件,并開通了清華大學anaconda的源解析。常規使用操作及說明如下:
(1)/public/software/anaconda3/bin/conda init bash #初始化conda環境,須重新登錄生效
(2)cp /public/software/anaconda3/condarc ~/.condarc && conda clean -i #配置清華大學conda源
(3)conda create -n py3.7 #創建自己的conda環境,如python 3.7
(4)conda activate py3.7 #激活py3.7環境
(5)conda install python=3.7 #安裝需要的軟件包
請不要在登錄節點直接運行python程序,計算必須通過作業調度系統運行到計算節點之上。
8.作業調度系統的QOS作用是什么,如果選擇合適的QOS?
A:QOS (Quality of Service)是Slurm作業調度系統中一種控制資源使用的機制。在作業提交時,通過-q或--qos參數來指定。如:
命令提交:srun -q gpuq -n 1 myprogram
腳本參數:#SBATCH --qos=gpuq
一些QOS限制帶來的作業提示信息說明(執行squeue查看):
Job's QOS not permitted to use this partition #用戶沒有提交隊列的權限
QOSMaxNodePerUserLimit #已達最大用戶可用節點數限制
QOSMaxCpuPerUserLimit #已達最大用戶可用CPU數限制
平臺會根據使用情況調整可用的QOS,用戶可以通過腳本命令qosinfo查看可用的QOS以及對應的隊列權限。如:
[zy@ln01 ~]$ qosinfo
(1)Allow QOS of each partition:
----------------------------------------------------------------
PartitionName=cpuQ AllowGroups=ALL AllowAccounts=ALL AllowQos=ALL #cpuQ允許所有QOS
PartitionName=ResQ AllowGroups=ALL AllowAccounts=ALL AllowQos=resq #ResQ僅允許resq QOS
PartitionName=gpu2Q AllowGroups=ALL AllowAccounts=ALL AllowQos=gpuq #gpu2Q僅允許gpuq QOS
PartitionName=gpu4Q AllowGroups=ALL AllowAccounts=ALL AllowQos=gpuq #gpu4Q僅允許gpuq QOS
PartitionName=gpu8Q AllowGroups=ALL AllowAccounts=ALL AllowQos=gpuq #gpu8Q僅允許gpuq QOS
PartitionName=fatQ AllowGroups=ALL AllowAccounts=ALL AllowQos=fatq #fatQ僅允許fatq QOS
(2)Limitation of each QOS:
Name MaxTRESPU MaxJobsPU
---------- ------------------------ ---------
normal cpu=2400,node=50 100 #normal QOS最多使用2400核心,最多使用50個節點,最大任務數為100.
gpuq cpu=40,node=1 10 #gpuq QOS最多使用40核心,最多使用1個節點,最大任務數為10.
fatq cpu=80,node=1 10 #fatq QOS最多使用80核心,最多使用1個節點,最大任務數為10.
(3)Available QOS for current user:
User QOS
---------- --------------------
zy fatq,gpuq,normal #用戶zy可用的QOS有fatq,gpuq,normal