1. 本科及以上学历,生物信息/计算机及其他相关专业;
2. 有高校或科研机构数据中心管理工作经验者优先;具有海外留学或工作经历者优先;
3. 8年以上HPC的基础设施管理经验,熟悉HPC集群的设计、部署、管理和优化流程;
4. 熟悉HPC环境下的存储技术和协议(如NFS、iSCSI、Fibre Channel、RDMA等);
5. 深入了解主流的分布式文件系统(如Lustre、GPFS、Ceph、GlusterFS等)。有相关认证(如Lustre认证、IBM GPFS认证等)的优先考虑;
6. 熟悉主流的HPC平台和工具,例如SLURM、Torque、PBS等;
7. 能够使用监控工具(如Ganglia、Prometheus、Grafana等)对HPC集群进行性能监控;
8. 具备良好的问题解决能力和分析能力,能够在压力下高效工作;
9. 具有团队合作精神,能够与其他团队和用户有效沟通;
10. 良好的英文读写能力,能够阅读和理解技术文档。英语能作为工作预言者优先。
1. 参与深圳国家基因库HPC集群的整体架构设计,包括服务器、存储、网络和其他基础设施组件的选型和配置。 制定基础设施扩展计划,确保能够支持未来业务增长和技术需求;
2. 负责HPC集群中计算节点、存储系统和网络设备的安装、配置和日常维护;
3. 监控存储系统的性能指标,识别瓶颈并进行优化;
4. 为HPC用户提供相关的技术支持,解决他们在使用过程中遇到的问题;
5. 实施数据备份和恢复策略,确保关键数据的安全性和完整性;
6. 提供集群使用培训,帮助用户更好地理解和使用资源;
7. 领导交办的其它任务。