1.4 Maintenance for system
The Fed Machine could be maintained like other servers inside the server room. There is no extra effort needed for maintaining the Fed Machine.
(The following descriptions are in Chinese.)
聯合學習主機 (Fed Machine) 維護 :
本專機需有順暢的網路環境,良好的散熱環境,以及符合機房等級的散熱降溫的冷氣設備。
如其他機房專業主機設備,本主機建議電源應直接接上 UPS (不斷電系統),且須具有電流脈衝穩壓保護機制。
本專機部署在醫院或機構端的內部網路當中,由醫院或機構的硬體網路防火牆 (Firewall Gateway) 作為虛擬環境的保護。
本專機預期安裝在網路主機機櫃 (Server Rack) 當中,非專職或相關的管理人員,不得有實體接觸的機會。
若專機所處地點遇到火災、風災、水災等,需要提前將專機關機並搬移到安全場所。當專機所處地點遇到停電狀況,需事先將本專機關機。
AILabs 聯合學習訓練專機 共用與維護守則
Q: AILabs 聯合學習訓練專機 如何做到數個專案共用設備 ?
A:
Taiwan AI Labs 聯合學習訓練專機,導入目前軟體工程業最新的 Dockers, Kubernetes 等軟體介面封裝技術,將相關模組包裝成 Containers,以 Virtual Machine 的機制,透過 CPU, GPU, Memory sharing 的技術,Restful/Restless API 以及可特定排程的時間安排,讓數案可以同步進行,互不影響。
Q: AILabs 聯合學習訓練專機 設備如何維護 ?
A:
本專機需有順暢的網路環境,良好的散熱環境,以及符合機房等級的散熱降溫的冷氣設備。
如其他機房專業主機設備,本主機建議電源應直接接上 UPS (不斷電系統) ,且須具有電流脈衝穩壓保護機制。
本專機部屬在醫院或機構端的內部網路當中,由醫院或機構的硬體網路防火牆 (Firewall Gateway) 作為虛擬環境的保護。
本專機預期安裝在網路主機機櫃 (Server Rack) 當中,非專職或相關的管理人員,不得有實體接觸的機會。
若專機所處地點遇到火災、風災、水災等,需要提前將專機關機並搬移到安全場所。 當專機所處地點遇到停電狀況,需事先將本專機關機。
Q: AILabs 聯合學習訓練專機 如何做到管理?
A:
本專機透過網路 HTTPS (443 ports) ,會定期將訓練專機上的硬體、作業系統、軟體服務等狀況,顯示在 Status Dashboard 上。專職負責的系統操作員 則可透過觀看 Status Dashboard 的狀況,得知主機目前的狀況。
本專機提供 OTA 軟體更新的功能,若有 security patches 需要更新,可在第一時間立即更新。
若有聯合學習的需求,則透過 Aggregator Dashboard (Training) 以及 Fed Dashboard (Training) 等網頁進行設定。
若有聯合驗證的需求,則透過 Aggregator Dashboard (Validation) 以及 Fed Dashboard (Validation) 等網頁進行設定。