【解決方案】透過雲端運算提升 Tapeout 後流程的可擴展性與效能
- Enlight Technology
- Jun 4
- 6 min read
By Bassem Riad
隨著製程幾何尺寸持續縮小,計算光學對 CPU 資源的需求日益提高,不僅需要更強大的運算能力,還需要更多資源來支援日益複雜的演算法與更高精度的元件模型。執行如光學鄰近效應修正(OPC)、光罩製程修正(MPC)以及光罩資料準備(MDP)等 Tapeout 後流程(PTOF)任務,已經逼近傳統內部部署資源的極限,導致工作負載難以預測並面臨重大的擴展性挑戰。
Siemens EDA 為 AWS 所打造的參考環境,透過關鍵優化來因應這些挑戰,包括動態擴展以最大化資源使用率與執行效率,並透過硬體監控來微調運算實例的類型。Cloud Flight Plans 則引導使用者順利遷移至雲端環境,同時 Siemens EDA 也提供強大的叢集管理工具與大規模擴展能力。
雲端:解決長期以來難題的方案
雲端運算已被證實是解決 EDA 公司多年來運算挑戰的有效方案。以下是雲端運算在 Tapeout 後流程中之所以具備優勢(且日益成為必要選擇)的幾個原因:
成本效益:省去前期資本投入,改採隨用隨付的計費模式,並可利用 AWS 的 Spot Instances 進一步節省成本。
可擴展性:可在數分鐘內動態擴增或縮減資源,因應變動的工作負載,有效消除瓶頸。
無與倫比的速度與彈性:只需幾分鐘即可調整叢集規模,遠優於擴充實體基礎架構所需的數週甚至數月。
全球覆蓋:可存取全球各地的雲端資源,讓團隊、合作夥伴與不同地區間的協作更加順暢且安全。
客製化運算:可從超過 400 種運算實例中選擇,依據 PTOF 任務需求調整 CPU 類型、核心數與記憶體配置。
Siemens EDA 與 AWS 的 Cloud Flight Plans
2023 年 7 月,AWS 與 Siemens EDA 建立策略性合作協議,以加速將 EDA 工作負載遷移至 AWS 雲端平台。此合作推出了 Cloud Flight Plans,提供最佳實踐、基礎架構即程式碼(Infrastructure-as-Code)腳本,以及其他廣為採用的方法(包括本文所提及的技術論文),以簡化 EDA 工作負載的部署與執行流程。使用者可無縫擴展至數十萬個核心,降低資本支出,同時加速生產進程。AWS 也促進半導體生態系中的安全全球協作,涵蓋無晶圓廠公司、IP 供應商、晶圓代工廠以及其他合作夥伴。
參考環境
Siemens EDA 為 AWS 打造的雲端參考環境是一套工具組,可在 AWS 上的安全環境中管理任務。該工具使用 AWS ParallelCluster 來部署 AWS 服務,並透過 Slurm 任務排程器進行任務協調。Slurm 會根據工作負載動態調整運算節點,在需要時自動擴充資源,閒置時則縮減至最小資源使用量。預先設定的模板讓 IT 與 CAD 團隊能夠快速啟動優化後的雲端環境,其中也包含對 Calibre MTflex 分散式運算的支援。這是一套可立即使用、具備高效率與可擴展性的雲端作業解決方案。

CalCM+ 雲端化運行
Calibre Cluster Manager(CalCM)最初是為了監控 CPU 使用需求並優化內部部署應用的叢集使用效率所設計,並已成功應用超過十年。如今,CalCM 已進化為專為雲端環境打造、具備 AI 功能的 CalCM+,非常適合部署於 Siemens/AWS 的參考環境中。CalCM+ 提供更高的彈性與全新儀表板,可用於監控雲端資源與成本,並具備以下關鍵功能:
自適應資源管理:依據任務需求、優先順序與硬體可用性,動態配置叢集節點與授權資源。
全面性活動追蹤:紀錄任務效能、硬體使用情況與網路狀況,方便後續分析。
互動式監控:提供即時儀表板,可追蹤資源使用狀態與任務進度。
在雲端環境中,CalCM+ 可與 AWS 參考環境搭配運作,自動調整任務排程並釋放閒置資源,以降低成本。近期我們也新增了多項雲端專屬功能:
AUTOREVOKECYCLE:透過回收未使用資源來提升 CPU 使用率。
雲端成本應用程式:依據 AWS 價格即時估算任務成本(目前為原型功能,僅提供給雲端使用者)。
資料分析工具:預測執行時間與記憶體需求,以協助選擇最適合的運算實例。
Spot 通知工具:即使在中斷期間,也能無縫使用 AWS Spot Instances(關於 Spot Instances 的進一步說明請見下方)。
使用 Spot Instances 額外節省成本
Amazon EC2 Spot Instances 可讓你以極低的價格使用 AWS 雲端的閒置資源,最多可比隨選價格便宜 90%。
但這裡有個前提:當 AWS 的常規需求增加時,Spot Instances 可能隨時被收回。這不是錯誤,而是 Spot Instances 的正常運作方式。因此,這類資源最適合可容許中斷的任務。AWS 在終止 Spot Instance 前會發出兩分鐘的警告,讓你有時間結束任務並將該節點從任務中移除。
對於使用 Calibre 的用戶來說,「Calibre Spot Notifier」工具(目前為 beta 版本)能協助應對這類中斷情況。該工具會監控 AWS 的終止訊號,並在時間內通知 CalCM 將工作負載轉移至其他遠端主機,避免發生錯誤。只要確保關鍵服務不是執行在 Spot Instances 上,而是使用於可輕易重新啟動的純運算任務,就能安全運作。
只要配置得當,就能無縫利用 Spot Instances,享受大幅的成本節省,同時不影響運算流程。
Calibre FullScale
Calibre FullScale 非常適合部署於 Siemens/AWS 的參考環境中。這是一個專為 Tapeout 後流程(如 OPC、RET 與 MDP)打造的高效能平台,能夠運用數千個 CPU,以達到最佳運算效率。它將任務拆分為可並行執行的獨立子任務,並將有相依性的任務群組在一起順序處理,以確保流程順暢。
透過保留部分佈局階層結構並直接存取資料(而非透過資料庫),Calibre FullScale 可加速運作流程,但也因此對網路速度有較高需求(至少需達 10GB/sec)。此平台特別適用於 Tapeout 後流程中常見的「扁平化佈局」,並透過智慧演算法將大型任務拆分成小型、經過優化的子任務來提升效能。
針對高負載的工作,Calibre FullScale 的 PFSDB 選項可善用快速的暫存儲存裝置,減少網路壅塞,進一步提升處理效率與流程順暢度。
成本與執行時間的平衡公式
雲端運算的一大優勢,特別是在 Tapeout 後常見的緊湊時程中,就是能在執行時間與成本之間取得最佳平衡。Siemens EDA 的基準測試顯示,只要將 CPU 數量加倍,就能大幅縮短執行時間,而成本僅會小幅增加。這種彈性讓製造商可以針對緊急專案優先追求速度,或是在時程較寬裕的任務中選擇節省成本。

透過雲端幾乎無上限的 CPU 資源,以及微影模擬出色的可擴展性,實現任意目標執行時間幾乎指日可待。

展望未來:邁向半導體製造新紀元
Siemens EDA 與 AWS 的合作不僅是一場技術上的結盟,更是一份面向未來的藍圖。而這僅僅是起點。像 CalCM+ 和 Calibre FullScale 這類工具,進一步在效能、可擴展性與成本控管方面發揮極大優勢,讓雲端運算成為關鍵時刻的最佳解方。
無論你是製程工程師、微影技術人員、晶圓代工廠經理,或是設計端人員,對雲端運算在計算微影中的潛力感到好奇,這場轉變都值得深入探索。歡迎閱讀完整技術論文《Crush Semi-manufacturing runtimes with Calibre in the cloud》,了解 Siemens EDA 與 AWS 如何攜手為製造商在關鍵時刻提供最大生產力所需的工具。
Comments