部署
一旦你有了可部署的資產,你可能會想將其整合到應用程序中。這個過程將取決於目標runtime,因此請參考其文檔:
注意:部署量化的 ONNX 模型包括一些額外的步驟,必須遵循這些步驟以提高設備上的性能並減少記憶體用量。
創建可部署的 ONNX 模型
ONNX Graph after Quantize & Compile Job:在 Qualcomm® AI Hub Workbench 中,量化與編譯作業的組合會產生 ONNX 圖形,採用邊緣導向的量化表示,其中邊緣會經過虛擬量化(Q + DQ)。所有權重保持在 fp32,且所有運算皆在 fp32 上執行。
如果需要,您可以將 ONNX 圖轉換為以操作為中心的量化表示,其與 QOp 表示具有一對一的對應關係。QDQ 相較於 QOp 的優勢在於,只需在 opset 中加入兩個額外的操作(Q 和 DQ),即可表示完整的量化圖。權重會以量化值儲存,這不僅減少了模型大小,也有助於更清晰地對應到 QOp。
要創建這個可部署的資產:
從 Qualcomm® AI Hub Workbench 下載目標模型。
在下載的模型上運行這個 腳本 script。
如有需要,請上傳並分析這個更新後的模型。
Qualcomm® AI Hub Apps
將您的模型整合到應用程式的過程可能相當艱鉅,並且具有陡峭的學習曲線。為了幫助您入門,我們提供不斷增加的範例應用程式,這些範例將引導您如何設定執行環境,以及如何設定您的應用程式以使用經 Qualcomm® AI Hub Workbench 優化的模型,從而達到與在裝置上執行推論時相似的效能。