デプロイメント
デプロイ可能なアセットがある場合、それをアプリケーションに統合したいかもしれません。このプロセスはターゲットランタイムに依存するため、そのドキュメントを参照してください。
注意: 量子化されたONNXモデルをデプロイするには、オンデバイスのパフォーマンスを向上させ、メモリフットプリントを削減するために、いくつかの追加手順を踏む必要があります。
デプロイ可能なONNXモデルを作成する
ONNX Graph after Quantize & Compile Job: The combination of quantize and compile jobs in Qualcomm® AI Hub Workbench produces ONNX graphs with edge-centric quantized representation where edges go through fake quantization (Q + DQ). All the weights are kept in fp32 and all the ops operate on fp32.
必要に応じて、ONNX グラフを QOp 表現と一対一で対応する、オペレーション中心の量子化表現に変換することができます。QOpに対するQDQの利点は、完全に量子化されたグラフを表現するために必要なopsが2つのops(Q、DQ)だけで済むことです。重みは量子化された値として保存されます。重みは量子化された値として保存され、モデルサイズの削減と QOp へのより明確なマッピングに貢献します。
このデプロイ可能なアセットを作成するには:
Download the target model from Qualcomm® AI Hub Workbench.
ダウンロードしたモデルにこの スクリプト を実行します。
必要に応じて、この更新されたモデルをアップロードしてプロファイルしてください。
Qualcomm® AI Hub Apps
The process of integrating your model into your application can be daunting, with a steep learning curve. To help you get started, we have a growing collection of sample apps which walk through how to configure your runtime and how to configure your application to use your model optimized by Qualcomm® AI Hub Workbench to achieve performance similar to what we observed when running inference on device.