デプロイメント

デプロイ可能なアセットがある場合、それをアプリケーションに統合したいかもしれません。このプロセスはターゲットランタイムに依存するため、そのドキュメントを参照してください。

注意: 量子化されたONNXモデルをデプロイするには、オンデバイスのパフォーマンスを向上させ、メモリフットプリントを削減するために、いくつかの追加手順を踏む必要があります。

デプロイ可能なONNXモデルを作成する

ONNX Graph after Quantize & Compile Job: The combination of quantize and compile jobs in Qualcomm® AI Hub Workbench produces ONNX graphs with edge-centric quantized representation where edges go through fake quantization (Q + DQ). All the weights are kept in fp32 and all the ops operate on fp32.

必要に応じて、ONNX グラフを QOp 表現と一対一で対応する、オペレーション中心の量子化表現に変換することができます。QOpに対するQDQの利点は、完全に量子化されたグラフを表現するために必要なopsが2つのops(Q、DQ)だけで済むことです。重みは量子化された値として保存されます。重みは量子化された値として保存され、モデルサイズの削減と QOp へのより明確なマッピングに貢献します。

このデプロイ可能なアセットを作成するには:

  • Download the target model from Qualcomm® AI Hub Workbench.

  • ダウンロードしたモデルにこの スクリプト を実行します。

  • 必要に応じて、この更新されたモデルをアップロードしてプロファイルしてください。

Qualcomm® AI Hub Apps

The process of integrating your model into your application can be daunting, with a steep learning curve. To help you get started, we have a growing collection of sample apps which walk through how to configure your runtime and how to configure your application to use your model optimized by Qualcomm® AI Hub Workbench to achieve performance similar to what we observed when running inference on device.