デプロイメント

デプロイ可能なアセットがある場合、それをアプリケーションに統合したいかもしれません。このプロセスはターゲットランタイムに依存するため、そのドキュメントを参照してください。

注意: 量子化されたONNXモデルをデプロイするには、オンデバイスのパフォーマンスを向上させ、メモリフットプリントを削減するために、いくつかの追加手順を踏む必要があります。

デプロイ可能なONNXモデルを作成する

量子化とコンパイルのジョブ後のONNXグラフ: Qualcomm® AI Hub Workbench での量子化とコンパイルジョブの組み合わせにより、edge-centricの量子化表現を持つONNXグラフが生成され、エッジはフェイク量子化（Q + DQ）を通過します。すべての重みはfp32で保持され、すべてのopsはfp32で動作します。

必要に応じて、ONNX グラフを QOp 表現と一対一で対応する、オペレーション中心の量子化表現に変換することができます。QOpに対するQDQの利点は、完全に量子化されたグラフを表現するために必要なopsが2つのops（Q、DQ）だけで済むことです。重みは量子化された値として保存されます。重みは量子化された値として保存され、モデルサイズの削減と QOp へのより明確なマッピングに貢献します。

このデプロイ可能なアセットを作成するには:

Qualcomm® AI Hub Workbench からターゲットモデルをダウンロードします。
ダウンロードしたモデルにこのスクリプトを実行します。
必要に応じて、この更新されたモデルをアップロードしてプロファイルしてください。

Qualcomm® AI Hub Apps

モデルをアプリケーションに統合するプロセスは、急な学習曲線があり、難しい場合があります。開始を支援するために、ランタイムの構成方法や、 Qualcomm® AI Hub Workbench によって最適化されたモデルを使用するようにアプリケーションを設定する方法を説明するサンプルアプリのコレクションを増やしています。これにより、デバイス上で推論を実行した際に観測されたパフォーマンスに近い結果を得ることができます。

Qualcomm® AI Hub Apps