リリースノート
2026年5月11日リリース
ONNX Runtime 1.25.0 に更新しました。
最新バージョンとして QAIRT 2.46.0 のサポートを追加しました。
AIMET-ONNX 2.29.0 にアップグレードしました。
batchnorm レイヤーを含むモデルの量子化ジョブの精度を改善しました。
2026年4月27日リリース
モデルは現在、ONNX opset 21 を対象としてコンパイルされるようになり、バージョン 18 から 21 に更新されました。
さまざまな性能改善のため、Compile Job 経由で新しいグラフ最適化パスが追加されました。
モデル入力形式を
.ptから.pt2に移行しています。.ptのサポートは段階的に終了します。移行するには、ExportedProgram を.pt2ファイルとして保存してください。モデルのコンパイル時に Torch から ONNX へのエクスポートで Failure occurred が発生した場合は、.pt2へのアップグレードが必要です。Link job では、graph_name、テンソル名、その他すべての詳細を含む I/O 仕様が利用できるようになりました。
Lite RT 2.1.4 にアップグレードしました。引き続き、Lite RT 1.4.3 では既存のインタープリター API を使用しています。
モデルの実行に使用できる Devices に、Similar Devices セクションが追加されました。関心のあるデバイスが AI Hub Workbench 上で利用できない場合でも、機能性や互換性を確認するために、モデルのテストやコンパイルを行う代替デバイスを特定する参考として使用できます。実機上でモデルを実行すると、性能や精度の指標は異なる場合があります。
2026年4月14日リリース
QAIRT 2.45.0 にアップグレードしました。AI Hub Workbench で利用可能な QAIRT のバージョンには、2.42.0、2.43.0、2.45.0 が含まれます。
ONNX 1.19.1にアップグレードされました。
Quantize Job を AIMET-ONNX 2.28.0 にアップグレードしました。
ONNX Runtimeを対象とするプロファイルジョブでは、Runtime Layer Analysisセクションでoptraceプロファイル情報がサポートされるようになりました。
NPUセグメント情報(optraceプロファイルおよびQHASサマリーデータ)を表示するには、Runtime Layer Analysisセクションのplacement列にあるNPUをクリックしてください。
Samsung Galaxy S21+(OSバージョン: 11)は削除されました。ほかのS21デバイスをご利用ください。
2026年3月30日リリース
すべての新規ジョブを TF Lite から Lite RT 2.1.3 に移行しました。これにより、NPU アクセラレーション向けの Google の新しいランタイムへ移行します。現在のところ、既存のインタープリター API とデリゲートを引き続き使用しています。
AIHW によって生成された TF Lite モデルは、Lite RT を含む TF Lite 2.19.0 以降と互換性があるようになりました。旧バージョンの使用はサポートされなくなりました。
PyTorch 2.9.x で生成された
.pt2モデルのコンパイルが、AI Hub Workbench でサポートされるようになりました。--quantize_full_typeのコンパイルジョブオプションは非推奨となり、代わりに AI Hub Workbench の Quantize Job API を利用することが推奨されます。Quantizeジョブ向けにAIMET-ONNX 2.27.0へアップグレードしました。この更新により、quantizeジョブの一部としてlite_mp(lite mixed precision)のログを確認できるようになりました。
出力データセットに加えて、ログやプロファイリングデータなどの他のジョブ成果物も、AI Hub Workbench クライアントからダウンロードできるようになりました。これらは
hub.get_job()でアクセスできます。実機の Dragonwing IQ-9075 EVK が以前から AI Hub Workbench で利用可能であることから、QCS9075(proxy)は AI Hub Workbench から削除されました。各ジョブは実機を使用するよう移行してください。
Samsung Galaxy S21+(OS バージョン: 11)のサポートは次回のデプロイで削除されます。ほかの S21 デバイスのいずれかをご利用ください。
デバイスタイプに関するドキュメントを追加しました。プロキシ、デバイスファミリなどについて説明しています。Workbench で推論を実行できる devices をすべて確認してください。
2026年3月2日リリース
ランタイムオプション
--target_runtime qnn_context_binaryは非推奨となりました。QNN コンテキストバイナリアセットの作成には、submit_compile_and_link_jobs()API をご利用ください。ログからの具体的なエラー内容を表示することで、Quantize Job のエラーメッセージが改善されました。解決に向けた具体的な提案が得られないままジョブが失敗する場合は、お知らせください。
プロキシデバイスに送信されたジョブに対して、特に CPU/GPU における性能の詳細に関する追加の警告が追加されました。これらのプロキシデバイスは、指定されたデバイスの NPU 特性を模倣することを目的としていますが、オペレーティングシステム、ファームウェア、クロック速度、メモリ、熱設計、その他の要因の違いにより、プロファイリング結果は実際のデバイスと異なる場合があります。モデルが CPU または GPU 上で実行される場合、実機では速度が大きく異なる可能性があります。
Quantize Job には、使用されている AIMET のバージョンがジョブの versions セクションに表示されるようになりました。
2026年2月17日 リリース
コンパイルジョブで QNN Model Libraries を対象にする機能は AIHW から削除されました。具体的には、オプション
--target_runtimeの値qnn_lib_aarch64_androidはもう受け付けられず、--qnn_bin_conversion_via_model_libraryオプションも受け付けられず、QNN Context Binary モデルのリンクもできなくなりました。QNN モデルライブラリを用いたプロファイル/推論ジョブの送信機能は非推奨となり、将来のリリースでサポートが削除される予定です。既存のモデルライブラリはプロファイル可能ですが、前述のとおり AI Hub Workbench のコンパイルジョブでモデルライブラリにコンパイルすることはできなくなっています。
以前から非推奨だった
submit_compile_and_quantize_jobsAPI は削除されました。SC8480XP Windows デバイスが AI Hub Workbench で利用可能になりました。
QAIRT 2.43.1へアップグレードしました。AIHW上のQAIRTバージョンには、2.41.0、2.42.0(デフォルト)、2.43.1(最新)が含まれます。
ONNX Runtime 1.24.1 にアップグレードされました。
コンパイルジョブ API の一部として生成されたターゲットモデルは、従来表示されていたソースモデルに加えて、AI Hub Workbench UI の Models タブにも表示されるようになりました。
Google Pixel 6a デバイスのサポートは AI Hub Workbench から削除されました。
(Quantize Job における)aimet-onnx が 2.24 にアップグレードされました。
2026年2月2日 リリース
新しい API
submit_compile_and_link_jobs()API が利用可能になりました。これにより、複数のモデルをコンパイルして、重み共有された QNN コンテキストバイナリにリンクする必要があるユーザーのワークフローが 簡素化されました。詳細 をご確認ください。ベータ提供開始:
.pt2(Torch exported program) サポートが、AI Hub WorkbenchのCompileジョブで入力モデルに対して利用可能になりました。現時点では、この機能を利用するにはPyTorch 2.8.0でエクスポートする必要があります。以前に非推奨となっていた、
submit_compile_and_profile_jobsAPI にターゲットモデルを渡す機能は削除されました。
2026年1月26日リリース
IQ9075-AA(100 TOPS)Qualcomm Linux版がQualcomm AI Hub Workbenchで利用可能になりました!ぜひ本日、モデルを実行してデバイスをお試しください。
QAIRT 2.42.0 にアップグレードされました(現在のデフォルトおよび最新バージョン)。
いくつかのプロキシデバイスが Workbench から削除されました - IOT: QCS6490(Proxy)、Auto: SA8255(Proxy)、SA8650(Proxy)、SA8775(Proxy)。
デバイス廃止予定のお知らせ:Google Pixel 6a(OSバージョン:13)は、経年および使用状況により次回リリースで廃止される予定です。懸念があればお知らせください。
AIMET-ONNX 2.22 にアップグレードされました(Quantize Job 内)。
Quantize Job の lite-mp は、感度分析を行う際にモデルの最初の出力だけでなく、すべての出力を使用するように更新されました。
2026年1月6日リリース
I/O仕様情報と量子化パラメータがモデルページに表示されるようになりました。詳細情報はAI Hub Pythonクライアントからもアクセスできます。
QAIRTを2.41.0へアップグレードしました。
Quantize JobsがAIMET-ONNX 2.21.0にアップグレードされました。
次回のリリースで複数のプロキシデバイスが削除される予定です。 IOT:実機のQualcomm Dragonwing™ RB3 Gen 2 Vision Kit(QCS6490)が11月中旬からAI Hub Workbenchで利用可能となったため、QCS6490プロキシが削除されます。 Auto:SA8255(Proxy)、SA8650(Proxy)、SA8775(Proxy)。
QNN用のTFLite Delegateオプション(OpenGLバックエンドとnnapiとnnapi-gpuを用いたGPUv2)がAI Hub Workbenchから削除されました。
Python 3.9のサポートは終了しました(2025年10月31日のEOLに伴うものです)。
2025年12月8日リリース
AIMETを2.20.0へ更新しました。
Qualcomm Snapdragon™ 8cx Gen 3 CRD (SC8280XP) は AI Hub Workbench から削除されました。
2025年11月19日リリース
AI Hub製品ポートフォリオをリブランディングします。モデル最適化プラットフォーム(以前の「AI Hub」)は、今後 AI Hub Workbench と呼ばれます。他の製品である AI Hub Models と AI Hub Apps は変更ありません。
Qualcomm Dragonwing™ RB3 Gen 2 Vision Kit(QCS6490)がAI Hub Workbenchで利用可能になりました。これはQualcomm Linuxを実行する初のデバイスです。このデバイスが利用可能になったため、QCS6490プロキシは近いうちに非推奨となります。
Qualcomm Dragonwing™ Q-6690 MTP(QCM6690)がAI Hub Workbenchで利用可能になりました。これで、このデバイスをターゲットにしたジョブを送信できます。デバイスの詳細は デバイスページ をご覧ください。
submit_compile_and_quantize_jobsは非推奨となりました。submit_compile_job()およびsubmit_quantize_job()API を使用してください。submit_compile_and_profile_jobs()にターゲットモデルを渡すことは非推奨となりました。submit_profile_job()API を使用してください。ドキュメント:FP16以外のデバイスでONNX Runtimeを使用する新しいプロファイルジョブの例を追加しました。コンパイルジョブの例も更新されています。
QAIRT 2.40.0(最新)への対応を追加しました。デフォルトはQAIRT 2.39です。
現在AI Hub Workbenchで利用可能なQualcomm Snapdragon™ 8cx Gen 3 CRD(SC8280XP)は、今後数週間で非推奨となり削除されます。懸念がある場合はお知らせください。
2025年11月4日リリース
QAIRT のデフォルトを 2.39.0 に更新しました。
Python の依存関係として、NumPy のサポートが 2.0 まで拡張されました。
2025年10月27日リリース
QNN を指定されたランタイム(コンテキストバイナリまたは DLC)として使用するプロファイルジョブで、Optrace データが利用可能になりました。
Runtime Layer Analysisセクションを展開し、view optraceをクリックして詳細な HTP プロファイリングデータを確認してください:QNN Op と HTP Op の詳細、Optrace のタイミングおよびボトルネック。
2025年10月22日リリース
最近のデバイスファームのアップデートにより、プロファイルおよび推論ジョブで断続的な失敗が発生しました。発生するエラーは
Failed to fully run the model, failed after compilingまたはFailed to profile the model: unexpected device errorとなります。現在、デプロイメントに回避策を適用済みですので、ジョブを再度お試しください。QAIRT 2.39.0(最新版)のサポートを追加しました。
PyTorch 2.8.0 にアップグレードしました。
LiteMP(混合精度)機能を使用する際の Quantize Job 内の PSNR 関数を、AIMET の PSNR 計算(オフライン使用時)に合わせて更新しました。
2025年10月6日リリース
ドキュメント内の compile models examples を簡素化するための軽微な更新を行いました。
ONNX Runtime 1.23.0 に更新しました。
AI Hub によって生成された ONNX モデルは、現在
ir_version=11になっています。推論を実行するには ONNX Runtime 1.23.0 が必要です。AIMET-ONNX 2.15.0 に更新しました。
AI Hub では、モデルをメモリに直接ダウンロードする機能が削除されました。モデルはディスクにダウンロードする必要があります。
2025年9月29日リリース
ONNX Runtime 向けに、追加のプロファイルジョブオプションが(--onnx_options 経由で)追加されました。
vtcm_mb、context_priority、およびoffload_graph_io_quantizationの設定方法については、API documentation をご覧ください。新しいデバイス:現在、Qualcomm AI Hubを通じてモデルをテストできる2つの新しいモバイルデバイスが利用可能です:Snapdragon® 8 Elite Gen 5 (SM8850) と Snapdragon® 7 Gen 4 (SM7750)。これらのデバイスのいずれかでモデルをテストするには、ジョブを送信する際に次のようにデバイス名を指定してください:
device=hub.Device("Snapdragon 8 Elite Gen 5 QRD")事前コンパイルされた ONNX モデルに対する修正が実装されました。
2025年9月22日リリース
AIMET-ONNX 2.14.0 にアップグレードしました。
QAIRT 2.38.0 が最新バージョンとして利用可能になりました。また、QAIRT 2.37.0 は 2.37.1 にアップグレードされました。
ジョブ作成および再試行操作に関する追加のログ記録が追加されました。
2025年9月8日リリース
ONNX Runtime 1.22.2 にアップグレードしました。
'unknown'という理由によるジョブ失敗が減少しました。
2025年9月2日リリース
LiteMP(light mixed precision の略)は、AI Hub で量子化ジョブを送信する際にベータ版として利用できるようになりました。量子化ジョブを送信する際に this option を有効にすると、指定した層の割合を指定した精度に変更できるようになります(
--lite_mp percentage=10;override_qtype=int16)。aimet-onnx 2.13.0 にアップグレードされました。
2025年8月22日リリース
新しいシングルサインオン(SSO)プロバイダーに移行しました。ユーザーへの影響はないはずです。問題が発生した場合は、再ログインをお試しいただき、予期しない動作があればお知らせください。
QAIRT 2.37.0 および aimet_onnx 2.12.0 にアップグレードされました。
モデルをメモリに直接ダウンロードする機能は非推奨となりました。これに伴い、クライアントおよびドキュメントに警告が追加されました。今後は以下のように、ソースモデルをファイルとしてダウンロードしてください:
model = compile_job.download_target_model("model_filename")ファイル名は必須です。長らく非推奨となっていたクライアント API
get_jobsは、正式に削除されました。代わりにget_job_summaries()を使用してください。
2025年8月11日リリース
AI Hub で DLC サポートが完全に機能するようになりました。その結果、.so モデルライブラリファイルの生成は今後行わない方針となります。DLC ファイルは同じ用途(つまり AArch64 Android を対象とする場合)に適していることが確認されており、より信頼性も高いためです。そのため、.so の生成は AI Hub により非推奨となり(直ちに有効、つまり今後はサポートも保守もされません)、その後約 6 週間で削除されます。
.binファイルを生成する場合は、これからは.dlcを経由します。.bin``(--qnn_context_binary``)および.dlc``(--qnn_dlc``)を生成するためのランタイムオプションと、その他のランタイムオプションは変更ありません。非推奨オプション--qnn_bin_conversion_via_model_libraryを使用すると、.soモデルを通じて.binファイルを生成できます。リンクジョブは、1 つ以上のデバイスに加えて、.dlcファイルを 1 つ以上受け取るようになりました。従来の.binモデルをリンクする方式は非推奨となります。さらに、--target_runtime qnn_lib_aarch64_androidも非推奨となります。QAIRT 2.36.4 にアップグレードしました。これが現在のデフォルト版です。現在、Hub は 2.33.2、2.34.2、2.36.4 をサポートしています。
QNN Context Binaryの生成失敗によるコンパイルジョブの検証エラーに対するエラーメッセージが改善されました。該当する場合、メッセージには <失敗した <failed op_name>: <op_type>: <root-cause of failure> が含まれます。
ONNX Runtimeの一般的なエラーをドキュメントの FAQ に追加しました。
特定の失敗したジョブに関するエラーメッセージには、該当する場合、詳細情報を確認するためのランタイムログへのポインタが含まれるようになりました。
ONNX Runtimeを使用するプロファイル/推論ジョブの前に、パイプライン内で重みを量子化することは今後行いません。この変更は将来の機能強化をサポートし、パフォーマンス測定の再現性を高めるために行われました。
2025年7月28日リリース
Quantizeジョブにて、AIMET-ONNX 2.10.0へアップグレードしました。
ドキュメントのローカライズが新たに3言語(韓国語、日本語、繁体字中国語)で利用可能になりました。左下の言語セレクターで切り替えて確認してください。
デバイス(>=v73 および SA8295P)に weight sharing 属性を追加しました。
hub.get_devices()を送信すると、属性htp-supports-weight-sharing:trueにより、どのデバイスの HTP が重み共有を許可するかが示されます。
2025年7月14日リリース
AI Hub は、モデルのサイズに関係なく、アップロードや可視化に影響する下流の問題に対処するため、常に外部重み(
.zip)付きの ONNX モデルを生成するようになりました。これを重みを埋め込んだ単一のモデルにするには、ユーザーは次のことができます。import onnx model = onnx.load("your_model.onnx") onnx.save(model, "your_new_model.onnx")
OpSet 5のReshapeレイヤーを使用するONNXモデルで発生していたコンパイルバグを修正しました。
外部ウェイトを使用するONNXモデルのQuantizeジョブにおけるPSNR計算のバグを修正しました。
AIMET+ONNXからQNNへのコンパイル時に発生していたいくつかの問題に対処しました。
AI Hubクライアントで必要なprotobufのバージョン制限を緩和しました。protobuf>=3.20,<=6.31.1がインストール可能になりました。
Yolov8 QNNコンテキストバイナリでテンソル出力の順序に影響を与えていた問題が、最新のQAIRTバージョンで解決されました。
バージョンタブに表示されるAI Hubのバージョンが一時的にlocal-hub-1999と表示されていた問題が解決されました。
.dlcを対象とする w8a8 および w8a16 モデルの量子化モデル性能は、意図せず Q/DQ ノードに影響を与えたパフォーマンスグラフのパスにより、著しい性能低下が報告されました。
2025年6月30日リリース
モデルの可視化機能が拡張され、int4レイヤーの表示が可能になりました。
依存パッケージを各種アップグレードしました。QAIRT 2.35 は最新バージョンです。QAIRT 2.34.2 は引き続きデフォルト版です。Quantize Job 用の AIMET ONNX は 2.8.0 です。ONNX Runtime は 1.22.0 です。
2025年6月16日リリース
QAIRT SDK 2.34.2 にアップグレードされました。すべてのジョブでこのバージョンがデフォルトとして使用されます。
.dlc モデルの可視化サポートが追加されました(QAIRT SDK バージョン 2.34.2 以上が必要です)。
量子化ジョブは aimet-onnx 2.7.0 を使用するようになりました。
Qualcomm AI Hub CLI クライアントに
--verboseオプションが追加され、詳細なログ出力が可能になりました。これは失敗したジョブのデバッグ時に役立ち、詳細情報を得るために当社チームから要求される場合があります。複数のグラフのうち 1 つをプロファイリングする際、特に LLM エクスポートのチュートリアルを使用したときに見られた断続的な失敗を解消するためのバグ修正です。これは、
--qnn_optionsをフラグとして渡したことにより、意図しない動作が発生していたためです。
2025年6月2日リリース
マルチグラフプロファイリングに関連するバグを修正しました。
RF-DETR モデルをサポートするため、TFLite パスに限定した 6D スライスのサポートを追加しました。
(2GB を超える)大規模モデルのサポートが、量子化ジョブおよび Compute プラットフォーム上でのプロファイル/推論ジョブに拡張されました。Android プラットフォームでは現在、大規模モデルのプロファイルまたは推論はサポートされていません。
aimet-onnx 2.6.0にアップグレードされました。
2025年5月14日リリース
CLI 経由でモデルをアップロードする際、モデル ID とクリック可能なモデルリンクが表示されるようになりました。
aimet-onnx 2.5.0にアップグレードされました。
2025年5月5日リリース
ユーザはAI Hubでコンパイルする大規模PyTorchまだはONNXモデル(以前は2GBより大きいモデルはエラーメッセージが表示)を持ち込むことができますが、大規模TFLiteモデルはまだサポートされていないことに留意してください。
複数のパッケージをアップグレードしました:QAIRT 2.33.2, ONNX Runtime 1.21.1, aimet-onnx 2.4.0。
間違ったインプットシェイプを持ったジョブの際に、追加のエラーメッセージをAI Hubに送信しました。
precompiled_qnn_onnxパスをターゲットにした際は、コンパイルジョブはONNXモデルのアウトプットシャイプを重んじます。
2025年4月22日リリース
AI Hubでコンパイル、プロファイル、推論ジョブを送信する際にDeep Learning Container
.dlcのサポートが利用可能になりました。:例 をご覧ください。現在はtorch/onnxをDLCにコンパイルし、DLCモデルのプロファイル/推論ジョブを送信する機能のみ対応しています。DLCの可視化など追加機能は近日公開予定です。QAIRT SDK 2.33.0のサポートが追加され、2.32.6にアップグレードされました。デフォルトは引き続き2.32で、最新バージョンは2.33です。
aimet-onnx 2.3.0にアップグレードされました。
Samsung Galaxy S25デバイスを available devices に追加しました。
2025年4月8日リリース
AI Hub は現在、opset 20 の ONNX モデルを生成します。これには ONNX Runtime 1.17.0 が必要です(以前は 1.12.0 でした)。
ONNX2TFでAffineGrid opのサポートが追加されました。
AIMETモデルをコンパイルする際、AI Hubは現在AIMETエンコーディングバージョン1.0.0をサポートしています。
2025年3月25日リリース
"Job timed out after 8h" という失敗理由が増加していることが確認されました。この問題は調査され、軽減されました。この問題が発生した場合は、ジョブを再試行してください。
以前ONNX Runtimeを指定するために使用されていたオプション
ortは削除されました。代わりにonnxを使用し続けてください:--target_runtime onnx。複数のHTP最適化オプションを指定する機能が追加されました。
2025年3月10日リリース
QAIRT 2.32.0 にアップグレードされました。Qualcomm AI Engine Direct SDK(別名 QNN)は、現在 Qualcomm AI Runtime SDK(別名 QAIRT)として知られています。
AIMET-ONNXがバージョン2.0.1にアップグレードされました。これは量子化ジョブの基盤エンジンです。このアップグレードの結果、いくつかの量子化ジョブのバグが解決され、内部量子化エラーで失敗するジョブが含まれます。ジョブを再提出し、問題がある場合はお知らせください。
静的形状ROI Align TensorFlow Lite サポートが実装されました。
コンパイルジョブのバージョン小区分にONNX Runtimeのバージョン情報が追加されました。
最新のクライアントバージョン 0.25.0 にアップグレードしてください。
2025年2月24日リリース
QNNバージョン 2.31にアップグレードしました。
ランタイムサポート情報を提供する 新しい デバイスページ をご覧ください。
2025年2月10日リリース
ONNXモデルは、モデルをアップロードする際に外部の重みを持ち込むことをサポートするようになりました。
.onnx拡張子のディレクトリ名または.onnx.zip拡張子のファイル名であり、正確に1つの重みファイル(.dataファイル)を持つ必要があります。注意:この機能を使用するLLMのサポートはまだ開発中です。プロファイルジョブでモデル推論時間を表示する際に、中位数とスパークライングラフィックが追加され、より詳細なタイミング情報が提供されます。
すべてのモデルアセットのマルチモデルジョブ可視化:ジョブの右上隅にある「Visualize」ボタンをクリックすると、ジョブに関連するすべての適用可能なモデル(ソース、中間、ターゲット)をナビゲートして可視化する機能があります。
Qualcomm QCS8275およびQCS9075用の新しいIoTプロキシデバイスが追加されました。これらのデバイスは、ジョブを提出する際にAI Hubでターゲットにすることができます。
次のエラーメッセージが表示された場合:
Tensors {'...'} occur in value_info but also in model IO. See https://github.com/onnx/onnx/blob/main/docs/IR.md#graphs、最新のAI Hubモデル (pip install qai-hub-models) に更新してください。この問題はLlamaモデルのコンパイルに直接影響することがわかっています。期限切れのデータセットを参照するジョブは、正確なエラーメッセージで表示されるようになりました。
2025年1月22日リリース
大規模モデルのアップロード速度が向上し、タイムアウトやSSLEOFエラーを防止します。発生するエラーを引き続き報告してください!
エラーメッセージの改善のために、さまざまな変更が行われました。ジョブが失敗した場合、詳細な情報を求めている場合は、Slack にリンクを共有してください。
2025年1月6日リリース
AIMET PyTorchモデル(.pt)アップロードパスを削除しました。代わりにONNXモデル(.onnx)と量子化パラメータのエンコーディングファイル(.encodings)を使用することをお勧めします。
FAQが新しい場所に移動しました。ドキュメントでご確認ください!
fp16 I/Oを使用する量子化されたQNNモデルを使用する推論ジョブは、fp32データを受け入れるようになりました。
2024年12月13日リリース
TensorFlow Lite equivalentにONNX NonMaxSupression opの翻訳が追加されました。
警告: 2025年1月6日のデプロイメントの一環として、AIMET PyTorchモデル(.pt)のアップロードパスを廃止する予定です。代わりにONNXモデル(.onnx)と量子化パラメータを含むエンコーディングファイル(.encodings)を使用することをお勧めします。
2024年11月25日リリース
自動車デバイス用にQNN 2.28.2および2.28.0にアップグレードしました。
LlamaファミリーのモデルをAI Hubにアップロードする際の問題に関連するさまざまな改善を行いました。これらのLLMをアップロードする際にタイムアウトが発生したユーザーからのフィードバックに対応しました。引き続き問題が発生する場合はお知らせください。
コンパイルオプションに
--quantize_weight_type float16を追加することで、FP32 重みを FP16 に圧縮できるようになりました。AI Hubで新しい自動デバイスが利用可能になりました!SA8775PおよびSA7255P ADPデバイスを提供しています。
2024年11月11日リリース
発表:link jobs!複数のモデルを単一のコンテキストバイナリに結合し、グラフ間で重みを共有することでディスク容量を節約します。リンクジョブはHexagon Tensor Processor(HTP)用のQNNコンテキストバイナリ専用です。
一般的な問題に対処するためのqai-hubクライアントの改善:最新のクライアントバージョン0.19.0には、アップロード時に発生したエラーの修正が含まれています。さらに、アップロードサイズの制限が5GBから10GB(圧縮)に引き上げられ、大きなファイルは複数の部分に分割してアップロードされます。
ONNXバージョンが1.17.0に更新されました。
量子化ベンチマークおよびコンパイルジョブに関する documentation の例を更新しました。
2024年10月28日リリース
新しいデバイス:Snapdragon 8 EliteがSnapdragon Summitで発表され、
device = hub.Device("Snapdragon 8 Elite QRD")を指定することで全ユーザーが利用可能です。新しいデバイス:自動車デバイスSnapdragon Cockpit Gen 4(SA8295P)がAI Hubで使用可能になりました。
--device "SA8295P ADP" --device-os 14を指定して選択してください。SSOでAI Hubにサインインすると、自動的に関心のあるページにリダイレクトされます。
2024年10月14日リリース
(ベータ)Qualcomm AI Hubはfloat32モデルを整数演算(例:int8、int16)に変換できるようになりました。このベータ機能はsubmit_quantize_job APIを介してPyTorchモデルを量子化する際に使用できます。詳細と例は details and examples in our documentation をご覧ください。
Int64がサポートされるようになりました(推論およびプロファイリングジョブの両方)。
QNN 2.27にアップグレードしました。
2024年10月7日リリース
推論ジョブにおけるrank-0(scalar)テンソルのサポートを改善しました。
ジョブのステージに関する確認するためのジョブを送信(厄介なUIバグを修正)した際はジョブ状態を更新してください。
多くの場合のエラーメッセージを改善しました。これには、プロファイラーでサポートされていないデータタイプの使用、無効なTFLiteモデルファイル、および多くのデバイスでのメモリエラーが含まれます。
クライアントバージョン0.17.0
pip install qai-hub==0.17.0がリリースされ、HTTPリトライの修正が含まれており、データのアップロードとダウンロードがはるかに信頼性の高いものになりました。新しいデバイスサポート!
device = hub.Device("Snapdragon X Plus 8-Core CRD")を指定することで、AI HubでSnapdragon X Plusをターゲットにしてジョブを起動できます。
2024年9月23日リリース
すべてのプロキシデバイスの chipset 属性は、接尾辞
-proxyを含むように名前が変更されました。たとえば、chipset:qualcomm-qcs6490は現在chipset:qualcomm-qcs6490-proxyになっています。デバイス名は変更されていません。ONNX Runtimeを1.19.2、TFLiteを2.17にアップグレードしました。
2024年9月11日リリース
QNN 2.26にアップグレードしました。
モデルページに作成者でフィルタリングするためのドロップダウンが追加され、組織内の他の人が所有するモデルを検索しやすくなりました。
UI全体のさまざまなバグ修正が含まれており、QNNモデルの視覚化が更新されています。確認して、問題が発生した場合はお知らせください。
2024年8月26日リリース
8月13日以降、ユーザーが最大許可ジョブ数を超えてジョブを作成しようとした場合、Hubは例外をスローしなくなりました。代わりに、新しいジョブは
pending状態になり、既存のジョブが終了すると自動的に実行されるようにスケジュールされます。Pythonクライアントバージョン0.14.1では、ジョブオブジェクトにpendingという新しいプロパティが追加されました。バックエンドの容量が利用可能になるのを待っているpending状態のジョブは、pendingが呼び出された場合にTrueを返し、runningが呼び出された場合にFalseを返します。QNNを2.25にアップグレードしました。
get_job_summariesはこのバージョン (0.15.0) 以降のクライアントで利用可能です。get_jobsは廃止され、代わりにget_job_summariesを使用してください。クライアントバージョン0.15.0
pip install qai-hub==0.15.0への更新をお勧めします。また、Qualcomm AI Hubの最新機能を利用するために、各リリースごとにクライアントを更新してください。
2024年8月12日リリース
新しいクライアントバージョン0.14.0が利用可能です!
Intermediate Assets:コンパイルジョブを送信すると、コンパイルジョブページに「Intermediate Assets」タブが表示されるようになりました。この新機能により、AI Hubはコンパイルの中間状態をAI Hubの最初のクラスモデルとして保存できます。例えば、TFLiteコンパイル用にTorchScriptモデルを送信すると、中間のONNXモデルが保存され、アクセス可能になります。
ジョブの同時実行制限:エラーを返す代わりに、Hubはユーザーごとの最大制限を超えたジョブを自動的にキューに入れるようになりました。以前にエラーハンドリングで処理していた場合、ジョブを送信するためにエラーハンドリングは不要です。
2024年7月29日リリース
ONNX Runtimeを1.18に更新しました。
Qualcomm AI HubはSnapdragon Rideプラットフォームのサポートを拡張しました。事前に最適化されたAI Hubモデルを Automotive devices で確認し、実際の自動車デバイスでこれらのモデルをテストし、問題が発生した場合はお知らせください。
2024年7月15日リリース
Androidデバイスのメモリ推定の改善により、より正確な範囲が可能になりました。プロファイラーの外因性ヒープ使用を回避する能力が向上し、メモリ範囲が小さくなりました。新しいジョブを送信してメモリ範囲を確認してください。
QNNを2.24.0、ONNXを1.16.0に更新しました。
ONNX Runtimeにint16サポートを追加しました
2024年7月1日リリース
AI Hubジョブは組織内で自動的に共有できます。組織にユーザーを追加するには、チームのメールアドレスを ai-hub-support@qti.qualcomm.com に送信してください。
AI Hubジョブは組織外およびQualcommと共有してサポートを受けることもできます。ジョブの右上にある「Share」ボタンをクリックし、AI Hubユーザーのメールアドレスを指定すると、ジョブ(および関連するモデル資産)が共有されます。メールアドレスをジョブから削除することでアクセスを取り消すこともできます。
コンパイルに失敗したAIMETモデルのエラーメッセージを改善しました
precompiled_qnn_onnxに関する ドキュメント を更新しました。AI Hubウェブページの詳細なタイトルを追加しました。ページを開くと、ページ名とジョブ名が表示されます。
AI Hubの過去のリリースノートは、参照用に documentation で確認できるようになりました。
2024年6月17日リリース
WindowsデバイスがAI Hubで広く利用可能になりました。新しいSnapdragon X Eliteおよび前世代のSnapdragon 8cx Gen 3リファレンスデザインが含まれます。qai-hub list-devicesを実行するとリストに表示されます。X Eliteをターゲットにするには、
device = hub.Device("Snapdragon X Elite CRD")を指定してください。コンパイル済みQNN ONNXモデルのコンパイルサポートを追加しました!コンパイルジョブを送信する際に
options="--target_runtime precompiled_qnn_onnx"を指定してください。(注:ドキュメントに誤字がありますが、次のリリースで修正されます。上記のオプションを使用してください)サポートされているONNX Runtimeオプションに関するドキュメントを追加しました
Getting Started Quick Exampleの手順を拡張し、推論ジョブの送信、モデルのダウンロードなどを含めました。
プロファイルおよび推論ジョブの追加エラーの詳細を強調表示しました:ジョブが失敗した場合、Additional Information from the Runtime Log という新しいセクションを確認してください。ランタイムログを展開してスクロールすることなく、デバッグに役立つ重要な詳細が提供されます。
QNNバージョン2.23に更新しました。
2024年6月4日リリース
デバイスファミリーのリストを追加しました:qai-hub list-devicesを使用すると、これらがリストに表示されます(Google Pixel 3aファミリー、Samsung Galaxy S21ファミリーなど)。デバイスプロビジョニング時間の短縮に役立ちますので、適用可能な場合はこのオプションを使用してください。
QNNバージョン2.22.6に更新しました。
64ビット入力タイプのコンパイルオプション
--truncate_64bit_ioをサポートしました
2024年5月17日リリース
WindowsでのONNX QNN Execution Providerを介したSnapdragon X Elite NPUのサポート、およびONNX DirectML Execution Providerを介したSnapdragon X Elite GPUのサポートを追加しました。早期アクセスするためにここからサインインを!
QNNバージョン2.22サポート(コンパイルされたアセットはQNNバージョン2.20ではなくQNN 2.22をターゲットにしています)
AI HubでのWindowsサポート!
QNNのw4a8サポート (
--quantize_full_type w4a8)。ドキュメントに各ランタイムの使用時期に関する追加コンテキストを追加しました。
ターゲットランタイム
qnn_binの廃止。今後は--target_runtime qnn_context_binaryを使用してください。コンテキストバイナリはデバイスのハードウェアアーキテクチャに特化してコンパイルされます。詳細はドキュメントをご覧ください
2024年5月6日リリース
ドキュメントには、ONNXモデルをTFLiteまたはQNNにコンパイルする例や、ONNX Runtimeを使用して直接プロファイリングする例が含まれています
ONNX Runtimeのデフォルト設定は、プロファイリング/推論で最高速度を実現するオプションを利用するようになりました。現在、デフォルトで最適化されたモデルを提供する3に設定されています
TensorFlowLiteを2.16.1にアップグレードしました(プロファイルジョブ用)。
コンパイルジョブの追加のパフォーマンス修正。
2024年4月22日リリース
さまざまなパフォーマンスの改善、エラーレポートの改善、および追加のレイヤーサポートが追加されました!
QCS8450プロキシデバイスを追加しました(スレッド内の注記を参照)。
最新のONNXランタイムバージョン(1.17.3)にアップグレードしました。
ONNXランタイムモデルのドキュメントを更新しました。
ONNX RuntimeのIOオプションを導入しました。
QNNパスのw4a16量子化サポートを追加しました
2024年4月8日リリース
ONNXランタイム(.onnx)およびNPUサポートを導入しました。コンパイルジョブを送信する際にoptions=--target_runtime onnxを指定して試してみてください。
ONNXランタイムの改善には多くのスピードアップが含まれています。
ONNXランタイムモデルのモデル可視化を追加しました。
コンパイルジョブのログ記録を増やしました。
IOT用の追加のプロキシデバイス:QCS8250、QCS8550プロキシデバイスを確認してください。
Tensorflow 2.15.0にアップグレードしました
Hub経由でint16、w8a16量子化のサポートを追加しました
2024年3月25日リリース
ジョブ実行用にさらに多くのGalaxy S24デバイスを追加しました
最新のQNNバージョン2.20にアップグレードしました。
モデルのアップロード制限を10 GBに増やしました
AIMET(.onnx + エンコーディング)量子化モデルをONNXに変換し、ONNX Runtimeを介してオンデバイスで実行するサポートを追加しました
追加の最適化:TFLiteモデルのdepthwise convolutionのための定数折りたたみリシェイプ
コンパイルオプションを介して誤った入力名が渡されるのを防ぐための追加のチェック。
2024年3月11日リリース
Snapdragon® 8 Gen 3チップセットを搭載したデバイスをAI Hubに導入しました。Snapdragon® 8 Gen 3をターゲットにするには、device = hub.Device("Samsung Galaxy S24")を指定してください
2024年2月28日リリース
Qualcomm AI HubがMWC 2024で発表されました。
TFLiteおよびQNNランタイムを介してさまざまなモバイルデバイスでパフォーマンスと精度の数値を提供する約75のQAI Hubモデルをサポートしています。