發布說明

Released July 6, 2026

Upgraded Quantize Job to AIMET 2.34. This fixes a bug where Quantize Job could produce incorrect ONNX models with invalid dequantize (DQ) nodes. Quantize Job also now correctly honors the number of calibration samples provided when applying LiteMP.
Compile Job graph optimizations: added Reshape-Transpose-Reshape rank-6-to-rank-4 axis merging, RMSNorm decomposition fusion, and multi-contracted Einsum lowering via MatMul to keep rank ≤ 5; fixed ONNX export of PReLU weights and integer floor_divide.
.pt2 (Torch ExportedProgram) models can now be submitted to Compile and Profile jobs without providing input_specs, since the input shapes are already embedded in the ExportedProgram. TorchScript (.pt) models still require input_specs.

Released June 22, 2026

Added QAIRT 2.47.0. QAIRT versions on AI Hub Workbench now include 2.45.0, 2.46.0 and 2.47.0.
Upgraded to ONNX Runtime 1.26.0. The ONNX Runtime QNN Execution Provider has been bumped to 2.2.0.
We are moving to Torch ExportedProgram (.pt2) as the input format for PyTorch models, replacing TorchScript (.pt). Support for compiling TorchScript models is now officially deprecated on AI Hub Workbench. There are still known issues with .pt2 that we are actively resolving. .pt will continue to function during this transition. Please plan to migrate by saving your model as an ExportedProgram.
Compile Job: fixed several compilation issues, including ONNX export for aten::repeat_interleave, aten::conv3d with missing bias, 64-bit constant indices to Slice, STFT, the TFLite converter for quantized DepthwiseConv1D, and an empty FP16 graph for models larger than 2 GiB in the ONNX2EP converter. If you previously hit any of these failures, please retry.
Inference and Profile jobs now surface the underlying failure reason when output dataset creation fails. Compile jobs now emit clearer error messages for .pt2-related export failures.
Dragonwing attribute names are now shown for IoT devices in the AI Hub Workbench CLI device listing.

2026 年 6 月 9 日發布

Samsung Galaxy S26 裝置（Snapdragon® 8 Elite Gen 5 for Galaxy | SM8850-AD）現已可在 AI Hub Workbench 使用。請前往 devices 頁面查看所有可用裝置。
已升級至 Lite RT 1.4.4。
裝置淘汰通知：Google Pixel 4a 和 Xiaomi 12 Pro 將在未來的版本中自 AI Hub Workbench 移除。
提醒：由於 Snapdragon™ XR2 Gen 2 已新增至我們的相似裝置清單，XR Proxy 裝置 QCS8450 (Proxy) 和 XR2 Gen 2 (Proxy) 將自 Hosted Devices 清單中移除。
量化工作：quantize_bias 現在預設為啟用，讓圖更一致，因此能在量化後端上以確定性方式執行。
編譯工作：新增了 transpose-to-reshape 重寫，將保留資料布局的轉置映射為 reshape，並重新排列它們，以產生更最佳化的圖。

發布於 2026 年 5 月 28 日（星期四）

--target_runtime 選項中的 precompiled_qnn_onnx 目標執行期值已被棄用。請改用 submit_compile_job() 或 submit_compile_and_link_jobs() API，將 QNN Context Binary 嵌入 ONNX 模型中。
ONNX Runtime QNN Execution Provider 已升級至 2.1.0。現在是以外掛程式庫載入，而非靜態連結，讓版本可獨立更新。
已升級至 AIMET-ONNX 2.31.0 — 新增 Gemm 運算子的逐通道量化（PCQ）支援，可提升含全連接層模型的量化精準度。
已升級至 ONNX 1.20.0。AIHW 現在會產生 ir_version 為 13 的 ONNX 模型。
已升級至 PyTorch 2.11.0。AIHW 現在接受使用 PyTorch 2.11.0 產生的 .pt2 模型上傳。
submit_compile_and_link_jobs() 現在可以將已連結的模型嵌入 ONNX 中。submit_compile_and_link_jobs API 現在支援嵌入 QNN Context Binary。
新增 I/O 規格文件說明 — API 文件現在已包含用於 compile、profile 與 inference 作業的 input/output 規格詳細說明。
Similar Devices 更新 — 新增「Similar Chipset」欄位，以釐清可使用的裝置與晶片組，並新增 XR2 Gen 2 及其相似裝置 Samsung Galaxy S22，同時也為 XR proxy 裝置新增警告。

發布於 2026 年 5 月 11 日

更新至 ONNX Runtime 1.25.0。
新增支援 QAIRT 2.46.0 作為最新版本。
升級至 AIMET-ONNX 2.29.0。
提升含有 batchnorm 層模型的量化工作準確度。

發布於 2026 年 4 月 27 日

模型現在會編譯為目標為 ONNX opset 21，已從版本 18 升級至 21。
透過 Compile Job 新增了多種圖形優化步驟，以提升各項效能。
我們正將模型輸入格式從 .pt 遷移到 .pt2。.pt 的支援將逐步淘汰。若要遷移，請將 ExportedProgram 儲存為 .pt2 檔案。如果你在編譯模型時遇到 Torch to ONNX export 發生 Failure occurred，則需要升級到 .pt2。
Link jobs 現在提供 I/O 規格，包括 graph_name、tensor 名稱以及所有其他詳細資訊。
已升級至 Lite RT 2.1.4。目前仍沿用 Lite RT 1.4.3 的既有 interpreter API。
裝置中可用來執行模型的清單現在新增了「相似裝置」區塊。若你感興趣的裝置在 AI Hub Workbench 上不可用，可將此作為參考，找出可替代的裝置來進行模型測試與編譯，以確認功能與相容性。模型實際在真實裝置上執行時，效能與準確度指標可能會有所不同。

發佈日期： 2026 年 4 月 14 日

已升級至 QAIRT 2.45.0。AI Hub Workbench 上可用的 QAIRT 版本包含 2.42.0、2.43.0 與 2.45.0。
已升級至 ONNX 1.19.1。
已將 Quantize Job 升級至 AIMET-ONNX 2.28.0。
以 ONNX Runtime 為目標的分析工作現在在「Runtime Layer Analysis」區段中支援 optrace 設定檔資訊。
若要查看 NPU 區段資訊：optrace 分析與 QHAS 摘要資料，請在 Runtime Layer Analysis 區的 placement 欄位下方點選 NPU。
Samsung Galaxy S21+（OS 版本：11）已被移除。請改用其他的 S21 裝置。

發佈日期：2026 年 3 月 30 日

所有新工作已從 TF Lite 遷移至 Lite RT 2.1.3。這是切換到 Google 的新執行階段，以支援 NPU 加速。目前我們仍在使用現有的 interpreter API 與 delegate。
AIHW 產生的 TF Lite 模型現在相容於 TF Lite 2.19.0 及更新版本，包含 Lite RT。已不再支援舊版。
AI Hub Workbench 現在支援由 PyTorch 2.9.x 產生的 .pt2 模型編譯。
--quantize_full_type 編譯工作選項已被停用，改為使用 AI Hub Workbench 的 Quantize Job API。
Quantize Job 已升級至 AIMET-ONNX 2.27.0。此更新後，您現在可以在 quantize job 中檢視 lite_mp（輕量混合精度）日誌。
除了輸出資料集之外，其他工作產物，例如記錄和分析資料，現在也可透過 AI Hub Workbench 用戶端下載。您可以透過 hub.get_job() 存取這些內容。
由於實體裝置 Dragonwing IQ-9075 EVK 已在 AI Hub Workbench 上提供一段時間，QCS9075（proxy）已從 AI Hub Workbench 中移除。請將任何工作改為使用實體裝置。
對 Samsung Galaxy S21+（作業系統版本：11）的支援將在下次部署時移除。請改用其他的 S21 裝置。
新增了關於裝置類型的說明文件，包括代理裝置、裝置系列等。請查看 Workbench 上所有可用的 devices，用來執行推論！

發佈日期：2026 年 3 月 2 日

執行階段選項 --target_runtime qnn_context_binary 已被淘汰，請改用 submit_compile_and_link_jobs() API 來建立 QNN context binary 資產。
Quantize Job 的錯誤訊息已改善，現在會顯示來自日誌的具體錯誤內容。若您遇到失敗的工作卻沒有可執行的修正建議，請告知我們。
針對提交至代理裝置的工作，新增了額外的警告訊息，特別說明在 CPU/GPU 上的效能細節。請注意，這些代理裝置旨在模擬指定裝置的 NPU 特性，但由於作業系統、韌體、時脈速度、記憶體、散熱封裝及其他因素的差異，效能分析結果可能與實際裝置不同。若模型是在 CPU 或 GPU 上執行，實際裝置上的速度可能會有顯著差異。
Quantize Job 現在會在工作的 versions 區段中顯示所使用的 AIMET 版本。

2026 年 2 月 17 日發佈

透過編譯工作指定 QNN Model Libraries 的功能已從AIHW移除。具體來說：--target_runtime 選項值 qnn_lib_aarch64_android 已不再接受，--qnn_bin_conversion_via_model_library 選項也不再接受，且已無法再連結 QNN Context Binary 模型。
使用 QNN Model Library 提交 profiling／inference 工作的能力已被標示為已淘汰（deprecated），並將於未來版本中移除支援。現有的 model library 仍可進行 profiling，但如前所述，已無法再透過 AI Hub Workbench 的 compile job 編譯為 model library。
先前已淘汰的 submit_compile_and_quantize_jobs API 已移除。
SC8480XP Windows 裝置現已在 AI Hub Workbench 上提供。
已升級至 QAIRT 2.43.1。AIHW 上的 QAIRT 版本包含 2.41.0、2.42.0（預設）以及 2.43.1（最新）。
已升級至 ONNX Runtime 1.24.1。
透過 compile job API 所產生的 target model，現在除了原本列出的 source model 外，也會顯示在 AI Hub Workbench UI 的 Models 分頁中。
已移除對 Google Pixel 6a 裝置的支援。
已將（Quantize Job 中的）aimet-onnx 升級至 2.24。

2026 年 2 月 2 日發佈

新的 API：submit_compile_and_link_jobs() 現已可用，可簡化需要編譯多個模型並連結成共享權重 QNN context binary 的使用者工作流程。請查看所有詳細資訊。
Beta 版功能：現在 AI Hub Workbench 的 Compile Job 已支援您的輸入模型使用 .pt2 （Torch 匯出程式）格式。暫時必須使用 PyTorch 2.8.0 匯出，才能使用此功能！
先前已標示為停用的功能——將 target model 傳入 submit_compile_and_profile_jobs API——已被移除。

2026 年 1 月 26 日發布

IQ9075-AA（100 TOPS）Qualcomm Linux 版本現已在 Qualcomm AI Hub Workbench 上提供！歡迎立即在該裝置上執行您的模型並試用。
已升級至 QAIRT 2.42.0（現為預設與最新版本）。
Workbench 已移除多項代理裝置 - IOT: QCS6490（Proxy）、Auto: SA8255（Proxy）、SA8650（Proxy）、SA8775（Proxy）。
裝置淘汰通知：Google Pixel 6a（OS 版本：13）因裝置老化與使用情況，將在下次版本中被淘汰。如有任何疑慮請告知。
Quantize Job 中的 AIMET-ONNX 已升級至 2.22。
Quantize Job 的 lite-mp 已更新，進行敏感度分析時不再只使用模型的第一個輸出，而是使用所有輸出。

2026年1月6日發佈

模型頁面現在會顯示 I/O 規格資訊與量化參數。這些詳細資訊也可透過 AI Hub Python 用戶端取得。
已將 QAIRT 升級至 2.41.0。
Quantize Jobs 已升級至 AIMET-ONNX 2.21.0。
多項代理裝置將在下個版本中移除。 IOT：由於實體裝置 Qualcomm Dragonwing™ RB3 Gen 2 Vision Kit（QCS6490）自 11 月中旬起已能在 AI Hub Workbench 使用，因此 QCS6490 代理裝置將被移除。 Auto：SA8255（Proxy）、SA8650（Proxy）、SA8775（Proxy）。
QNN 的 TFLite Delegate 選項 GPUv2（OpenGL 後端）、nnapi、nnapi-gpu 已從 AI Hub Workbench 中移除。
已停止支援 Python 3.9（因其於 2025 年 10 月 31 日終止維護）。

2025 年 12 月 8 日發佈

已將 AIMET 更新至 2.20.0。
Qualcomm Snapdragon™ 8cx Gen 3 CRD (SC8280XP) 已從 AI Hub Workbench 移除。

2025年11月19日發佈

我們正在重新品牌化 AI Hub 產品組合。模型最佳化平台（先前稱為「AI Hub」）現在將稱為 AI Hub Workbench。其他產品 AI Hub Models 和 AI Hub Apps 保持不變。
Qualcomm Dragonwing™ RB3 Gen 2 Vision Kit（QCS6490）現已在 AI Hub Workbench 上提供。這是我們第一個執行 Qualcomm Linux 的裝置。由於此裝置已可使用，QCS6490 代理將在不久的將來被棄用。
Qualcomm Dragonwing™ Q-6690 MTP（QCM6690）現已在 AI Hub Workbench 上提供。您現在可以提交針對此裝置的工作。裝置詳細資訊請查看我們的 device page。
submit_compile_and_quantize_jobs 已被停用。請改用 submit_compile_job() 與 submit_quantize_job() APIs。
將 target model 傳入 submit_compile_and_profile_jobs() 已被停用。請使用 submit_profile_job() API。
文件：新增了一個在非 FP16 裝置上使用 ONNX Runtime 的新 profile job 範例。Compile Job 範例已更新。
新增對 QAIRT 2.40.0（最新版本）的支援，QAIRT 2.39 仍為預設版本。
目前在 AI Hub Workbench 上提供的 Qualcomm Snapdragon™ 8cx Gen 3 CRD（SC8280XP）將在未來幾週內被棄用並移除。如有任何疑慮，請告訴我們。

2025 年 11 月 4 日發布

QAIRT 預設版本已更新為 2.39.0。
NumPy 支援已擴展至 2.0，作為 Python 的相依套件。

2025年10月27日發布

現在在使用 QNN 作為指定執行時（context binaries 或 DLC）的分析工作中，可以取得 Optrace 資料。請展開 Runtime Layer Analysis 區段並點擊 view optrace，以檢視詳細的 HTP 分析資料：QNN Op 與 HTP Op 詳細資訊、Optrace 時間與瓶頸。

2025年10月22日發布

我們的設備農場最近更新導致分析與推論工作出現間歇性失敗。錯誤訊息可能為 Failed to fully run the model, failed after compiling 或 Failed to profile the model: unexpected device error 我們已在部署中推出暫時解決方案，請重新執行您的工作。
新增對 QAIRT 2.39.0（最新版）的支援。
升級至 PyTorch 2.8.0。
當使用 LiteMP（混合精度）功能時，已更新 Quantize Job 中的 PSNR 函數，使其與 AIMET 的離線 PSNR 計算方式一致。

2025 年 10 月 6 日發佈

對我們文件中的 compile models examples 進行了簡化的小幅更新。
已更新至 ONNX Runtime 1.23.0。
AI Hub 產生的 ONNX 模型現在會使用 ir_version=11。這需要 ONNX Runtime 1.23.0 才能執行推論。
已更新至 AIMET-ONNX 2.15.0。
AI Hub 已移除將模型直接下載至記憶體的功能。模型現在必須下載至磁碟中。

2025 年 9 月 29 日發佈

已為 ONNX Runtime 新增額外的 profile 工作選項（透過 --onnx_options）。請參考我們的 API 文件，了解如何設定 vtcm_mb、context_priority 和 offload_graph_io_quantization。
新裝置：我們現有兩款全新的行動裝置：Snapdragon® 8 Elite Gen 5 (SM8850) 和 Snapdragon® 7 Gen 4 (SM7750)，現在已可透過 Qualcomm AI Hub 開始測試您的模型！若要在其中一款裝置上測試您的模型，只需在提交工作時指定裝置名稱，例如： device=hub.Device("Snapdragon 8 Elite Gen 5 QRD")
已修正預先編譯的 ONNX 模型的相關問題。

2025 年 9 月 22 日發佈

已升級至 AIMET-ONNX 2.14.0。
QAIRT 2.38.0 為最新版本，現已提供。同時 QAIRT 2.37.0 也已升級至 2.37.1。
新增作業建立與重試操作的日誌記錄功能。

2025 年 9 月 8 日發佈

已升級至 ONNX Runtime 1.22.2。
降低因 'unknown' 導致的作業失敗率。

2025 年 9 月 2 日發佈

LiteMP（light mixed precision，輕量混合精度）目前已在 AI Hub 上提交 quantize 工作時提供 beta 版。你可以在提交 quantize 工作時啟用此選項，讓指定比例的層可被修改為指定的精度（--lite_mp percentage=10;override_qtype=int16）。
升級至 aimet-onnx 2.13.0。

2025年8月22日發佈

我們已遷移至新的單一登入（SSO）供應商。使用者不應受到任何影響。如遇到問題，請嘗試重新登入，並告知我們是否有任何異常行為。
已升級至 QAIRT 2.37.0 和 aimet_onnx 2.12.0。
直接將模型下載至記憶體的功能已被淘汰。客戶端與文件中已加入警告。請改用以下方式將來源模型下載為檔案：model = compile_job.download_target_model("model_filename") 檔案名稱為必填。
已停用一段時間的 Client API get_jobs 已正式移除。請改用 get_job_summaries()。

2025年8月11日發布

AI Hub 現在已完整支援 DLC！因此，我們將逐步停止產生 .so 模型庫檔案。DLC 檔案已證實在相同情境下（例如目標為 AArch64 Android）同樣適用，而且更可靠。因此，.so 的產生已透過 AI Hub 進入停用狀態（自即日起生效——已不再支援或維護），並將在約 6 週後移除。現在要產生 .bin 檔案，會先經由 .dlc。產生 .bin``（--qnn_context_binary``）與 .dlc``（--qnn_dlc``）的執行階段選項，以及其他執行階段選項，皆維持不變！已停用的選項 --qnn_bin_conversion_via_model_library 可用來透過 .so 模型產生 .bin 檔案。現在 linking 工作會接受 .dlc 檔案（1 個或多個）以及一個或多個裝置。舊式的 .bin 模型 linking 方式正在停用中。此外，--target_runtime qnn_lib_aarch64_android 也正在停用。
已升級至 QAIRT 2.36.4，現為預設版本。目前 Hub 支援 2.33.2、2.34.2 和 2.36.4。
針對因 QNN Context Binary 產生失敗導致的編譯作業驗證錯誤，改善了錯誤訊息。訊息中會包含 <failed op_name>: <op_type>: <root-cause of failure> (若適用)。
在我們的文件 FAQ 中新增了常見 ONNX Runtime 錯誤。
特定失敗作業的錯誤訊息現在會包含指引，提示使用者查看執行時日誌以獲得更多資訊（若適用）。
請注意，我們不再使用 ONNX Runtime 的分析／推論作業之前於流程中量化權重。此變更是為了支援未來的功能強化，並讓我們的效能測量更容易重現。

2025年7月28日發布

我們在 Quantize Job 中升級至 AIMET-ONNX 2.10.0。
我們的文件現在支援 3 種額外語言的本地化 - 韓文、日文和繁體中文。請透過左下角的語言選擇器切換查
已為裝置新增 weight sharing 屬性（>=v73 和 SA8295P）。當你查詢 hub.get_devices() 時，屬性 htp-supports-weight-sharing:true 會表示哪些裝置的 HTP 支援共享 weights。

2025年7月14日發布

AI Hub 現在會一律產生使用外部權重（.zip）的 ONNX 模型，不論模型大小為何，以解決影響模型上傳與可視化的下游問題。若要將其轉換為內嵌權重的單一模型，使用者可以這樣做
```
import onnx
model = onnx.load("your_model.onnx")
onnx.save(model, "your_new_model.onnx")
```
修復了當 ONNX 模型使用 OpSet 5 的 Reshape 層時出現的編譯錯誤。
修復了在對具有外部權重的 ONNX 模型進行量化作業時，PSNR 計算出現的錯誤。
解決了 AIMET+ONNX 編譯為 QNN 時的一些問題。
放寬了 AI Hub 用戶端所需的 protobuf 版本限制。使用者現在可以安裝 protobuf>=3.20,<=6.31.1。
Yolov8 QNN context binary 的張量輸出順序問題已透過最新的 QAIRT 版本解決。
版本表格中的 AI Hub 版本曾暫時顯示為 local-hub-1999，該問題現已修復。
針對 .dlc 的 w8a8 與 w8a16 量化模型效能，曾因效能圖譜 pass 意外影響 Q/DQ 節點，而回報出明顯的效能退化。

2025年6月30日發布

模型視覺化功能已可顯示 int4 層。
已升級多個相依套件：QAIRT 2.35 為我們的最新版本。QAIRT 2.34.2 仍為預設版本。AIMET ONNX 2.8.0 用於我們的量化工作。ONNX Runtime 1.22.0。

2025年6月16日發布

已升級至 QAIRT SDK 2.34.2。此版本現在為所有作業的預設 QAIRT SDK 版本。
新增對 .dlc 模型視覺化的支援（請注意，需使用 QAIRT SDK 2.34.2 或以上版本）。
量化作業現在使用 aimet-onnx 2.7.0。
您現在可以在 Qualcomm AI Hub CLI 程式中加入 --verbose 參數以啟用詳細日誌記錄。這在除錯失敗作業時非常有幫助，並可能由我們的團隊要求以獲取更多細節
已修正一個偶發性失敗問題，該問題出現在對多個圖中的其中一個進行剖析時，尤其是在使用我們的 LLM 匯出教學時。原因是將 --qnn_options 當作旗標傳入，導致產生非預期行為。

2025 年 6 月 2 日發佈

修復了與多重圖形（multi-graph）分析相關的錯誤。
僅針對 TFLite 路徑新增有限的 6D slice支援，以支援 RF-DETR 模型。
大型模型（大於 2GB）的支援已擴展至量化作業，以及在 Compute 平台上的分析與推論作業。Android 平台目前尚不支援大型模型的分析或推論。
升級至 aimet-onnx 2.6.0。

2025 年 5 月 14 日發佈

透過 CLI 上傳模型時，現在會顯示模型 ID 及可點擊的模型連結。
升級至 aimet-onnx 2.5.0。

2025年5月5日發佈

使用者現在可以透過 AI Hub 編譯大型的 PyTorch 和 ONNX 模型（先前這類模型會因超過 2GB 而出現不支援的錯誤訊息）。請注意，目前尚不支援產生大型的 TF-Lite 模型。
已升級多個套件：QAIRT 2.33.2、ONNX Runtime 1.21.1、aimet-onnx 2.4.0。
當提交至 AI Hub 的作業具有錯誤的輸入格式時，將提供額外的錯誤訊息。
針對目標為 precompiled_qnn_onnx 路徑的 ONNX 模型，編譯作業現在會遵循其輸出格式。

2025年4月22日發布

AI Hub 現在在提交 compile、profile 和 inference 工作時支援 Deep Learning Container .dlc。請查看我們的 examples。請注意，目前僅支援將 torch/onnx 編譯為 DLC 並提交 DLC 模型的 profile/inference 工作。其他功能支援（包括 DLC 視覺化）即將推出。
新增對 QAIRT SDK 2.33.0 的支持，並升級至 2.32.6。默認值將繼續為 2.32，最新版本現在為 2.33。
升級至 aimet-onnx 2.3.0。
已將 Samsung Galaxy S25 裝置新增至我們的 available devices。

2025年4月8日發布

AI Hub 現在會產生使用 opset 20 的 ONNX 模型，這需要 ONNX Runtime 1.17.0（先前為 1.12.0）。
在 ONNX2TF 中新增對 AffineGrid 操作的支持。
在編譯 AIMET 模型時，AI Hub 現在支持 AIMET 編碼版本 1.0.0。

2025年3月25日發布

我們注意到 “作業在8小時後超時” 作為失敗原因的增加。這個問題已經被調查並解決。如果您遇到此問題，請重新嘗試您的作業
以前用於指定ONNX Runtime的選項 ort 已被移除。請繼續使用 --target_runtime onnx。
添加了多個HTP優化選項的能力。

2025年3月10日發布

已升級至 QAIRT 2.32.0。Qualcomm AI Engine Direct SDK（又稱 QNN）現已更名為 Qualcomm AI Runtime SDK（又稱 QAIRT）。
將AIMET-ONNX升級至版本2.0.1。這是我們量化作業的底層引擎。由於這次升級，解決了幾個量化作業錯誤，包括作業因內部量化器錯誤而失敗。請重新提交您的作業並讓我們知道是否有任何問題。
實現了靜態形狀ROI Align TensorFlow Lite 支持。
在編譯作業的版本區間中添加了ONNX Runtime的版本信息。
請升級到最新的客戶端版本 0.25.0。

2025年2月24日發布

升級至 QNN 版本 2.31。
查看我們新的 devices page，該頁面提供關鍵的執行時支援資訊。

2025年2月10日發布

ONNX模型現在支持在上傳模型時引入外部權重。目錄名稱帶有 .onnx 副檔名或文件名帶有 .onnx.zip 擴展名，並且必須只有一個權重文件，該文件必須是 .data 文件。請注意：使用此功能支持LLM仍在開發中。
在查看配置文件作業的模型推理時間時，新增了中位數和迷你圖形，提供了更詳細的時間信息。
所有模型資產的多模型作業可視化：現在當您點擊作業右上角的“可視化”時，可以流覧並可視化與作業相關的所有適用模型（源、中間和目標）。
為Qualcomm QCS8275和QCS9075添加了新的IoT代理設備。這些設備現在可用於AI Hub作業。
如果您看到以下錯誤消息：Tensors {'...'} occur in value_info but also in model IO. See https://github.com/onnx/onnx/blob/main/docs/IR.md#graphs>，請更新到最新的AI Hub模型(pip install qai-hub-models)。我們知道這個問題直接影響Llama模型編譯。
引用過期數據集的工作會顯示準確的錯誤訊息。

2025年1月22日發布

改進了大模型的上傳速度，以防止超時和SSLEOF錯誤。請繼續報告任何發生的錯誤！
各種更新以改進失敗作業的錯誤消息。如果您遇到作業失敗並希望了解更多關於發生了什麼的詳細信息，請隨時在 Slack 上分享您的作業連結。

2025年1月6日發布

我們已經移除了AIMET PyTorch模型（.pt）上傳路徑。我們建議使用ONNX模型（.onnx）和量化參數的編碼文件（.encodings）。
我們的FAQ已遷移到其新家，在我們的文檔中！Check it out！
使用量化QNN模型的推理作業現在將可接受fp32 輸入與輸出。

2024年12月13日發布

為 TensorFlow Lite 添加了ONNX NonMaxSupression操作。
警告：我們將在1月6日的部署中棄用AIMET PyTorch模型（.pt）上傳路徑。我們建議使用ONNX模型（.onnx）和量化參數的編碼文件（.encodings）。

2024年11月25日發布

升級至QNN 2.28.2和2.28.0以支持自動設備。
針對Llama系列模型上傳到AI Hub的各種改進。我們已經解決了用戶反饋的超時問題。請讓我們知道是否遇到持續的問題。
現在你可以在編譯選項中加入 --quantize_weight_type float16，將 FP32 權重壓縮為 FP16。
AI Hub中提供了新的自動設備！我們現在提供SA8775P和SA7255P ADP設備。

2024年11月11日發布

公告：link jobs！這將多個模型合併為單一 context binary，使權重可在圖之間共享，節省磁碟空間。Link jobs 專屬於 Hexagon Tensor Processor（HTP）的 QNN context binary。
改進並解決qai-hub客戶端常見問題：最新的客戶端版本0.19.0修復了上傳時遇到的錯誤。此外，上傳大小限制已從5GB提高到10GB（壓縮），並且大文件可切分多部分上傳。
ONNX版本已更新至1.17.0。
更新了我們 documentation; 中的範例，特別是量化基準測試和編譯工作。

2024年10月28日發布

新設備：Snapdragon 8 Elite在Snapdragon峰會上宣布，所有用戶都可以通過指定 device = hub.Device("Snapdragon 8 Elite QRD")。
新設備：車用設備Snapdragon Cockpit Gen 4（SA8295P）現在可以在AI Hub中使用。選擇它 --device "SA8295P ADP" --device-os 14。
一旦您使用SSO登錄AI Hub，您將自動重定向到感興趣的頁面。

2024年10月14日發布

（Beta）Qualcomm AI Hub 現在支援將 float32 模型轉換為整數數值（例如 int8、int16）。此 Beta 功能可透過 submit_quantize_job API 用於量化 PyTorch 模型。請查看更多詳細資訊和範例。
現在支持Int64（推理和分析作業）！
升級至QNN 2.27。

2024年10月7日發布

改進了推理作業中對rank-0（scalar）tensors的支持。
更新作業狀態(並修復一個UI錯誤) 以提供更多關於作業所處階段的資訊。
在許多情況下改進了錯誤消息，包括：分析器不支持的數據類型、無效的TFLite模型文件和許多設備上的內存不足錯誤。
客戶端版本0.17.0 pip install qai-hub==0.17.0 已發布，這包括HTTP重試的修復，應使數據上傳和下載更加可靠！
新設備支持！您現在可以通過指定 device = hub.Device("Snapdragon X Plus 8-Core CRD") 在AI Hub上啟動作業並選用Snapdragon X Plus。

2024年9月23日發布

所有 proxy 裝置的 chipset 屬性已重新命名，現在會包含 -proxy 後綴。例如，chipset:qualcomm-qcs6490 現在是 chipset:qualcomm-qcs6490-proxy。裝置名稱維持不變。
升級至ONNX Runtime 1.19.2，TFLite至2.17。

2024年9月11日發布

升級至QNN 2.26。
模型頁面現在有一個下拉菜單以按創建者過濾，使搜索組織中其他人的模型更容易。
跨UI的各種錯誤修復，包括QNN模型的更新可視化。查看並讓我們知道是否遇到任何問題！

2024年8月26日發布

自8月13日起，如果用戶已經有最大允許數量的作業正在運行，Hub在創建作業時不再拋出異常。相反，新作業被置於 pending 狀態，並在現有作業完成後自動安排執行。在python客戶端版本 0.14.1 中，我們為作業物件添加了一個名為 pending 的新屬性。處於pending狀態的作業現在將返回 True 如果調用 pending ，並返回 False 如果調用 running。
升級至QNN 2.25。
get_job_summaries 在客戶端中從此版本(0.15.0) 及以後可用。 get_jobs API已棄用，應使用 get_job_summaries 代替。
我們建議更新到客戶端版本0.15.0 pip install qai-hub==0.15.0，並且每次發布時更新您的客戶端，以確保您使用Qualcomm AI Hub的所有最新功能！

2024年8月12日發布

新客戶端版本0.14.0可用！
中間資產：當您提交編譯作業時，您現在會在編譯作業頁面上看到一個 "intermediate assets" 選項卡。此新功能允許AI Hub將編譯的中間狀態保存為AI Hub上的第一類模型。例如，如果您提交TorchScript模型進行TFLite編譯，將保存一個中間ONNX模型並可訪問。
作業限制：Hub現在將自動排程超過每個用戶最大限制的作業，而不是返回錯誤。如果您以前處理過此類的錯誤，現在已不再需要重提作業。

2024年7月29日發布

更新ONNX Runtime至1.18。
Qualcomm AI Hub開始支持Snapdragon Ride平台。查看我們為車用設備提供的預優化AI Hub模型，通過AI Hub在真實車用設備上測試這些模型，並讓我們知道是否遇到任何問題！

2024年7月15日發布

對Android設備的內存估算進行了改進，允許更精確的範圍。分析器避免外源堆使用的能力得到了改善，導致內存範圍更小。嘗試提交一個新作業並查看內存範圍！
將QNN更新至2.24.0，ONNX更新至1.16.0。
為ONNX Runtime添加了int16支持。

2024年7月1日發布

AI Hub作業可以自動與您的組織共享。要將用戶添加到您的組織，請發送電子郵件至 ai-hub-support@qti.qualcomm.com，並附上您團隊的電子郵件地址。
AI Hub作業也可以在您的組織外部與Qualcomm共享以獲得支持。點擊任何作業右上角的 “共享” 按鈕，並指定AI Hub用戶的電子郵件，該作業（及其相關的模型資產）將被共享。通過從作業中刪除電子郵件地址也可以撤銷訪問權限。
改進了AIMET模型編譯失敗的錯誤消息。
更新了 precompiled_qnn_onnx 的 Documentation。
為AI Hub網頁添加了詳細標題。現在，當您打開一個頁面時，它將指定您所在的頁面以及作業名稱（如適用）。
AI Hub 先前版本的發佈說明現在可在我們的 documentation 中找到以供參考。

2024年6月17日發布

Windows設備現在在AI Hub上廣泛可用，包括全新的Snapdragon X Elite和上一代Snapdragon 8cx Gen 3參考設計。當您運行qai-hub list-devices時，您將看到它列出。通過指定 device = hub.Device("Snapdragon X Elite CRD") 來指定X Elite。
支持編譯預編譯過的QNN ONNX模型！使用 options="--target_runtime precompiled_qnn_onnx" 來指定您正在使用預編譯的ONNX Runtime模型。（注意：文檔中有錯字，將在下次發布中修復，請按上述指定使用該選項）。
添加了有關支持的ONNX Runtime選項的文檔。
在快速入門示例中增加了包括提交推理作業、下載模型等步驟。
在分析和推理作業中的額外錯誤詳細信息：如果您的作業失敗，請查看新增加的部分，標題為「運行時日誌中的附加信息」。這部分提供了關鍵細節，幫助您在不需要打開執行時日誌的情況下進行除錯。
更新至QNN版本2.23。

2024年6月4日發布

添加了設備系列列表：現在當您使用qai-hub list-devices時，您將看到這些列表（例如Google Pixel 3a系列，Samsung Galaxy S21系列等）。這應該有助於設備配置時間，請在適用時使用此選項！
更新至QNN版本2.22.6。
支持64位輸入類型作為編譯選項 --truncate_64bit_io。

2024年5月17日發布

通過ONNX QNN Execution Provider在Windows上添加了對Snapdragon X Elite NPU的支持，通過ONNX DirectML Execution Provider在Windows上添加了對Snapdragon X Elite GPU的支持——請在此處註冊以獲得使用資格！
QNN版本2.22支持（編譯資產現在針對QNN 2.22，而不是QNN版本2.20）。
應用AI Hub於Windows！
QNN的w4a8支持（--quantize_full_type w4a8）。
在我們的文檔中為每個runtime使用的上下文添加了更多信息。
棄用目標runtime qnn_bin。請現在使用 --target_runtime qnn_context_binary。上下文二進制文件是針對設備硬件架構編譯的。更多信息可以在我們的文檔中找到。

2024年5月6日發布

文檔現在包括將ONNX模型編譯為TFLite或QNN以及直接使用ONNX Runtime進行分析的示例。
ONNX Runtime的默認配置現在利用了最高速度的選項進行分析/推理。現在設置為3，這提供了默認情況下最優化的模型。
將TensorFlowLite升級至2.16.1（適用於分析作業）。
其他關於編譯作業性能的修復。

2024年4月22日發布

多種性能改進，提升錯誤報告能力和支援更多的網路層！
添加了QCS8450代理設備（請參見線程中的說明）。
升級至最新的ONNX運行時版本（1.17.3）。
更新了ONNX runtime模型的文檔。
為ONNX Runtime引入了IO選項。
為QNN路徑添加了w4a16量化支持。

2024年4月8日發布

引入了ONNX runtime（.onnx）和NPU的支持。提交編譯作業時，請通過指定 options=--target_runtime onnx 來嘗試。
對ONNX運行時進行了改進，包括許多加速。
為ONNX運行時模型添加了模型可視化。
增加了編譯作業的日誌記錄。
更多IOT代理設備：查看QCS8250，QCS8550代理設備。
升級至Tensorflow 2.15.0。
通過Hub添加了對int16，w8a16量化的支持。

2024年3月25日發布

添加了更多Galaxy S24設備以運行作業。
升級至最新的QNN版本2.20。
將模型上傳限制增加到10 GB。
添加了支持將AIMET（.onnx +編碼）量化模型轉換為ONNX並通過ONNX Runtime在設備上運行
優化：針對TFLite模型的深度卷積重塑其常量折疊。
為防止通過編譯選項輸入不正確名稱添加了額外檢查。

2024年3月11日發布

AI Hub引入了具有Snapdragon® 8 Gen 3芯片組的設備。通過指定 device = hub.Device("Samsung Galaxy S24") 來定位Snapdragon® 8 Gen 3。

2024年2月28日發布

Qualcomm AI Hub在2024年MWC上推出。
支持約75個QAI Hub模型，以通過TFLite和QNN運行時在各種移動設備上提供性能和準確性數據。