發布說明

發布於 2026 年 5 月 11 日

  • 更新至 ONNX Runtime 1.25.0。

  • 新增支援 QAIRT 2.46.0 作為最新版本。

  • 升級至 AIMET-ONNX 2.29.0。

  • 提升含有 batchnorm 層模型的量化工作準確度。

發布於 2026 年 4 月 27 日

  • 模型現在會編譯為目標為 ONNX opset 21,已從版本 18 升級至 21。

  • 透過 Compile Job 新增了多種圖形優化步驟,以提升各項效能。

  • 我們正將模型輸入格式從 .pt 遷移到 .pt2.pt 的支援將逐步淘汰。若要遷移,請將 ExportedProgram 儲存為 .pt2 檔案。如果你在編譯模型時遇到 Torch to ONNX export 發生 Failure occurred,則需要升級到 .pt2

  • Link jobs 現在提供 I/O 規格,包括 graph_name、tensor 名稱以及所有其他詳細資訊。

  • 已升級至 Lite RT 2.1.4。目前仍沿用 Lite RT 1.4.3 的既有 interpreter API。

  • 裝置 中可用來執行模型的清單現在新增了「相似裝置」區塊。若你感興趣的裝置在 AI Hub Workbench 上不可用,可將此作為參考,找出可替代的裝置來進行模型測試與編譯,以確認功能與相容性。模型實際在真實裝置上執行時,效能與準確度指標可能會有所不同。

發佈日期: 2026 年 4 月 14 日

  • 已升級至 QAIRT 2.45.0。AI Hub Workbench 上可用的 QAIRT 版本包含 2.42.0、2.43.0 與 2.45.0。

  • 已升級至 ONNX 1.19.1。

  • 已將 Quantize Job 升級至 AIMET-ONNX 2.28.0。

  • 以 ONNX Runtime 為目標的分析工作現在在「Runtime Layer Analysis」區段中支援 optrace 設定檔資訊。

  • 若要查看 NPU 區段資訊:optrace 分析與 QHAS 摘要資料,請在 Runtime Layer Analysis 區的 placement 欄位下方點選 NPU。

  • Samsung Galaxy S21+(OS 版本:11)已被移除。請改用其他的 S21 裝置。

發佈日期:2026 年 3 月 30 日

  • 所有新工作已從 TF Lite 遷移至 Lite RT 2.1.3。這是切換到 Google 的新執行階段,以支援 NPU 加速。目前我們仍在使用現有的 interpreter API 與 delegate。

  • AIHW 產生的 TF Lite 模型現在相容於 TF Lite 2.19.0 及更新版本,包含 Lite RT。已不再支援舊版。

  • AI Hub Workbench 現在支援由 PyTorch 2.9.x 產生的 .pt2 模型編譯。

  • --quantize_full_type 編譯工作選項已被停用,改為使用 AI Hub Workbench 的 Quantize Job API

  • Quantize Job 已升級至 AIMET-ONNX 2.27.0。此更新後,您現在可以在 quantize job 中檢視 lite_mp(輕量混合精度)日誌。

  • 除了輸出資料集之外,其他工作產物,例如記錄和分析資料,現在也可透過 AI Hub Workbench 用戶端下載。您可以透過 hub.get_job() 存取這些內容。

  • 由於實體裝置 Dragonwing IQ-9075 EVK 已在 AI Hub Workbench 上提供一段時間,QCS9075(proxy)已從 AI Hub Workbench 中移除。請將任何工作改為使用實體裝置。

  • 對 Samsung Galaxy S21+(作業系統版本:11)的支援將在下次部署時移除。請改用其他的 S21 裝置。

  • 新增了關於裝置類型的說明文件,包括代理裝置、裝置系列等。請查看 Workbench 上所有可用的 devices,用來執行推論!

發佈日期:2026 年 3 月 2 日

  • 執行階段選項 --target_runtime qnn_context_binary 已被淘汰,請改用 submit_compile_and_link_jobs() API 來建立 QNN context binary 資產。

  • Quantize Job 的錯誤訊息已改善,現在會顯示來自日誌的具體錯誤內容。若您遇到失敗的工作卻沒有可執行的修正建議,請告知我們。

  • 針對提交至代理裝置的工作,新增了額外的警告訊息,特別說明在 CPU/GPU 上的效能細節。請注意,這些代理裝置旨在模擬指定裝置的 NPU 特性,但由於作業系統、韌體、時脈速度、記憶體、散熱封裝及其他因素的差異,效能分析結果可能與實際裝置不同。若模型是在 CPU 或 GPU 上執行,實際裝置上的速度可能會有顯著差異。

  • Quantize Job 現在會在工作的 versions 區段中顯示所使用的 AIMET 版本。

2026 年 2 月 17 日發佈

  • 透過編譯工作指定 QNN Model Libraries 的功能已從AIHW移除。具體來說:--target_runtime 選項值 qnn_lib_aarch64_android 已不再接受,--qnn_bin_conversion_via_model_library 選項也不再接受,且已無法再連結 QNN Context Binary 模型。

  • 使用 QNN Model Library 提交 profiling/inference 工作的能力已被標示為已淘汰(deprecated),並將於未來版本中移除支援。現有的 model library 仍可進行 profiling,但如前所述,已無法再透過 AI Hub Workbench 的 compile job 編譯為 model library。

  • 先前已淘汰的 submit_compile_and_quantize_jobs API 已移除。

  • SC8480XP Windows 裝置現已在 AI Hub Workbench 上提供。

  • 已升級至 QAIRT 2.43.1。AIHW 上的 QAIRT 版本包含 2.41.0、2.42.0(預設)以及 2.43.1(最新)。

  • 已升級至 ONNX Runtime 1.24.1。

  • 透過 compile job API 所產生的 target model,現在除了原本列出的 source model 外,也會顯示在 AI Hub Workbench UI 的 Models 分頁中。

  • 已移除對 Google Pixel 6a 裝置的支援。

  • 已將(Quantize Job 中的)aimet-onnx 升級至 2.24。

2026 年 2 月 2 日發佈

  • 新的 API:submit_compile_and_link_jobs() 現已可用,可簡化需要編譯多個模型並連結成共享權重 QNN context binary 的使用者工作流程。請查看所有 詳細資訊

  • Beta 版功能:現在 AI Hub Workbench 的 Compile Job 已支援您的輸入模型使用 .pt2 (Torch 匯出程式)格式。暫時必須使用 PyTorch 2.8.0 匯出,才能使用此功能!

  • 先前已標示為停用的功能——將 target model 傳入 submit_compile_and_profile_jobs API——已被移除。

2026 年 1 月 26 日發布

  • IQ9075-AA(100 TOPS)Qualcomm Linux 版本現已在 Qualcomm AI Hub Workbench 上提供!歡迎立即在該裝置上執行您的模型並試用。

  • 已升級至 QAIRT 2.42.0(現為預設與最新版本)。

  • Workbench 已移除多項代理裝置 - IOT: QCS6490(Proxy)、Auto: SA8255(Proxy)、SA8650(Proxy)、SA8775(Proxy)。

  • 裝置淘汰通知:Google Pixel 6a(OS 版本:13)因裝置老化與使用情況,將在下次版本中被淘汰。如有任何疑慮請告知。

  • Quantize Job 中的 AIMET-ONNX 已升級至 2.22。

  • Quantize Job 的 lite-mp 已更新,進行敏感度分析時不再只使用模型的第一個輸出,而是使用所有輸出。

2026年1月6日發佈

  • 模型頁面現在會顯示 I/O 規格資訊與量化參數。這些詳細資訊也可透過 AI Hub Python 用戶端取得。

  • 已將 QAIRT 升級至 2.41.0。

  • Quantize Jobs 已升級至 AIMET-ONNX 2.21.0。

  • 多項代理裝置將在下個版本中移除。 IOT:由於實體裝置 Qualcomm Dragonwing™ RB3 Gen 2 Vision Kit(QCS6490)自 11 月中旬起已能在 AI Hub Workbench 使用,因此 QCS6490 代理裝置將被移除。 Auto:SA8255(Proxy)、SA8650(Proxy)、SA8775(Proxy)。

  • QNN 的 TFLite Delegate 選項 GPUv2(OpenGL 後端)、nnapi、nnapi-gpu 已從 AI Hub Workbench 中移除。

  • 已停止支援 Python 3.9(因其於 2025 年 10 月 31 日終止維護)。

2025 年 12 月 8 日發佈

  • 已將 AIMET 更新至 2.20.0。

  • Qualcomm Snapdragon™ 8cx Gen 3 CRD (SC8280XP) 已從 AI Hub Workbench 移除。

2025年11月19日發佈

  • 我們正在重新品牌化 AI Hub 產品組合。模型最佳化平台(先前稱為「AI Hub」)現在將稱為 AI Hub Workbench。其他產品 AI Hub Models 和 AI Hub Apps 保持不變。

  • Qualcomm Dragonwing™ RB3 Gen 2 Vision Kit(QCS6490)現已在 AI Hub Workbench 上提供。這是我們第一個執行 Qualcomm Linux 的裝置。由於此裝置已可使用,QCS6490 代理將在不久的將來被棄用。

  • Qualcomm Dragonwing™ Q-6690 MTP(QCM6690)現已在 AI Hub Workbench 上提供。您現在可以提交針對此裝置的工作。裝置詳細資訊請查看我們的 device page。

  • submit_compile_and_quantize_jobs 已被停用。請改用 submit_compile_job()submit_quantize_job() APIs。

  • 將 target model 傳入 submit_compile_and_profile_jobs() 已被停用。請使用 submit_profile_job() API。

  • 文件:新增了一個在非 FP16 裝置上使用 ONNX Runtime 的新 profile job 範例。Compile Job 範例已更新。

  • 新增對 QAIRT 2.40.0(最新版本)的支援,QAIRT 2.39 仍為預設版本。

  • 目前在 AI Hub Workbench 上提供的 Qualcomm Snapdragon™ 8cx Gen 3 CRD(SC8280XP)將在未來幾週內被棄用並移除。如有任何疑慮,請告訴我們。

2025 年 11 月 4 日發布

  • QAIRT 預設版本已更新為 2.39.0。

  • NumPy 支援已擴展至 2.0,作為 Python 的相依套件。

2025年10月27日發布

  • 現在在使用 QNN 作為指定執行時(context binaries 或 DLC)的分析工作中,可以取得 Optrace 資料。請展開 Runtime Layer Analysis 區段並點擊 view optrace,以檢視詳細的 HTP 分析資料:QNN Op 與 HTP Op 詳細資訊、Optrace 時間與瓶頸。

2025年10月22日發布

  • 我們的設備農場最近更新導致分析與推論工作出現間歇性失敗。錯誤訊息可能為 Failed to fully run the model, failed after compilingFailed to profile the model: unexpected device error 我們已在部署中推出暫時解決方案,請重新執行您的工作。

  • 新增對 QAIRT 2.39.0(最新版)的支援。

  • 升級至 PyTorch 2.8.0。

  • 當使用 LiteMP(混合精度)功能時,已更新 Quantize Job 中的 PSNR 函數,使其與 AIMET 的離線 PSNR 計算方式一致。

2025 年 10 月 6 日發佈

  • 對我們文件中的 compile models examples 進行了簡化的小幅更新。

  • 已更新至 ONNX Runtime 1.23.0。

  • AI Hub 產生的 ONNX 模型現在會使用 ir_version=11。這需要 ONNX Runtime 1.23.0 才能執行推論。

  • 已更新至 AIMET-ONNX 2.15.0。

  • AI Hub 已移除將模型直接下載至記憶體的功能。模型現在必須下載至磁碟中。

2025 年 9 月 29 日發佈

  • 已為 ONNX Runtime 新增額外的 profile 工作選項(透過 --onnx_options)。請參考我們的 API 文件,了解如何設定 vtcm_mbcontext_priorityoffload_graph_io_quantization

  • 新裝置:我們現有兩款全新的行動裝置:Snapdragon® 8 Elite Gen 5 (SM8850) 和 Snapdragon® 7 Gen 4 (SM7750),現在已可透過 Qualcomm AI Hub 開始測試您的模型! 若要在其中一款裝置上測試您的模型,只需在提交工作時指定裝置名稱,例如: device=hub.Device("Snapdragon 8 Elite Gen 5 QRD")

  • 已修正預先編譯的 ONNX 模型的相關問題。

2025 年 9 月 22 日發佈

  • 已升級至 AIMET-ONNX 2.14.0。

  • QAIRT 2.38.0 為最新版本,現已提供。同時 QAIRT 2.37.0 也已升級至 2.37.1。

  • 新增作業建立與重試操作的日誌記錄功能。

2025 年 9 月 8 日發佈

  • 已升級至 ONNX Runtime 1.22.2。

  • 降低因 'unknown' 導致的作業失敗率。

2025 年 9 月 2 日發佈

  • LiteMP(light mixed precision,輕量混合精度)目前已在 AI Hub 上提交 quantize 工作時提供 beta 版。你可以在提交 quantize 工作時啟用 此選項,讓指定比例的層可被修改為指定的精度(--lite_mp percentage=10;override_qtype=int16)。

  • 升級至 aimet-onnx 2.13.0。

2025年8月22日發佈

  • 我們已遷移至新的單一登入(SSO)供應商。使用者不應受到任何影響。如遇到問題,請嘗試重新登入,並告知我們是否有任何異常行為。

  • 已升級至 QAIRT 2.37.0 和 aimet_onnx 2.12.0。

  • 直接將模型下載至記憶體的功能已被淘汰。客戶端與文件中已加入警告。請改用以下方式將來源模型下載為檔案:model = compile_job.download_target_model("model_filename") 檔案名稱為必填。

  • 已停用一段時間的 Client API get_jobs 已正式移除。請改用 get_job_summaries()

2025年8月11日發布

  • AI Hub 現在已完整支援 DLC!因此,我們將逐步停止產生 .so 模型庫檔案。DLC 檔案已證實在相同情境下(例如目標為 AArch64 Android)同樣適用,而且更可靠。因此,.so 的產生已透過 AI Hub 進入停用狀態(自即日起生效——已不再支援或維護),並將在約 6 週後移除。現在要產生 .bin 檔案,會先經由 .dlc。產生 .bin``(--qnn_context_binary``)與 .dlc``(--qnn_dlc``)的執行階段選項,以及其他執行階段選項,皆維持不變!已停用的選項 --qnn_bin_conversion_via_model_library 可用來透過 .so 模型產生 .bin 檔案。現在 linking 工作會接受 .dlc 檔案(1 個或多個)以及一個或多個裝置。舊式的 .bin 模型 linking 方式正在停用中。此外,--target_runtime qnn_lib_aarch64_android 也正在停用。

  • 已升級至 QAIRT 2.36.4,現為預設版本。目前 Hub 支援 2.33.2、2.34.2 和 2.36.4。

  • 針對因 QNN Context Binary 產生失敗導致的編譯作業驗證錯誤,改善了錯誤訊息。訊息中會包含  <failed op_name>: <op_type>: <root-cause of failure> (若適用)。

  • 在我們的文件 FAQ 中新增了常見 ONNX Runtime 錯誤。

  • 特定失敗作業的錯誤訊息現在會包含指引,提示使用者查看執行時日誌以獲得更多資訊(若適用)。

  • 請注意,我們不再使用 ONNX Runtime 的分析/推論作業之前於流程中量化權重。此變更是為了支援未來的功能強化,並讓我們的效能測量更容易重現。

2025年7月28日發布

  • 我們在 Quantize Job 中升級至 AIMET-ONNX 2.10.0。

  • 我們的文件現在支援 3 種額外語言的本地化 - 韓文、日文和繁體中文。請透過左下角的語言選擇器切換查

  • 已為裝置新增 weight sharing 屬性(>=v73 和 SA8295P)。當你查詢 hub.get_devices() 時,屬性 htp-supports-weight-sharing:true 會表示哪些裝置的 HTP 支援共享 weights。

2025年7月14日發布

  • AI Hub 現在會一律產生使用外部權重(.zip)的 ONNX 模型,不論模型大小為何,以解決影響模型上傳與可視化的下游問題。若要將其轉換為內嵌權重的單一模型,使用者可以這樣做

    import onnx
    model = onnx.load("your_model.onnx")
    onnx.save(model, "your_new_model.onnx")
    
  • 修復了當 ONNX 模型使用 OpSet 5 的 Reshape 層時出現的編譯錯誤。

  • 修復了在對具有外部權重的 ONNX 模型進行量化作業時,PSNR 計算出現的錯誤。

  • 解決了 AIMET+ONNX 編譯為 QNN 時的一些問題。

  • 放寬了 AI Hub 用戶端所需的 protobuf 版本限制。使用者現在可以安裝 protobuf>=3.20,<=6.31.1。

  • Yolov8 QNN context binary 的張量輸出順序問題已透過最新的 QAIRT 版本解決。

  • 版本表格中的 AI Hub 版本曾暫時顯示為 local-hub-1999,該問題現已修復。

  • 針對 .dlc 的 w8a8 與 w8a16 量化模型效能,曾因效能圖譜 pass 意外影響 Q/DQ 節點,而回報出明顯的效能退化。

2025年6月30日發布

  • 模型視覺化功能已可顯示 int4 層。

  • 已升級多個相依套件:QAIRT 2.35 為我們的最新版本。QAIRT 2.34.2 仍為預設版本。AIMET ONNX 2.8.0 用於我們的量化工作。ONNX Runtime 1.22.0。

2025年6月16日發布

  • 已升級至 QAIRT SDK 2.34.2。此版本現在為所有作業的預設 QAIRT SDK 版本。

  • 新增對 .dlc 模型視覺化的支援(請注意,需使用 QAIRT SDK 2.34.2 或以上版本)。

  • 量化作業現在使用 aimet-onnx 2.7.0。

  • 您現在可以在 Qualcomm AI Hub CLI 程式中加入 --verbose 參數以啟用詳細日誌記錄。這在除錯失敗作業時非常有幫助,並可能由我們的團隊要求以獲取更多細節

  • 已修正一個偶發性失敗問題,該問題出現在對多個圖中的其中一個進行剖析時,尤其是在使用我們的 LLM 匯出教學時。原因是將 --qnn_options 當作旗標傳入,導致產生非預期行為。

2025 年 6 月 2 日發佈

  • 修復了與多重圖形(multi-graph)分析相關的錯誤。

  • 僅針對 TFLite 路徑新增有限的 6D slice支援,以支援 RF-DETR 模型。

  • 大型模型(大於 2GB)的支援已擴展至量化作業,以及在 Compute 平台上的分析與推論作業。Android 平台目前尚不支援大型模型的分析或推論。

  • 升級至 aimet-onnx 2.6.0。

2025 年 5 月 14 日發佈

  • 透過 CLI 上傳模型時,現在會顯示模型 ID 及可點擊的模型連結。

  • 升級至 aimet-onnx 2.5.0。

2025年5月5日發佈

  • 使用者現在可以透過 AI Hub 編譯大型的 PyTorch 和 ONNX 模型(先前這類模型會因超過 2GB 而出現不支援的錯誤訊息)。請注意,目前尚不支援產生大型的 TF-Lite 模型。

  • 已升級多個套件:QAIRT 2.33.2、ONNX Runtime 1.21.1、aimet-onnx 2.4.0。

  • 當提交至 AI Hub 的作業具有錯誤的輸入格式時,將提供額外的錯誤訊息。

  • 針對目標為 precompiled_qnn_onnx 路徑的 ONNX 模型,編譯作業現在會遵循其輸出格式。

2025年4月22日發布

  • AI Hub 現在在提交 compile、profile 和 inference 工作時支援 Deep Learning Container .dlc。請查看我們的 examples。請注意,目前僅支援將 torch/onnx 編譯為 DLC 並提交 DLC 模型的 profile/inference 工作。其他功能支援(包括 DLC 視覺化)即將推出。

  • 新增對 QAIRT SDK 2.33.0 的支持,並升級至 2.32.6。默認值將繼續為 2.32,最新版本現在為 2.33。

  • 升級至 aimet-onnx 2.3.0。

  • 已將 Samsung Galaxy S25 裝置新增至我們的 available devices

2025年4月8日發布

  • AI Hub 現在會產生使用 opset 20 的 ONNX 模型,這需要 ONNX Runtime 1.17.0(先前為 1.12.0)。

  • 在 ONNX2TF 中新增對 AffineGrid 操作的支持。

  • 在編譯 AIMET 模型時,AI Hub 現在支持 AIMET 編碼版本 1.0.0。

2025年3月25日發布

  • 我們注意到 “作業在8小時後超時” 作為失敗原因的增加。這個問題已經被調查並解決。如果您遇到此問題,請重新嘗試您的作業

  • 以前用於指定ONNX Runtime的選項 ort 已被移除。請繼續使用 --target_runtime onnx

  • 添加了多個HTP優化選項的能力。

2025年3月10日發布

  • 已升級至 QAIRT 2.32.0。Qualcomm AI Engine Direct SDK(又稱 QNN)現已更名為 Qualcomm AI Runtime SDK(又稱 QAIRT)。

  • 將AIMET-ONNX升級至版本2.0.1。這是我們量化作業的底層引擎。由於這次升級,解決了幾個量化作業錯誤,包括作業因內部量化器錯誤而失敗。請重新提交您的作業並讓我們知道是否有任何問題。

  • 實現了靜態形狀ROI Align TensorFlow Lite 支持。

  • 在編譯作業的版本區間中添加了ONNX Runtime的版本信息。

  • 請升級到最新的客戶端版本 0.25.0

2025年2月24日發布

  • 升級至 QNN 版本 2.31。

  • 查看我們新的 devices page,該頁面提供關鍵的執行時支援資訊。

2025年2月10日發布

  • ONNX模型現在支持在上傳模型時引入外部權重。目錄名稱帶有 .onnx 副檔名或文件名帶有 .onnx.zip 擴展名,並且必須只有一個權重文件,該文件必須是 .data 文件。請注意:使用此功能支持LLM仍在開發中。

  • 在查看配置文件作業的模型推理時間時,新增了中位數和迷你圖形,提供了更詳細的時間信息。

  • 所有模型資產的多模型作業可視化:現在當您點擊作業右上角的“可視化”時,可以流覧並可視化與作業相關的所有適用模型(源、中間和目標)。

  • 為Qualcomm QCS8275和QCS9075添加了新的IoT代理設備。這些設備現在可用於AI Hub作業。

  • 如果您看到以下錯誤消息:Tensors {'...'} occur in value_info but also in model IO. See https://github.com/onnx/onnx/blob/main/docs/IR.md#graphs>,請更新到最新的AI Hub模型(pip install qai-hub-models)。我們知道這個問題直接影響Llama模型編譯。

  • 引用過期數據集的工作會顯示準確的錯誤訊息。

2025年1月22日發布

  • 改進了大模型的上傳速度,以防止超時和SSLEOF錯誤。請繼續報告任何發生的錯誤!

  • 各種更新以改進失敗作業的錯誤消息。如果您遇到作業失敗並希望了解更多關於發生了什麼的詳細信息,請隨時在 Slack 上分享您的作業連結。

2025年1月6日發布

  • 我們已經移除了AIMET PyTorch模型(.pt)上傳路徑。我們建議使用ONNX模型(.onnx)和量化參數的編碼文件(.encodings)。

  • 我們的FAQ已遷移到其新家,在我們的文檔中!Check it out

  • 使用量化QNN模型的推理作業現在將可接受fp32 輸入與輸出。

2024年12月13日發布

  • 為 TensorFlow Lite 添加了ONNX NonMaxSupression操作。

  • 警告:我們將在1月6日的部署中棄用AIMET PyTorch模型(.pt)上傳路徑。我們建議使用ONNX模型(.onnx)和量化參數的編碼文件(.encodings)。

2024年11月25日發布

  • 升級至QNN 2.28.2和2.28.0以支持自動設備。

  • 針對Llama系列模型上傳到AI Hub的各種改進。我們已經解決了用戶反饋的超時問題。請讓我們知道是否遇到持續的問題。

  • 現在你可以在編譯選項中加入 --quantize_weight_type float16,將 FP32 權重壓縮為 FP16。

  • AI Hub中提供了新的自動設備!我們現在提供SA8775P和SA7255P ADP設備。

2024年11月11日發布

  • 公告:link jobs!這將多個模型合併為單一 context binary,使權重可在圖之間共享,節省磁碟空間。Link jobs 專屬於 Hexagon Tensor Processor(HTP)的 QNN context binary。

  • 改進並解決qai-hub客戶端常見問題:最新的客戶端版本0.19.0修復了上傳時遇到的錯誤。此外,上傳大小限制已從5GB提高到10GB(壓縮),並且大文件可切分多部分上傳。

  • ONNX版本已更新至1.17.0。

  • 更新了我們 documentation; 中的範例,特別是量化基準測試和編譯工作。

2024年10月28日發布

  • 新設備:Snapdragon 8 Elite在Snapdragon峰會上宣布,所有用戶都可以通過指定 device = hub.Device("Snapdragon 8 Elite QRD")

  • 新設備:車用設備Snapdragon Cockpit Gen 4(SA8295P)現在可以在AI Hub中使用。選擇它 --device "SA8295P ADP" --device-os 14

  • 一旦您使用SSO登錄AI Hub,您將自動重定向到感興趣的頁面。

2024年10月14日發布

  • (Beta)Qualcomm AI Hub 現在支援將 float32 模型轉換為整數數值(例如 int8、int16)。此 Beta 功能可透過 submit_quantize_job API 用於量化 PyTorch 模型。請查看更多 詳細資訊和範例

  • 現在支持Int64(推理和分析作業)!

  • 升級至QNN 2.27。

2024年10月7日發布

  • 改進了推理作業中對rank-0(scalar)tensors的支持。

  • 更新作業狀態(並修復一個UI錯誤) 以提供更多關於作業所處階段的資訊。

  • 在許多情況下改進了錯誤消息,包括:分析器不支持的數據類型、無效的TFLite模型文件和許多設備上的內存不足錯誤。

  • 客戶端版本0.17.0 pip install qai-hub==0.17.0 已發布,這包括HTTP重試的修復,應使數據上傳和下載更加可靠!

  • 新設備支持!您現在可以通過指定 device = hub.Device("Snapdragon X Plus 8-Core CRD") 在AI Hub上啟動作業並選用Snapdragon X Plus。

2024年9月23日發布

  • 所有 proxy 裝置的 chipset 屬性已重新命名,現在會包含 -proxy 後綴。例如,chipset:qualcomm-qcs6490 現在是 chipset:qualcomm-qcs6490-proxy。裝置名稱維持不變。

  • 升級至ONNX Runtime 1.19.2,TFLite至2.17。

2024年9月11日發布

  • 升級至QNN 2.26。

  • 模型頁面現在有一個下拉菜單以按創建者過濾,使搜索組織中其他人的模型更容易。

  • 跨UI的各種錯誤修復,包括QNN模型的更新可視化。查看並讓我們知道是否遇到任何問題!

2024年8月26日發布

  • 自8月13日起,如果用戶已經有最大允許數量的作業正在運行,Hub在創建作業時不再拋出異常。相反,新作業被置於 pending 狀態,並在現有作業完成後自動安排執行。在python客戶端版本 0.14.1 中,我們為作業物件添加了一個名為 pending 的新屬性。處於pending狀態的作業現在將返回 True 如果調用 pending ,並返回 False 如果調用 running

  • 升級至QNN 2.25。

  • get_job_summaries 在客戶端中從此版本(0.15.0) 及以後可用。 get_jobs API已棄用,應使用 get_job_summaries 代替。

  • 我們建議更新到客戶端版本0.15.0 pip install qai-hub==0.15.0,並且每次發布時更新您的客戶端,以確保您使用Qualcomm AI Hub的所有最新功能!

2024年8月12日發布

  • 新客戶端版本0.14.0可用!

  • 中間資產:當您提交編譯作業時,您現在會在編譯作業頁面上看到一個 "intermediate assets" 選項卡。此新功能允許AI Hub將編譯的中間狀態保存為AI Hub上的第一類模型。例如,如果您提交TorchScript模型進行TFLite編譯,將保存一個中間ONNX模型並可訪問。

  • 作業限制:Hub現在將自動排程超過每個用戶最大限制的作業,而不是返回錯誤。如果您以前處理過此類的錯誤,現在已不再需要重提作業。

2024年7月29日發布

  • 更新ONNX Runtime至1.18。

  • Qualcomm AI Hub開始支持Snapdragon Ride平台。查看我們為 車用設備 提供的預優化AI Hub模型,通過AI Hub在真實車用設備上測試這些模型,並讓我們知道是否遇到任何問題!

2024年7月15日發布

  • 對Android設備的內存估算進行了改進,允許更精確的範圍。分析器避免外源堆使用的能力得到了改善,導致內存範圍更小。嘗試提交一個新作業並查看內存範圍!

  • 將QNN更新至2.24.0,ONNX更新至1.16.0。

  • 為ONNX Runtime添加了int16支持。

2024年7月1日發布

  • AI Hub作業可以自動與您的組織共享。要將用戶添加到您的組織,請發送電子郵件至 ai-hub-support@qti.qualcomm.com,並附上您團隊的電子郵件地址。

  • AI Hub作業也可以在您的組織外部與Qualcomm共享以獲得支持。點擊任何作業右上角的 “共享” 按鈕,並指定AI Hub用戶的電子郵件,該作業(及其相關的模型資產)將被共享。通過從作業中刪除電子郵件地址也可以撤銷訪問權限。

  • 改進了AIMET模型編譯失敗的錯誤消息。

  • 更新了 precompiled_qnn_onnxDocumentation

  • 為AI Hub網頁添加了詳細標題。現在,當您打開一個頁面時,它將指定您所在的頁面以及作業名稱(如適用)。

  • AI Hub 先前版本的發佈說明現在可在我們的 documentation 中找到以供參考。

2024年6月17日發布

  • Windows設備現在在AI Hub上廣泛可用,包括全新的Snapdragon X Elite和上一代Snapdragon 8cx Gen 3參考設計。當您運行qai-hub list-devices時,您將看到它列出。通過指定 device = hub.Device("Snapdragon X Elite CRD") 來指定X Elite。

  • 支持編譯預編譯過的QNN ONNX模型!使用 options="--target_runtime precompiled_qnn_onnx" 來指定您正在使用預編譯的ONNX Runtime模型。(注意:文檔中有錯字,將在下次發布中修復,請按上述指定使用該選項)。

  • 添加了有關支持的ONNX Runtime選項的文檔。

  • 在快速入門示例中增加了包括提交推理作業、下載模型等步驟。

  • 在分析和推理作業中的額外錯誤詳細信息:如果您的作業失敗,請查看新增加的部分,標題為「運行時日誌中的附加信息」。這部分提供了關鍵細節,幫助您在不需要打開執行時日誌的情況下進行除錯。

  • 更新至QNN版本2.23。

2024年6月4日發布

  • 添加了設備系列列表:現在當您使用qai-hub list-devices時,您將看到這些列表(例如Google Pixel 3a系列,Samsung Galaxy S21系列等)。這應該有助於設備配置時間,請在適用時使用此選項!

  • 更新至QNN版本2.22.6。

  • 支持64位輸入類型作為編譯選項 --truncate_64bit_io

2024年5月17日發布

  • 通過ONNX QNN Execution Provider在Windows上添加了對Snapdragon X Elite NPU的支持,通過ONNX DirectML Execution Provider在Windows上添加了對Snapdragon X Elite GPU的支持——請在此處註冊以獲得使用資格!

  • QNN版本2.22支持(編譯資產現在針對QNN 2.22,而不是QNN版本2.20)。

  • 應用AI Hub於Windows!

  • QNN的w4a8支持(--quantize_full_type w4a8)。

  • 在我們的文檔中為每個runtime使用的上下文添加了更多信息。

  • 棄用目標runtime qnn_bin。請現在使用 --target_runtime qnn_context_binary。上下文二進制文件是針對設備硬件架構編譯的。更多信息可以在我們的文檔中找到。

2024年5月6日發布

  • 文檔現在包括將ONNX模型編譯為TFLite或QNN以及直接使用ONNX Runtime進行分析的示例。

  • ONNX Runtime的默認配置現在利用了最高速度的選項進行分析/推理。現在設置為3,這提供了默認情況下最優化的模型。

  • 將TensorFlowLite升級至2.16.1(適用於分析作業)。

  • 其他關於編譯作業性能的修復。

2024年4月22日發布

  • 多種性能改進,提升錯誤報告能力和支援更多的網路層!

  • 添加了QCS8450代理設備(請參見線程中的說明)。

  • 升級至最新的ONNX運行時版本(1.17.3)。

  • 更新了ONNX runtime模型的文檔。

  • 為ONNX Runtime引入了IO選項。

  • 為QNN路徑添加了w4a16量化支持。

2024年4月8日發布

  • 引入了ONNX runtime(.onnx)和NPU的支持。提交編譯作業時,請通過指定 options=--target_runtime onnx 來嘗試。

  • 對ONNX運行時進行了改進,包括許多加速。

  • 為ONNX運行時模型添加了模型可視化。

  • 增加了編譯作業的日誌記錄。

  • 更多IOT代理設備:查看QCS8250,QCS8550代理設備。

  • 升級至Tensorflow 2.15.0。

  • 通過Hub添加了對int16,w8a16量化的支持。

2024年3月25日發布

  • 添加了更多Galaxy S24設備以運行作業。

  • 升級至最新的QNN版本2.20。

  • 將模型上傳限制增加到10 GB。

  • 添加了支持將AIMET(.onnx +編碼)量化模型轉換為ONNX並通過ONNX Runtime在設備上運行

  • 優化:針對TFLite模型的深度卷積重塑其常量折疊。

  • 為防止通過編譯選項輸入不正確名稱添加了額外檢查。

2024年3月11日發布

  • AI Hub引入了具有Snapdragon® 8 Gen 3芯片組的設備。通過指定 device = hub.Device("Samsung Galaxy S24") 來定位Snapdragon® 8 Gen 3。

2024年2月28日發布

  • Qualcomm AI Hub在2024年MWC上推出。

  • 支持約75個QAI Hub模型,以通過TFLite和QNN運行時在各種移動設備上提供性能和準確性數據。