릴리즈 노트

2026년 5월 28일 목요일 출시

  • --target_runtime 옵션의 precompiled_qnn_onnx 대상 런타임 값은 더 이상 사용되지 않습니다. ONNX 모델에 QNN Context Binary를 포함하려면 submit_compile_job() 또는 submit_compile_and_link_jobs() API를 사용하세요.

  • ONNX Runtime QNN 실행 공급자를 2.1.0으로 업그레이드했습니다. 이제 정적으로 연결되는 대신 플러그인 라이브러리로 로드되어 독립적인 버전 업데이트가 가능해졌습니다.

  • AIMET-ONNX 2.31.0으로 업그레이드했습니다 — Gemm 연산자에 대한 채널별 양자화(PCQ) 지원이 포함되어 있어 완전 연결 계층이 있는 모델의 양자화 정확도가 향상됩니다.

  • ONNX 1.20.0으로 업그레이드했습니다. 이제 AIHW는 ir_version 13의 ONNX 모델을 생성합니다.

  • PyTorch 2.11.0으로 업그레이드했습니다. AIHW는 이제 PyTorch 2.11.0으로 생성된 .pt2 모델 업로드를 허용합니다.

  • submit_compile_and_link_jobs() 는 이제 ONNX에 연결된 모델을 포함할 수 있습니다. submit_compile_and_link_jobs API는 이제 QNN Context Binary 포함을 지원합니다.

  • 입출력 사양 문서를 추가했습니다 — API 문서에는 이제 컴파일, 프로파일, 추론 작업 전반에서 사용되는 입력/출력 사양에 대한 자세한 문서가 포함됩니다.

  • Similar Devices 업데이트 — 어떤 기기와 칩셋을 사용할 수 있는지 명확히 하기 위해 “Similar Chipset” 열을 추가했으며, XR2 Gen 2와 그 유사 기기인 Samsung Galaxy S22를 추가했고 XR proxy 기기에 대한 경고도 추가했습니다.

2026년 5월 11일 릴리스됨

  • ONNX Runtime 1.25.0으로 업데이트되었습니다.

  • 최신 버전으로 QAIRT 2.46.0 지원이 추가되었습니다.

  • AIMET-ONNX 2.29.0으로 업그레이드되었습니다.

  • batchnorm 레이어가 있는 모델의 quantize job 정확도가 개선되었습니다.

2026년 4월 27일 출시

  • 모델은 이제 ONNX opset 21을 대상으로 컴파일되며, 버전 18에서 21로 업그레이드되었습니다.

  • 다양한 성능 개선을 위해 Compile Job 을 통해 새로운 그래프 최적화 패스가 추가되었습니다.

  • 모델 입력 형식이 .pt 에서 .pt2 로 이전되고 있습니다. .pt 에 대한 지원은 단계적으로 중단될 예정입니다. 이전하려면 ExportedProgram을 .pt2 파일로 저장하세요. 모델을 컴파일할 때 Torch to ONNX export에서 Failure occurred 문제가 발생하면 .pt2 로 업그레이드해야 합니다.

  • Link job에는 이제 graph_name, tensor 이름 및 기타 모든 세부 정보를 포함한 I/O 사양이 제공됩니다.

  • Lite RT 2.1.4로 업그레이드되었습니다. 현재도 Lite RT 1.4.3에서 기존 인터프리터 API를 계속 사용하고 있습니다.

  • 장치 에는 이제 Similar Devices 섹션이 포함됩니다. 관심 있는 장치가 AI Hub Workbench에서 사용할 수 없는 경우, 기능 및 호환성을 위해 모델을 테스트하고 컴파일할 대체 장치를 식별하는 참조로 사용할 수 있습니다. 실제 장치에서 모델을 실행할 때는 성능 및 정확도 지표가 달라질 수 있습니다.

2026년 4월 14일 출시

  • QAIRT 2.45.0으로 업그레이드되었습니다. AI Hub Workbench의 QAIRT 버전에는 2.42.0, 2.43.0 및 2.45.0이 포함됩니다.

  • ONNX 1.19.1로 업그레이드되었습니다.

  • Quantize Job이 AIMET-ONNX 2.28.0으로 업그레이드되었습니다.

  • ONNX Runtime을 대상으로 하는 프로파일 작업은 이제 Runtime Layer Analysis 섹션에서 optrace 프로파일 정보를 지원합니다.

  • NPU 세그먼트 정보인 optrace 프로필과 QHAS 요약 데이터를 보려면 Runtime Layer Analysis 섹션의 placement 열 아래에 있는 NPU를 클릭하세요.

  • Samsung Galaxy S21+ (OS Version: 11)가 제거되었습니다. 다른 S21 장치 중 하나를 사용해 주세요.

2026년 3월 30일 출시

  • 모든 신규 작업에 대해 TF Lite에서 Lite RT 2.1.3으로 전환했습니다. 이를 통해 NPU 가속을 위한 Google의 새로운 런타임으로 이전합니다. 현재는 여전히 기존 인터프리터 API와 디리게이트를 사용하고 있습니다.

  • AIHW에서 생성된 TF Lite 모델은 이제 Lite RT를 포함한 TF Lite 2.19.0 이상과 호환됩니다. 이전 버전의 사용은 더 이상 지원되지 않습니다.

  • PyTorch 2.9.x 에서 생성된 .pt2 모델의 컴파일이 이제 AI Hub Workbench에서 지원됩니다.

  • --quantize_full_type 컴파일 작업 옵션은 더 이상 사용되지 않으며, AI Hub Workbench의 양자화 작업 API 를 활용하는 방식이 권장됩니다.

  • Quantize Jobs용 AIMET-ONNX 2.27.0으로 업그레이드되었습니다. 이번 업데이트를 통해 이제 quantize job의 일부로 lite_mp (lite mixed precision) 로그를 검토할 수 있습니다.

  • 출력 데이터세트 외에도 로그 및 प्रो파일링 데이터와 같은 다른 작업 아티팩트를 이제 AI Hub Workbench 클라이언트를 통해 다운로드할 수 있습니다. 이러한 항목은 hub.get_job() 를 통해 액세스할 수 있습니다.

  • 실제 장치인 Dragonwing IQ-9075 EVK가 이미 한동안 AI Hub Workbench에서 제공되고 있었기 때문에, QCS9075(proxy)는 AI Hub Workbench에서 제거되었습니다. 모든 작업을 실제 장치를 사용하도록 전환해 주세요.

  • Samsung Galaxy S21+(OS 버전: 11)에 대한 지원은 다음 배포와 함께 제거될 예정입니다. 다른 S21 기기 중 하나를 사용해 주세요.

  • 장치 유형 - 프록시, 장치 계열 등 - 에 대한 문서를 추가했습니다. 추론을 실행할 수 있는 Workbench의 모든 장치 를 확인해 보세요!

2026년 3월 2일 출시

  • 런타임 옵션 --target_runtime qnn_context_binary 는 더 이상 사용되지 않으므로, QNN 컨텍스트 바이너리 자산을 생성하려면 submit_compile_and_link_jobs() API 를 활용하세요.

  • 로그에서의 구체적인 오류를 노출하도록 Quantize Job의 오류 메시지가 개선되었습니다. 조치 가능한 해결 방안이 없는 실패 작업을 겪고 계시다면 알려주시기 바랍니다.

  • 프록시 디바이스에 제출된 작업에 대해 추가 경고가 도입되었으며, 특히 CPU/GPU에서의 성능 세부 정보와 관련됩니다. 이러한 프록시 디바이스는 지정된 디바이스의 NPU 특성을 모방하도록 설계되었지만, 운영체제, 펌웨어, 클럭 속도, 메모리, 열 패키징 및 기타 요인의 차이로 인해 프로파일링 결과는 실제 디바이스와 다를 수 있습니다. 모델이 CPU 또는 GPU에서 실행되는 경우, 실제 디바이스에서는 속도가 크게 달라질 수 있습니다.

  • Quantize Job에는 이제 사용된 AIMET 버전이 작업의 versions 섹션에 포함됩니다.

2026년 2월 17일 릴리스

  • 컴파일 작업으로 QNN 모델 라이브러리를 대상으로 지정하는 기능이 AIHW 에서 제거되었습니다. 구체적으로, 옵션 --target_runtime 의 값 qnn_lib_aarch64_android 는 더 이상 허용되지 않으며, 옵션 --qnn_bin_conversion_via_model_library 도 더 이상 허용되지 않고, QNN 컨텍스트 바이너리 모델의 링크도 더 이상 불가능합니다.

  • QNN Model Library를 사용하여 프로파일 또는 추론 작업을 제출하는 기능은 사용 중단(deprecated)되었으며, 향후 릴리스에서 지원이 제거될 예정입니다. 기존 모델 라이브러리는 프로파일링할 수 있지만, 앞서 언급한 바와 같이 AI Hub Workbench 컴파일 작업을 사용하여 모델 라이브러리로 컴파일하는 것은 더 이상 불가능합니다.

  • 이전에 더 이상 사용되지 않던 submit_compile_and_quantize_jobs API 가 제거되었습니다.

  • SC8480XP Windows 디바이스가 이제 AI Hub Workbench에서 사용 가능합니다.

  • QAIRT 2.43.1으로 업그레이드되었습니다. AIHW의 QAIRT 버전에는 2.41.0, 2.42.0 (기본값), 2.43.1 (최신)이 포함됩니다.

  • ONNX Runtime이 1.24.1로 업그레이드되었습니다.

  • 컴파일Topics Job API의 일부로 생성된 타겟 모델이, 기존에 나열되던 소스 모델에 더해 AI Hub Workbench UI의 models 탭에 표시됩니다.

  • Google Pixel 6a 디바이스에 대한 지원이 AI Hub Workbench에서 제거되었습니다.

  • (Quantize Job에서 사용되는) aimet-onnx가 2.24로 업그레이드되었습니다.

2026년 2월 2일 릴리스

  • 새로운 API submit_compile_and_link_jobs() API 가 이제 제공됩니다. 이는 여러 모델을 컴파일하고 가중치를 공유하는 QNN 컨텍스트 바이너리로 연결해야 하는 사용자들의 작업 흐름을 단순화합니다. 모든 세부 정보 를 확인해 보세요.

  • 베타 제공: AI Hub Workbench의 Compile Jobs에서 입력 모델에 대한 .pt2 (Torch exported program) 지원을 이제 사용할 수 있습니다. 현재로서는 이 기능을 활용하려면 PyTorch 2.8.0으로 내보내야 합니다!

  • 이전에 사용 중단되었던 submit_compile_and_profile_jobs API 에 대상 모델을 전달하는 기능이 제거되었습니다.

2026년 1월 26일 릴리스

  • IQ9075-AA(100 TOPS) Qualcomm Linux 버전이 이제 Qualcomm AI Hub Workbench에서 제공됩니다! 오늘 바로 모델을 실행해 디바이스를 사용해 보세요.

  • QAIRT 2.42.0으로 업그레이드되었습니다(현재 기본 및 최신 버전).

  • 여러 프록시 디바이스가 Workbench에서 제거되었습니다 - IOT: QCS6490 (Proxy), Auto: SA8255 (Proxy), SA8650 (Proxy), SA8775 (Proxy).

  • 디바이스 사용 중단 공지: Google Pixel 6a(OS 버전: 13)는 노후화 및 사용량으로 인해 다음 릴리스에서 사용 중단될 예정입니다. 우려 사항이 있으면 알려주세요.

  • AIMET-ONNX 2.22로 업그레이드되었습니다(Quantize Job 내).

  • Quantize Job의 lite-mp는 민감도 분석을 수행할 때 모델의 첫 번째 출력만이 아니라 모든 출력을 사용하도록 업데이트되었습니다.

2026년 1월 6일 릴리스

  • I/O 사양 정보와 양자화(quantization) 파라미터가 이제 모델 페이지에 표시됩니다. 이러한 상세 정보는 AI Hub Python 클라이언트를 통해서도 접근할 수 있습니다.

  • QAIRT를 2.41.0으로 업그레이드했습니다.

  • Quantize Jobs가 AIMET-ONNX 2.21.0으로 업그레이드되었습니다.

  • 다음 릴리스에서 여러 프록시 장치가 제거될 예정입니다. IOT: 실제 장치인 Qualcomm Dragonwing™ RB3 Gen 2 Vision Kit(QCS6490)가 11월 중순부터 AI Hub Workbench에서 사용 가능해짐에 따라 QCS6490 프록시가 제거됩니다. Auto: SA8255(Proxy), SA8650(Proxy), SA8775(Proxy).

  • QNN용 TFLite Delegate 옵션인 GPUv2(OpenGL 백엔드), nnapi, nnapi-gpu가 AI Hub Workbench에서 제거되었습니다.

  • Python 3.9 지원이 종료되었습니다(2025년 10월 31일 EOL 이후).

2025년 12월 8일 릴리스

  • AIMET를 2.20.0으로 업데이트했습니다.

  • 퀄컴 Snapdragon™ 8cx Gen 3 CRD (SC8280XP)가 AI Hub Workbench에서 제거되었습니다.

2025년 11월 19일 출시

  • AI Hub 제품 포트폴리오를 리브랜딩합니다. 모델 최적화 플랫폼(기존 “AI Hub”)은 이제 AI Hub Workbench로 명명됩니다. 다른 제품인 AI Hub Models와 AI Hub Apps는 변경되지 않습니다.

  • Qualcomm Dragonwing™ RB3 Gen 2 Vision Kit(QCS6490)가 이제 AI Hub Workbench에서 사용 가능합니다. 이는 Qualcomm Linux를 실행하는 첫 번째 장치입니다. 이 장치가 제공됨에 따라 QCS6490 프록시는 곧 사용 중단될 예정입니다.

  • Qualcomm Dragonwing™ Q-6690 MTP(QCM6690)가 이제 AI Hub Workbench에서 사용 가능합니다. 이제 이 장치를 대상으로 작업을 제출할 수 있습니다. 장치 세부 정보는 디바이스 페이지를 확인하세요.

  • submit_compile_and_quantize_jobs 는 사용 중단되었습니다. 대신 submit_compile_job()submit_quantize_job() API 를 사용해 주세요.

  • submit_compile_and_profile_jobs() 에 대상 모델을 전달하는 기능은 사용 중단되었습니다. 대신 submit_profile_job() API 를 사용해 주세요.

  • 문서: FP16이 아닌 장치에서 ONNX Runtime을 사용하는 방법에 대한 새로운 프로파일 작업 예제가 추가되었습니다. 컴파일 작업 예제도 업데이트되었습니다.

  • QAIRT 2.40.0(최신 버전) 지원이 추가되었습니다. 기본값은 QAIRT 2.39입니다.

  • 현재 AI Hub Workbench에서 사용 가능한 Qualcomm Snapdragon™ 8cx Gen 3 CRD(SC8280XP)는 곧 사용 중단되고 제거될 예정입니다. 우려 사항이 있으면 알려주세요.

2025년 11월 4일 출시

  • QAIRT 기본값을 2.39.0으로 업데이트했습니다.

  • Python 종속성으로 NumPy 지원이 2.0까지 확장되었습니다.

2025년 10월 27일 릴리스

  • QNN을 지정된 런타임(컨텍스트 바이너리 또는 DLC)으로 사용하는 프로파일 작업에서 Optrace 데이터가 이제 제공됩니다. Runtime Layer Analysis 섹션을 확장하고 view optrace 를 클릭하여 상세한 HTP 프로파일링 데이터를 확인하세요: QNN Op 및 HTP Op 세부 정보, Optrace 타이밍 및 병목 현상.

2025년 10월 22일 릴리스

  • 최근 디바이스 팜 업데이트로 인해 프로파일 및 추론 작업에서 간헐적인 실패가 발생했습니다. 오류 메시지는 모델을 완전히 실행하지 못했습니다. Failed to fully run the model, failed after compiling 또는 Failed to profile the model: unexpected device error 오류일 수 있습니다. 현재 배포에 우회 방법을 적용했으니, 작업을 다시 시도해 주세요.

  • QAIRT 2.39.0(최신) 지원을 추가했습니다.

  • PyTorch 2.8.0으로 업그레이드

  • LiteMP (혼합 정밀도) 기능을 사용할 때 Quantize Job 내 PSNR 함수가 AIMET의 (오프라인) PSNR 계산 방식과 일치하도록 업데이트됨

2025년 10월 6일 릴리스

  • 문서의 compile models examples 를 단순화하기 위한 소규모 업데이트가 적용되었습니다.

  • ONNX Runtime 1.23.0으로 업데이트했습니다.

  • AI Hub에서 생성된 ONNX 모델에는 이제 ir_version=11 이 있습니다. 추론을 실행하려면 ONNX Runtime 1.23.0이 필요합니다.

  • AIMET-ONNX 2.15.0으로 업데이트했습니다.

  • AI Hub에서는 이제 모델을 메모리로 직접 다운로드하는 기능이 제거되었습니다. 모델은 반드시 디스크에 다운로드해야 합니다.

2025년 9월 29일 릴리스됨

  • ONNX Runtime용 추가 프로필 작업 옵션이 추가되었습니다(–onnx_options 를 통해). vtcm_mb, context_priorityoffload_graph_io_quantization 을 설정하는 방법은 API 문서 를 확인하세요.

  • 새로운 디바이스: 현재 Qualcomm AI Hub를 통해 모델을 테스트할 수 있는 2개의 새로운 모바일 디바이스, Snapdragon® 8 Elite Gen 5 (SM8850) 및 Snapdragon® 7 Gen 4 (SM7750), 가 출시되었습니다. 이 디바이스 중 하나에서 모델을 테스트하려면 작업을 제출할 때 다음과 같이 디바이스 이름을 지정하면 됩니다: device=hub.Device("Snapdragon 8 Elite Gen 5 QRD")

  • 사전 컴파일된 ONNX 모델에 대한 수정이 적용되었습니다.

2025년 9월 22일 릴리스됨

  • AIMET-ONNX 2.14.0으로 업그레이드되었습니다.

  • QAIRT 2.38.0이 최신 버전으로 제공되며, QAIRT 2.37.0도 2.37.1로 업그레이드되었습니다.

  • 작업 생성 및 재시도 작업에 대한 추가 로깅이 추가되었습니다.

2025년 9월 8일 릴리스됨

  • ONNX Runtime 1.22.2로 업그레이드되었습니다.

  • ‘알 수 없음’ 이라는 이유로 발생하는 작업 실패가 감소되었습니다.

2025년 9월 2일 릴리스됨

  • LiteMP( light mixed precision의 약자)는 이제 AI Hub에서 양자화 작업을 제출할 때 베타로 사용할 수 있습니다. 양자화 작업을 제출할 때 이 옵션 을 활성화하면 지정된 비율의 레이어를 지정된 정밀도로 수정할 수 있습니다(--lite_mp percentage=10;override_qtype=int16).

  • aimet-onnx 2.13.0으로 업그레이드되었습니다.

2025년 8월 22일 릴리스

  • 우리는 새로운 단일 로그인(SSO) 공급자로 마이그레이션을 완료했습니다. 사용자에게는 중단이 없어야 합니다. 문제가 발생하면 다시 로그인해 보시고, 예상치 못한 동작이 있으면 알려주세요.

  • QAIRT 2.37.0 및 aimet_onnx 2.12.0으로 업그레이드되었습니다.

  • 모델을 메모리로 직접 다운로드하는 기능은 더 이상 지원되지 않습니다. 이에 따라 클라이언트와 문서에 경고가 추가되었습니다. 이제는 다음과 같이 소스 모델을 파일로 다운로드해야 합니다: model = compile_job.download_target_model("model_filename") 파일 이름은 필수입니다.

  • 오랫동안 사용 중단되었던 클라이언트 API get_jobs 가 공식적으로 제거되었습니다. 대신 get_job_summaries() 를 사용하세요.

2025년 8월 11일 릴리스

  • AI Hub에서 DLC 지원이 이제 완전히 동작합니다! 그 결과, .so 모델 라이브러리 파일 생성은 중단됩니다. DLC 파일은 동일한 상황(즉, AArch64 Android 대상)에서 적합하고 더 안정적인 것으로 입증되었습니다. 따라서 .so 생성은 AI Hub를 통해 사용 중단되었습니다(즉시 적용되며 더 이상 지원하거나 유지 관리되지 않음) 그리고 약 6주 후 제거됩니다. .bin 파일을 생성하려면 이제 .dlc 를 거치게 됩니다. .bin``(–qnn_context_binary``) 및 .dlc``(–qnn_dlc``) 를 생성하는 런타임 옵션과 기타 런타임 옵션은 변경되지 않습니다! 사용 중단된 옵션 --qnn_bin_conversion_via_model_library.so 모델을 통해 .bin 파일을 생성하는 데 사용할 수 있습니다. 링크 작업은 이제 .dlc 파일(1개 이상)과 하나 이상의 장치를 입력으로 받습니다. 기존 방식의 .bin 모델 링크는 사용 중단되고 있습니다. 또한 --target_runtime qnn_lib_aarch64_android 도 사용 중단되고 있습니다.

  • QAIRT 2.36.4로 업그레이드되었으며, 이제 기본 버전입니다. 현재 Hub는 2.33.2, 2.34.2 및 2.36.4를 지원합니다.

  • QNN Context Binary 생성 실패로 인해 컴파일 작업에서 발생하는 유효성 검사 오류에 대한 메시지를 개선했습니다. 메시지에는 적용 가능한 경우 <failed op_name>: <op_type>: <root-cause of failure> 이 포함됩니다.

  • 문서의 FAQ 에 일반적인 ONNX Runtime 오류가 추가되었습니다.

  • 특정 실패한 작업에 대한 오류 메시지에 적용 가능한 경우 런타임 로그를 확인하라는 안내가 추가되었습니다.

  • ONNX Runtime을 사용하는 프로파일/추론 작업 전에 파이프라인에서 가중치를 양자화하지 않게 되었습니다. 이 변경은 향후 기능 향상 지원 및 성능 측정의 재현성을 높이기 위해 이루어졌습니다.

2025년 7월 28일 릴리스

  • Quantize 작업에서 AIMET-ONNX 2.10.0으로 업그레이드되었습니다.

  • 문서의 현지화가 한국어, 일본어, 번체 중국어 등 3개 언어로 추가되었습니다. 왼쪽 하단의 언어 선택기를 통해 확인하세요.

  • 장치(>=v73 및 SA8295P)에 가중치 공유 속성이 추가되었습니다. hub.get_devices() 를 제출하면 htp-supports-weight-sharing:true 속성은 어떤 장치의 HTP가 가중치 공유를 허용하는지 나타냅니다.

2025년 7월 14일 릴리즈

  • AI Hub는 이제 모델 크기와 관계없이 항상 외부 가중치(.zip)가 포함된 ONNX 모델을 생성하여, 모델 업로드 및 시각화에 영향을 미치는 하위 단계 문제를 해결합니다. 이를 임베디드 가중치가 포함된 단일 모델로 바꾸려면, 사용자는 할 수 있습니다

    import onnx
    model = onnx.load("your_model.onnx")
    onnx.save(model, "your_new_model.onnx")
    
  • OpSet 5의 Reshape 레이어를 사용하는 ONNX 모델에서 발생하던 컴파일 버그를 수정했습니다.

  • 외부 가중치를 사용하는 ONNX 모델의 Quantize 작업에서 PSNR 계산 관련 버그를 해결했습니다.

  • AIMET+ONNX에서 QNN으로 컴파일할 때 발생하던 일부 문제를 해결했습니다.

  • AI Hub 클라이언트에서 요구되는 protobuf 버전을 완화했습니다. 이제 사용자는 protobuf>=3.20,<=6.31.1을 설치할 수 있습니다.

  • Yolov8 QNN 컨텍스트 바이너리에서 텐서 출력 순서에 영향을 주던 문제가 최신 QAIRT 버전에서 해결되었습니다.

  • 버전 탭에 표시되던 AI Hub 버전이 일시적으로 local-hub-1999로 나타나는 문제가 있었으며, 현재는 해결되었습니다.

  • .dlc 를 대상으로 하는 w8a8 및 w8a16 모델의 양자화된 모델 성능은 의도치 않게 Q/DQ 노드에 영향을 준 성능 그래프 패스로 인해 상당한 성능 저하가 보고되었습니다.

2025년 6월 30일 릴리즈

  • 모델 시각화 기능이 확장되어 int4 계층을 표시할 수 있게 되었습니다.

  • 여러 종속 패키지를 업그레이드했습니다: QAIRT 2.35를 최신 버전으로 제공합니다. QAIRT 2.34.2는 기본 버전으로 유지됩니다. Quantize Job용 AIMET ONNX 2.8.0. ONNX Runtime 1.22.0.

2025년 6월 16일 릴리즈

  • QAIRT SDK 2.34.2로 업그레이드되었습니다. 이제 모든 작업에서 기본 QAIRT SDK 버전으로 사용됩니다.

  • .dlc 모델 시각화 지원이 추가되었습니다. (단, QAIRT SDK 2.34.2 이상이 필요합니다.)

  • Quantize 작업은 이제 aimet-onnx 2.7.0을 사용합니다.

  • 퀄컴 AI Hub CLI 클라이언트에 --verbose 옵션이 추가되어 상세 로그를 출력할 수 있습니다. 실패한 작업을 디버깅할 때 유용하며, 추가 정보를 위해 당사 팀에서 요청할 수 있습니다.

  • 여러 그래프 중 하나를 프로파일링할 때, 특히 LLM 내보내기 튜토리얼을 사용할 때 간헐적으로 발생하던 실패를 해결하는 버그 수정입니다. 이는 --qnn_options 를 플래그로 전달했고 의도치 않은 동작이 발생했기 때문입니다.

2025년 6월 2일 릴리즈

  • 멀티 그래프 프로파일링 관련 버그 수정

  • RF-DETR 모델 지원을 위해 TFLite 경로에 한정된 6D 슬라이스 지원 추가

  • (2GB를 초과하는) 대형 모델 지원이 양자화 작업 및 Compute 플랫폼에서의 프로파일/추론 작업으로 확장되었습니다. Android 플랫폼은 현재 대형 모델의 프로파일 또는 추론을 지원하지 않습니다.

  • aimet-onnx 2.6.0으로 업그레이드

2025년 5월 14일 릴리즈

  • CLI를 통해 모델 업로드 시, 모델 ID와 클릭 가능한 모델 링크가 출력되도록 개선

  • aimet-onnx 2.5.0으로 업그레이드

2025년 5월 5일 릴리즈

  • 사용자는 이제 AI Hub를 통해 대용량 PyTorch 및 ONNX 모델을 컴파일할 수 있습니다 (이전에는 2GB를 초과하는 모델은 지원되지 않는다는 오류 메시지가 표시됨). 단, 대용량 TF-Lite 모델 생성은 아직 지원되지 않습니다.

  • 다양한 패키지가 업그레이드되었습니다: QAIRT 2.33.2, ONNX Runtime 1.21.1, aimet-onnx 2.4.0.

  • AI Hub에 잘못된 입력 형태(input shape)의 작업이 제출될 경우 추가적인 오류 메시지가 제공됩니다.

  • 이제 ONNX 모델을 precompiled_qnn_onnx 경로로 타겟팅할 때 출력 형태(output shape)를 준수하여 컴파일 작업이 수행됩니다.

2025년 4월 22일 릴리즈

  • AI Hub에서 컴파일, 프로파일 및 추론 작업을 제출할 때 Deep Learning Container .dlc 지원이 제공됩니다. examples 를 확인하세요. 현재는 torch/onnx를 DLC로 컴파일하고 DLC 모델의 프로파일/추론 작업을 제출하는 기능만 지원됩니다. DLC 시각화 등 추가 기능은 곧 제공될 예정입니다.

  • QAIRT SDK 2.33.0 지원 추가 및 2.32.6으로 업그레이드되었습니다. 기본값은 계속해서 2.32이며 최신 버전은 이제 2.33입니다.

  • aimet-onnx 2.3.0으로 업그레이드되었습니다.

  • Samsung Galaxy S25 장치가 available devices 에 추가되었습니다.

2025년 4월 8일 릴리즈

  • AI Hub는 이제 opset 20의 ONNX 모델을 생성하며, 이는 ONNX Runtime 1.17.0이 필요합니다(기존에는 1.12.0이었습니다).

  • ONNX2TF에서 AffineGrid op 지원이 추가되었습니다.

  • AIMET 모델을 컴파일할 때 AI Hub는 이제 AIMET 인코딩 버전 1.0.0을 지원합니다.

2025년 3월 25일 릴리즈

  • “Job timed out after 8h”이라는 실패 이유가 증가하고 있었습니다. 이 문제는 조사되어 해결되었습니다. 이 문제가 발생하면 작업을 다시 시도해 주세요.

  • 이전에 ONNX Runtime을 지정하는 데 사용되었던 ort 옵션이 제거되었습니다. 대신 onnx를 계속 사용해 주세요: --target_runtime onnx.

  • 여러 HTP 최적화 옵션을 지정할 수 있는 기능이 추가되었습니다.

2025년 3월 10일 릴리즈

  • QAIRT 2.32.0으로 업그레이드되었습니다. Qualcomm AI Engine Direct SDK(일명 QNN)는 이제 Qualcomm AI Runtime SDK(일명 QAIRT)로 알려져 있습니다.

  • AIMET-ONNX가 버전 2.0.1로 업그레이드되었습니다. 이는 Quantize Job의 기본 엔진입니다. 이 업그레이드로 인해 여러 Quantize Job 버그가 해결되었으며, 내부 양자화 오류로 인해 실패한 작업도 포함됩니다. 작업을 다시 제출해 주시고 문제가 있으면 알려 주세요.

  • 정적 형태 ROI Align TensorFlow Lite 지원이 구현되었습니다.

  • 컴파일 작업의 버전 하위 섹션에 ONNX Runtime의 버전 정보가 추가되었습니다.

  • 최신 클라이언트 버전 0.25.0 으로 업그레이드해 주세요.

2025년 2월 24일 릴리즈

  • QNN 버전 2.31로 업그레이드되었습니다.

  • 런타임 지원 정보를 제공하는 새로운 devices page 를 확인하세요.

2025년 2월 10일 릴리즈

  • 이제 ONNX 모델은 모델 업로드 시 외부 가중치를 가져오는 것을 지원합니다. .onnx 확장자를 가진 디렉토리 이름 또는 .onnx.zip 확장자를 가진 파일 이름은 정확히 하나의 가중치 파일을 가져야 하며, 이는 .data 파일이어야 합니다. 참고: 이 기능을 사용하는 LLM 지원은 아직 개발 중입니다.

  • 프로파일 작업에서 모델 추론 시간을 볼 때 중간값 및 스파크라인 그래픽이 추가되어 더 자세한 타이밍 정보를 제공합니다.

  • 모든 모델 자산에 대한 다중 모델 작업 시각화: 이제 작업의 오른쪽 상단 모서리에 있는 시각화 버튼을 클릭하면 작업과 관련된 모든 적용 가능한 모델(소스, 중간 및 대상)을 탐색하고 시각화할 수 있습니다.

  • 퀄컴 QCS8275 및 QCS9075용 새로운 IoT 프록시 디바이스가 추가되었습니다. 이제 AI Hub에서 작업 제출 시 대상으로 선택할 수 있습니다.

  • 다음 오류 메시지가 표시되면: Tensors {'...'} occur in value_info but also in model IO. See https://github.com/onnx/onnx/blob/main/docs/IR.md#graphs, 최신 AI Hub Models(pip install qai-hub-models)로 업데이트해 주세요. 이 문제는 Llama 모델 컴파일에 직접 영향을 미치는 것으로 알고 있습니다.

  • 만료된 데이터셋을 참조하는 작업은 이제 정확한 오류 메시지와 함께 표시됩니다.

2025년 1월 22일 릴리즈

  • 대규모 모델의 업로드 속도가 개선되어 시간 초과 및 SSLEOF 오류를 방지합니다. 오류가 발생하면 계속 알려 주세요!

  • 실패한 작업의 오류 메시지를 개선하기 위한 다양한 변경 사항이 있습니다. 실패한 작업이 발생하고 무슨 일이 일어났는지 더 자세히 알고 싶다면 Slack 에 링크를 공유해 주세요.

2025년 1월 6일 릴리즈

  • AIMET PyTorch 모델(.pt) 업로드 경로가 제거되었습니다. 대신 ONNX 모델(.onnx)과 양자화 매개변수가 포함된 인코딩 파일(.encodings)을 사용하는 것을 권장합니다.

  • FAQ가 문서의 새 위치로 이동했습니다! 확인해 보세요!

  • fp16 I/O를 사용하는 양자화된 QNN 모델을 사용하는 추론 작업은 이제 fp32 데이터를 허용합니다.

2024년 12월 13일 릴리즈

  • ONNX NonMaxSupression 연산을 TFLite 동등 연산으로 번역 추가.

  • 경고: 1월 6일 배포의 일환으로 AIMET PyTorch 모델(.pt) 업로드 경로를 폐지할 예정입니다. 대신 ONNX 모델(.onnx)과 양자화 매개변수가 포함된 인코딩 파일(.encodings)을 사용할 것을 권장합니다.

2024년 11월 25일 릴리즈

  • 자동차 장치용 QNN 2.28.2 및 2.28.0으로 업그레이드되었습니다.

  • AI허브 에 Llama 계열 모델을 업로드하는 문제와 관련된 다양한 개선 사항. 이러한 LLM을 사용하여 AI허브 에 업로드하는 동안 시간 초과를 경험한 사용자로부터 피드백을 해결했습니다. 문제가 지속되면 알려주세요.

  • 컴파일 옵션에 --quantize_weight_type float16 를 추가하여 이제 FP32 가중치를 FP16으로 압축할 수 있습니다.

  • AI허브 에서 새로운 자동 장치를 사용할 수 있습니다! 이제 SA8775P 및 SA7255P ADP 장치를 제공합니다.

2024년 11월 11일 릴리즈

  • 발표: link jobs;! 여러 모델을 단일 컨텍스트 바이너리로 결합하여 그래프 간 가중치를 공유하고 디스크 공간을 절약합니다. 링크 작업은 Hexagon Tensor Processor(HTP)용 QNN 컨텍스트 바이너리에만 적용됩니다.

  • 일반적인 문제를 해결하는 qai-hub 클라이언트 개선: 최신 클라이언트 버전 0.19.0에는 업로드 시 발생한 오류에 대한 수정 사항이 더 많이 있습니다. 또한 업로드 크기 제한이 5GB에서 10GB(압축)로 늘어났으며, 큰 파일은 여러 부분으로 업로드됩니다.

  • ONNX 버전이 1.17.0으로 업데이트되었습니다.

  • 양자화 벤치마킹 및 컴파일 작업을 위한 문서 documentation 의 예제가 업데이트되었습니다.

2024년 10월 28일 릴리즈

  • 새로운 디바이스: Snapdragon 8 Elite가 Snapdragon Summit에서 발표되었으며, device = hub.Device("Snapdragon 8 Elite QRD") 를 지정하여 모든 사용자가 사용할 수 있습니다.

  • 새로운 디바이스: 자동차 디바이스인 Snapdragon Cockpit Gen 4 (SA8295P)가 이제 AI Hub에서 사용할 수 있습니다. --device "SA8295P ADP" --device-os 14 를 선택하십시오.

  • SSO로 AI Hub에 로그인하면 자동으로 관심 페이지로 리디렉션됩니다.

2024년 10월 14일 릴리즈

  • (베타) Qualcomm AI Hub는 이제 float32 모델을 정수 연산(int8, int16 등)으로 변환할 수 있습니다. 이 베타 기능은 submit_quantize_job API를 통해 PyTorch 모델을 양자화하는 데 사용할 수 있습니다. 우리 문서의 자세한 내용과 예제 를 확인하세요.

  • 이제 int64가 지원됩니다(추론 및 프로파일링 작업 모두)!

  • QNN 2.27로 업그레이드되었습니다.

2024년 10월 7일 릴리즈

  • 추론 작업에서 rank-0 (스칼라) 텐서에 대한 지원이 향상되었습니다.

  • 작업이 제출될 때 작업 상태를 업데이트하여 작업의 진행 단계를 더 명확하게 보여줍니다(그리고 성가신 UI 버그를 수정했습니다).

  • 프로파일러에서 지원하지 않는 데이터 유형 사용, 잘못된 TFLite 모델 파일 및 많은 디바이스에서 메모리 부족 오류를 포함한 여러 경우에 대한 오류 메시지가 개선되었습니다.

  • 클라이언트 버전 0.17.0 pip install qai-hub==0.17.0 이 릴리즈되었으며, 이는 데이터 업로드 및 다운로드를 훨씬 더 신뢰할 수 있게 만드는 HTTP 재시도에 대한 수정 사항을 포함합니다.

  • 새로운 디바이스 지원! 이제 device = hub.Device("Snapdragon X Plus 8-Core CRD") 를 지정하여 AI Hub에서 Snapdragon X Plus를 대상으로 작업을 시작할 수 있습니다.

2024년 9월 23일 릴리즈

  • 모든 프록시 장치의 chipset 속성 이름이 접미사 -proxy 를 포함하도록 변경되었습니다. 예를 들어, chipset:qualcomm-qcs6490 는 이제 chipset:qualcomm-qcs6490-proxy 입니다. 장치 이름은 변경되지 않았습니다.

  • ONNXRuntime 1.19.2, TFLite 2.17로 업그레이드되었습니다.

2024년 9월 11일 릴리즈

  • QNN 2.26으로 업그레이드되었습니다.

  • 모델 페이지에 생성자로 필터링할 수 있는 드롭다운이 추가되어 조직 내 다른 사람이 소유한 모델을 더 쉽게 검색할 수 있습니다.

  • QNN 모델에 대한 시각화를 포함한 UI 전반에 걸친 다양한 버그 수정이 포함되었습니다. 문제가 발생하면 알려주세요!

2024년 8월 26일 릴리즈

  • 8월 13일부터, 사용자가 실행 중인 최대 허용 작업 수를 이미 가지고 있는 경우 작업 생성 시 Hub가 더 이상 예외를 발생시키지 않습니다. 대신, 새로운 작업은 대기 상태로 설정되고 기존 작업이 완료되면 자동으로 실행됩니다. Python 클라이언트 버전 0.14.1 에서는 작업 객체에 pending 이라는 새 속성이 추가되었습니다. 백엔드 용량을 기다리는 대기 상태의 작업은 이제 pending 이 호출되면 True, running 이 호출되면 False 를 반환합니다.

  • QNN 2.25로 업그레이드되었습니다.

  • get_job_summaries 는 이 버전(0.15.0)부터 클라이언트에서 사용할 수 있습니다. get_jobs API는 더 이상 사용되지 않으며 get_job_summaries 를 대신 사용해야 합니다.

  • Qualcomm AI Hub의 최신 기능을 모두 사용하려면 클라이언트 버전 0.15.0 pip install qai-hub==0.15.0 으로 업데이트하고 각 릴리즈마다 클라이언트를 업데이트하는 것이 좋습니다!

2024년 8월 12일 릴리즈

  • 새로운 클라이언트 버전 0.14.0이 릴리즈되었습니다!

  • 중간 자산: 컴파일 작업을 제출하면 이제 컴파일 작업 페이지에 “중간 자산” 탭이 표시됩니다. 이 새로운 기능을 통해 AI Hub는 컴파일의 중간 상태를 AI Hub의 일급 모델로 저장할 수 있습니다. 예를 들어, TFLite 컴파일을 위해 TorchScript 모델을 제출하면 중간 ONNX 모델이 저장되고 액세스할 수 있습니다.

  • 작업 동시성 제한: 오류를 반환하는 대신, Hub는 이제 사용자당 최대 제한을 초과하는 작업을 자동으로 대기열에 추가합니다. 이전에 오류 처리를 통해 오류를 처리한 경우, 이제 작업을 제출하는 데 더 이상 필요하지 않습니다.

2024년 7월 29일 릴리즈

  • ONNX 1.18로 업그레이드

  • Qualcomm AI Hub는 Snapdragon Ride 플랫폼을 포함하도록 지원을 확장했습니다. 자동차 디바이스 에 사용할 수 있는 사전 최적화된 AI Hub 모델을 확인하고, AI Hub를 통해 실제 자동차 디바이스에서 이러한 모델을 테스트해보고 문제가 발생하면 알려주세요!

2024년 7월 15일 릴리즈

  • Android 디바이스의 메모리 추정치가 개선되어 훨씬 더 정확한 범위를 제공할 수 있게 되었습니다. 프로파일러의 외부 힙 사용을 피하는 능력이 향상되어 더 작은 메모리 범위를 제공합니다. 새로운 작업을 제출하고 메모리 범위를 확인해보세요!

  • QNN 2.24.0, ONNX 1.16.0으로 업그레이드

  • ONNX Runtime에 대한 int16 지원이 추가되었습니다.

2024년 7월 1일 릴리즈

  • AI Hub 작업은 조직과 자동으로 공유할 수 있습니다. 조직에 사용자를 추가하려면 팀원의 이메일 주소를 포함하여 ai-hub-support@qti.qualcomm.com 로 이메일을 보내주세요.

  • AI Hub 작업은 조직 외부 및 Qualcomm과도 공유할 수 있습니다. 작업의 오른쪽 상단에 있는 “공유” 버튼을 클릭하고 AI Hub 사용자의 이메일을 지정하면 작업(및 관련 모델 자산)이 공유됩니다. 이메일 주소를 작업에서 제거하여 액세스를 취소할 수도 있습니다.

  • 컴파일에 실패한 AIMET 모델에 대한 오류 메시지가 개선되었습니다.

  • precompiled_qnn_onnx 에 대한 문서 가 업데이트되었습니다.

  • AI Hub 웹페이지에 대한 자세한 제목이 추가되었습니다. 이제 페이지를 열면 해당 페이지와 해당되는 작업 이름이 지정됩니다.

  • AI Hub의 이전 릴리스 노트는 이제 문서 에서 확인할 수 있습니다.

2024년 6월 17일 릴리즈

  • Windows 디바이스는 이제 AI Hub에서 널리 사용 가능하며, 새로운 Snapdragon X Elite 및 이전 세대 Snapdragon 8cx Gen 3 참조 디자인을 포함합니다. qai-hub list-devices를 실행하면 목록에 표시됩니다. device = hub.Device("Snapdragon X Elite CRD") 를 지정하여 X Elite를 대상으로 작업을 실행하십시오.

  • 사전 컴파일된 QNN ONNX 모델 컴파일 지원! 사전 컴파일된 ONNX Runtime 모델을 사용 중임을 지정하려면 options="--target_runtime precompiled_qnn_onnx" 를 사용하십시오. (참고: 문서에 오타가 있으며 다음 릴리즈에서 수정될 예정입니다. 위에 지정된 옵션을 사용하십시오).

  • 지원되는 ONNX Runtime 옵션에 대한 문서가 추가되었습니다.

  • 시작하기 빠른 예제에 추론 작업 제출, 모델 다운로드 등을 포함한 단계가 확장되었습니다.

  • 프로파일 및 추론 작업에 대한 추가 오류 세부 정보가 강조 표시되었습니다: 작업이 실패하면 런타임 로그의 추가 정보 라는 새 섹션을 확인하십시오. 런타임 로그를 확장하고 스크롤하지 않고도 디버그하는 데 도움이 되는 주요 세부 정보를 제공합니다.

  • QNN 버전 2.23으로 업데이트되었습니다.

2024년 6월 4일 릴리즈

  • 디바이스 패밀리 목록이 추가되었습니다: 이제 qai-hub list-devices를 사용할 때 이러한 목록이 표시됩니다(Google Pixel 3a 패밀리, Samsung Galaxy S21 패밀리 등). 이는 디바이스 프로비저닝 시간을 단축하는 데 도움이 되므로 해당 옵션을 사용할 때 사용하십시오!

  • QNN 버전 2.22.6으로 업데이트되었습니다.

  • 64비트 입력 유형에 대한 컴파일 옵션 --truncate_64bit_io 지원이 추가되었습니다.

2024년 5월 17일 릴리즈

  • ONNX QNN 실행 공급자를 통한 Windows에서 Snapdragon X Elite NPU 및 ONNX DirectML 실행 공급자를 통한 Windows에서 Snapdragon X Elite GPU 지원이 추가되었습니다. 조기 액세스를 위해 여기에 등록하십시오!

  • QNN 버전 2.22 지원(컴파일된 자산은 이제 QNN 버전 2.20 대신 QNN 2.22를 대상으로 함).

  • AI Hub에서 Windows 지원!

  • QNN에 대한 w4a8 지원(--quantize_full_type w4a8).

  • 문서에 각 런타임을 사용할 때의 추가 컨텍스트가 추가되었습니다.

  • 대상 런타임 qnn_bin 의 사용 중단. 이제 --target_runtime qnn_context_binary 를 사용하십시오. 컨텍스트 바이너리는 디바이스의 하드웨어 아키텍처에 맞게 컴파일됩니다. 자세한 내용은 문서에서 확인할 수 있습니다.

2024년 5월 6일 릴리즈

  • 문서에는 이제 ONNX 모델을 TFLite 또는 QNN으로 컴파일하고 ONNX Runtime을 사용하여 직접 프로파일링하는 예제가 포함되어 있습니다.

  • ONNX Runtime의 기본 구성은 이제 프로파일링/추론에서 가장 높은 속도를 위한 옵션을 활용합니다. 기본적으로 가장 최적화된 모델을 제공하는 3으로 설정되었습니다.

  • (프로파일링 작업을 위해)TensorFlowLite를 2.16.1 로 업그레이되었습니다.

  • 컴파일 작업에 대한 추가 성능 수정.

2024년 4월 22일 릴리즈

  • 다양한 성능 개선, 오류 보고 개선 및 추가 레이어 지원이 추가되었습니다!

  • QCS8450 프록시 디바이스가 추가되었습니다(스레드의 참고 사항 참조).

  • 최신 ONNX runtime (1.17.3)으로 업그레이드 되었습니다.

  • ONNX 런타임 모델에 대한 문서가 업데이트되었습니다.

  • ONNX Runtime에 대한 IO 옵션이 도입되었습니다.

  • QNN 경로에 대한 w4a16 양자화 지원이 추가되었습니다.

2024년 4월 8일 릴리즈

  • ONNX 런타임(.onnx) 및 NPU 지원이 도입되었습니다. 컴파일 작업을 제출할 때 options=--target_runtime onnx 를 지정하여 사용해보십시오.

  • ONNX 런타임의 개선 사항에는 많은 속도 향상이 포함됩니다.

  • ONNX 런타임 모델에 대한 모델 시각화가 추가되었습니다.

  • 컴파일 작업에 대한 로깅이 증가했습니다.

  • IOT용 더 많은 프록시 디바이스: QCS8250, QCS8550 프록시 디바이스를 확인하십시오.

  • Tensorflow 2.15.0으로 업그레이드되었습니다.

  • Hub를 통한 int16, w8a16 양자화 지원이 추가되었습니다.

2024년 3월 25일 릴리즈

  • 작업 실행을 위한 더 많은 Galaxy S24 디바이스가 추가되었습니다.

  • 최신 QNN 버전 2.20으로 업그레이드되었습니다.

  • 모델 업로드 제한이 10GB로 증가했습니다.

  • AIMET(.onnx + 인코딩) 양자화 모델을 ONNX로 변환하고 ONNX Runtime을 통해 디바이스에서 실행할 수 있는 지원이 추가되었습니다.

  • 최적화 추가: constant folding reshape for depthwise convolutions for TFLite 모델들.

  • 잘못된 입력 이름이 컴파일 옵션을 통해 전달되지 않도록 추가 검사를 수행합니다.

2024년 3월 11일

  • 스냅드래곤® 8 젠 3 칩셋을 AI허브에 도입하였습니다. 스냅드래곤® 8 젠 3 device = hub.Device("Samsung Galaxy S24") 를 지정해서 대상 단말을 설정하세요.

2024년 2월 28일 릴리즈

  • MWC 2024에서 퀄컴AI허브 출시

  • 약 75개의 QAI 허브 모델에 대한 지원을 통해 TFLite 및 QNN 런타임을 통해 다양한 모바일 장치에서 성능 및 정확도 수치를 제공합니다.