릴리즈 노트

2026년 5월 28일 목요일 출시

--target_runtime 옵션의 precompiled_qnn_onnx 대상 런타임 값은 더 이상 사용되지 않습니다. ONNX 모델에 QNN Context Binary를 포함하려면 submit_compile_job() 또는 submit_compile_and_link_jobs() API를 사용하세요.
ONNX Runtime QNN 실행 공급자를 2.1.0으로 업그레이드했습니다. 이제 정적으로 연결되는 대신 플러그인 라이브러리로 로드되어 독립적인 버전 업데이트가 가능해졌습니다.
AIMET-ONNX 2.31.0으로 업그레이드했습니다 — Gemm 연산자에 대한 채널별 양자화(PCQ) 지원이 포함되어 있어 완전 연결 계층이 있는 모델의 양자화 정확도가 향상됩니다.
ONNX 1.20.0으로 업그레이드했습니다. 이제 AIHW는 ir_version 13의 ONNX 모델을 생성합니다.
PyTorch 2.11.0으로 업그레이드했습니다. AIHW는 이제 PyTorch 2.11.0으로 생성된 .pt2 모델 업로드를 허용합니다.
submit_compile_and_link_jobs() 는 이제 ONNX에 연결된 모델을 포함할 수 있습니다. submit_compile_and_link_jobs API는 이제 QNN Context Binary 포함을 지원합니다.
입출력 사양 문서를 추가했습니다 — API 문서에는 이제 컴파일, 프로파일, 추론 작업 전반에서 사용되는 입력/출력 사양에 대한 자세한 문서가 포함됩니다.
Similar Devices 업데이트 — 어떤 기기와 칩셋을 사용할 수 있는지 명확히 하기 위해 “Similar Chipset” 열을 추가했으며, XR2 Gen 2와 그 유사 기기인 Samsung Galaxy S22를 추가했고 XR proxy 기기에 대한 경고도 추가했습니다.

2026년 5월 11일 릴리스됨

ONNX Runtime 1.25.0으로 업데이트되었습니다.
최신 버전으로 QAIRT 2.46.0 지원이 추가되었습니다.
AIMET-ONNX 2.29.0으로 업그레이드되었습니다.
batchnorm 레이어가 있는 모델의 quantize job 정확도가 개선되었습니다.

2026년 4월 27일 출시

모델은 이제 ONNX opset 21을 대상으로 컴파일되며, 버전 18에서 21로 업그레이드되었습니다.
다양한 성능 개선을 위해 Compile Job 을 통해 새로운 그래프 최적화 패스가 추가되었습니다.
모델 입력 형식이 .pt 에서 .pt2 로 이전되고 있습니다. .pt 에 대한 지원은 단계적으로 중단될 예정입니다. 이전하려면 ExportedProgram을 .pt2 파일로 저장하세요. 모델을 컴파일할 때 Torch to ONNX export에서 Failure occurred 문제가 발생하면 .pt2 로 업그레이드해야 합니다.
Link job에는 이제 graph_name, tensor 이름 및 기타 모든 세부 정보를 포함한 I/O 사양이 제공됩니다.
Lite RT 2.1.4로 업그레이드되었습니다. 현재도 Lite RT 1.4.3에서 기존 인터프리터 API를 계속 사용하고 있습니다.
장치 에는 이제 Similar Devices 섹션이 포함됩니다. 관심 있는 장치가 AI Hub Workbench에서 사용할 수 없는 경우, 기능 및 호환성을 위해 모델을 테스트하고 컴파일할 대체 장치를 식별하는 참조로 사용할 수 있습니다. 실제 장치에서 모델을 실행할 때는 성능 및 정확도 지표가 달라질 수 있습니다.

2026년 4월 14일 출시

QAIRT 2.45.0으로 업그레이드되었습니다. AI Hub Workbench의 QAIRT 버전에는 2.42.0, 2.43.0 및 2.45.0이 포함됩니다.
ONNX 1.19.1로 업그레이드되었습니다.
Quantize Job이 AIMET-ONNX 2.28.0으로 업그레이드되었습니다.
ONNX Runtime을 대상으로 하는 프로파일 작업은 이제 Runtime Layer Analysis 섹션에서 optrace 프로파일 정보를 지원합니다.
NPU 세그먼트 정보인 optrace 프로필과 QHAS 요약 데이터를 보려면 Runtime Layer Analysis 섹션의 placement 열 아래에 있는 NPU를 클릭하세요.
Samsung Galaxy S21+ (OS Version: 11)가 제거되었습니다. 다른 S21 장치 중 하나를 사용해 주세요.

2026년 3월 30일 출시

모든 신규 작업에 대해 TF Lite에서 Lite RT 2.1.3으로 전환했습니다. 이를 통해 NPU 가속을 위한 Google의 새로운 런타임으로 이전합니다. 현재는 여전히 기존 인터프리터 API와 디리게이트를 사용하고 있습니다.
AIHW에서 생성된 TF Lite 모델은 이제 Lite RT를 포함한 TF Lite 2.19.0 이상과 호환됩니다. 이전 버전의 사용은 더 이상 지원되지 않습니다.
PyTorch 2.9.x 에서 생성된 .pt2 모델의 컴파일이 이제 AI Hub Workbench에서 지원됩니다.
--quantize_full_type 컴파일 작업 옵션은 더 이상 사용되지 않으며, AI Hub Workbench의 양자화 작업 API 를 활용하는 방식이 권장됩니다.
Quantize Jobs용 AIMET-ONNX 2.27.0으로 업그레이드되었습니다. 이번 업데이트를 통해 이제 quantize job의 일부로 lite_mp (lite mixed precision) 로그를 검토할 수 있습니다.
출력 데이터세트 외에도 로그 및 प्रो파일링 데이터와 같은 다른 작업 아티팩트를 이제 AI Hub Workbench 클라이언트를 통해 다운로드할 수 있습니다. 이러한 항목은 hub.get_job() 를 통해 액세스할 수 있습니다.
실제 장치인 Dragonwing IQ-9075 EVK가 이미 한동안 AI Hub Workbench에서 제공되고 있었기 때문에, QCS9075(proxy)는 AI Hub Workbench에서 제거되었습니다. 모든 작업을 실제 장치를 사용하도록 전환해 주세요.
Samsung Galaxy S21+(OS 버전: 11)에 대한 지원은 다음 배포와 함께 제거될 예정입니다. 다른 S21 기기 중 하나를 사용해 주세요.
장치 유형 - 프록시, 장치 계열 등 - 에 대한 문서를 추가했습니다. 추론을 실행할 수 있는 Workbench의 모든 장치 를 확인해 보세요!

2026년 3월 2일 출시

런타임 옵션 --target_runtime qnn_context_binary 는 더 이상 사용되지 않으므로, QNN 컨텍스트 바이너리 자산을 생성하려면 submit_compile_and_link_jobs() API 를 활용하세요.
로그에서의 구체적인 오류를 노출하도록 Quantize Job의 오류 메시지가 개선되었습니다. 조치 가능한 해결 방안이 없는 실패 작업을 겪고 계시다면 알려주시기 바랍니다.
프록시 디바이스에 제출된 작업에 대해 추가 경고가 도입되었으며, 특히 CPU/GPU에서의 성능 세부 정보와 관련됩니다. 이러한 프록시 디바이스는 지정된 디바이스의 NPU 특성을 모방하도록 설계되었지만, 운영체제, 펌웨어, 클럭 속도, 메모리, 열 패키징 및 기타 요인의 차이로 인해 프로파일링 결과는 실제 디바이스와 다를 수 있습니다. 모델이 CPU 또는 GPU에서 실행되는 경우, 실제 디바이스에서는 속도가 크게 달라질 수 있습니다.
Quantize Job에는 이제 사용된 AIMET 버전이 작업의 versions 섹션에 포함됩니다.

2026년 2월 17일 릴리스

컴파일 작업으로 QNN 모델 라이브러리를 대상으로 지정하는 기능이 AIHW 에서 제거되었습니다. 구체적으로, 옵션 --target_runtime 의 값 qnn_lib_aarch64_android 는 더 이상 허용되지 않으며, 옵션 --qnn_bin_conversion_via_model_library 도 더 이상 허용되지 않고, QNN 컨텍스트 바이너리 모델의 링크도 더 이상 불가능합니다.
QNN Model Library를 사용하여 프로파일 또는 추론 작업을 제출하는 기능은 사용 중단(deprecated)되었으며, 향후 릴리스에서 지원이 제거될 예정입니다. 기존 모델 라이브러리는 프로파일링할 수 있지만, 앞서 언급한 바와 같이 AI Hub Workbench 컴파일 작업을 사용하여 모델 라이브러리로 컴파일하는 것은 더 이상 불가능합니다.
이전에 더 이상 사용되지 않던 submit_compile_and_quantize_jobs API 가 제거되었습니다.
SC8480XP Windows 디바이스가 이제 AI Hub Workbench에서 사용 가능합니다.
QAIRT 2.43.1으로 업그레이드되었습니다. AIHW의 QAIRT 버전에는 2.41.0, 2.42.0 (기본값), 2.43.1 (최신)이 포함됩니다.
ONNX Runtime이 1.24.1로 업그레이드되었습니다.
컴파일Topics Job API의 일부로 생성된 타겟 모델이, 기존에 나열되던 소스 모델에 더해 AI Hub Workbench UI의 models 탭에 표시됩니다.
Google Pixel 6a 디바이스에 대한 지원이 AI Hub Workbench에서 제거되었습니다.
(Quantize Job에서 사용되는) aimet-onnx가 2.24로 업그레이드되었습니다.

2026년 2월 2일 릴리스

새로운 API submit_compile_and_link_jobs() API 가 이제 제공됩니다. 이는 여러 모델을 컴파일하고 가중치를 공유하는 QNN 컨텍스트 바이너리로 연결해야 하는 사용자들의 작업 흐름을 단순화합니다. 모든 세부 정보 를 확인해 보세요.
베타 제공: AI Hub Workbench의 Compile Jobs에서 입력 모델에 대한 .pt2 (Torch exported program) 지원을 이제 사용할 수 있습니다. 현재로서는 이 기능을 활용하려면 PyTorch 2.8.0으로 내보내야 합니다!
이전에 사용 중단되었던 submit_compile_and_profile_jobs API 에 대상 모델을 전달하는 기능이 제거되었습니다.

2026년 1월 26일 릴리스

IQ9075-AA(100 TOPS) Qualcomm Linux 버전이 이제 Qualcomm AI Hub Workbench에서 제공됩니다! 오늘 바로 모델을 실행해 디바이스를 사용해 보세요.
QAIRT 2.42.0으로 업그레이드되었습니다(현재 기본 및 최신 버전).
여러 프록시 디바이스가 Workbench에서 제거되었습니다 - IOT: QCS6490 (Proxy), Auto: SA8255 (Proxy), SA8650 (Proxy), SA8775 (Proxy).
디바이스 사용 중단 공지: Google Pixel 6a(OS 버전: 13)는 노후화 및 사용량으로 인해 다음 릴리스에서 사용 중단될 예정입니다. 우려 사항이 있으면 알려주세요.
AIMET-ONNX 2.22로 업그레이드되었습니다(Quantize Job 내).
Quantize Job의 lite-mp는 민감도 분석을 수행할 때 모델의 첫 번째 출력만이 아니라 모든 출력을 사용하도록 업데이트되었습니다.

2026년 1월 6일 릴리스

I/O 사양 정보와 양자화(quantization) 파라미터가 이제 모델 페이지에 표시됩니다. 이러한 상세 정보는 AI Hub Python 클라이언트를 통해서도 접근할 수 있습니다.
QAIRT를 2.41.0으로 업그레이드했습니다.
Quantize Jobs가 AIMET-ONNX 2.21.0으로 업그레이드되었습니다.
다음 릴리스에서 여러 프록시 장치가 제거될 예정입니다. IOT: 실제 장치인 Qualcomm Dragonwing™ RB3 Gen 2 Vision Kit(QCS6490)가 11월 중순부터 AI Hub Workbench에서 사용 가능해짐에 따라 QCS6490 프록시가 제거됩니다. Auto: SA8255(Proxy), SA8650(Proxy), SA8775(Proxy).
QNN용 TFLite Delegate 옵션인 GPUv2(OpenGL 백엔드), nnapi, nnapi-gpu가 AI Hub Workbench에서 제거되었습니다.
Python 3.9 지원이 종료되었습니다(2025년 10월 31일 EOL 이후).

2025년 12월 8일 릴리스

AIMET를 2.20.0으로 업데이트했습니다.
퀄컴 Snapdragon™ 8cx Gen 3 CRD (SC8280XP)가 AI Hub Workbench에서 제거되었습니다.

2025년 11월 19일 출시

AI Hub 제품 포트폴리오를 리브랜딩합니다. 모델 최적화 플랫폼(기존 “AI Hub”)은 이제 AI Hub Workbench로 명명됩니다. 다른 제품인 AI Hub Models와 AI Hub Apps는 변경되지 않습니다.
Qualcomm Dragonwing™ RB3 Gen 2 Vision Kit(QCS6490)가 이제 AI Hub Workbench에서 사용 가능합니다. 이는 Qualcomm Linux를 실행하는 첫 번째 장치입니다. 이 장치가 제공됨에 따라 QCS6490 프록시는 곧 사용 중단될 예정입니다.
Qualcomm Dragonwing™ Q-6690 MTP(QCM6690)가 이제 AI Hub Workbench에서 사용 가능합니다. 이제 이 장치를 대상으로 작업을 제출할 수 있습니다. 장치 세부 정보는 디바이스 페이지를 확인하세요.
submit_compile_and_quantize_jobs 는 사용 중단되었습니다. 대신 submit_compile_job() 및 submit_quantize_job() API 를 사용해 주세요.
submit_compile_and_profile_jobs() 에 대상 모델을 전달하는 기능은 사용 중단되었습니다. 대신 submit_profile_job() API 를 사용해 주세요.
문서: FP16이 아닌 장치에서 ONNX Runtime을 사용하는 방법에 대한 새로운 프로파일 작업 예제가 추가되었습니다. 컴파일 작업 예제도 업데이트되었습니다.
QAIRT 2.40.0(최신 버전) 지원이 추가되었습니다. 기본값은 QAIRT 2.39입니다.
현재 AI Hub Workbench에서 사용 가능한 Qualcomm Snapdragon™ 8cx Gen 3 CRD(SC8280XP)는 곧 사용 중단되고 제거될 예정입니다. 우려 사항이 있으면 알려주세요.

2025년 11월 4일 출시

QAIRT 기본값을 2.39.0으로 업데이트했습니다.
Python 종속성으로 NumPy 지원이 2.0까지 확장되었습니다.

2025년 10월 27일 릴리스

QNN을 지정된 런타임(컨텍스트 바이너리 또는 DLC)으로 사용하는 프로파일 작업에서 Optrace 데이터가 이제 제공됩니다. Runtime Layer Analysis 섹션을 확장하고 view optrace 를 클릭하여 상세한 HTP 프로파일링 데이터를 확인하세요: QNN Op 및 HTP Op 세부 정보, Optrace 타이밍 및 병목 현상.

2025년 10월 22일 릴리스

최근 디바이스 팜 업데이트로 인해 프로파일 및 추론 작업에서 간헐적인 실패가 발생했습니다. 오류 메시지는 모델을 완전히 실행하지 못했습니다. Failed to fully run the model, failed after compiling 또는 Failed to profile the model: unexpected device error 오류일 수 있습니다. 현재 배포에 우회 방법을 적용했으니, 작업을 다시 시도해 주세요.
QAIRT 2.39.0(최신) 지원을 추가했습니다.
PyTorch 2.8.0으로 업그레이드
LiteMP (혼합 정밀도) 기능을 사용할 때 Quantize Job 내 PSNR 함수가 AIMET의 (오프라인) PSNR 계산 방식과 일치하도록 업데이트됨

2025년 10월 6일 릴리스

문서의 compile models examples 를 단순화하기 위한 소규모 업데이트가 적용되었습니다.
ONNX Runtime 1.23.0으로 업데이트했습니다.
AI Hub에서 생성된 ONNX 모델에는 이제 ir_version=11 이 있습니다. 추론을 실행하려면 ONNX Runtime 1.23.0이 필요합니다.
AIMET-ONNX 2.15.0으로 업데이트했습니다.
AI Hub에서는 이제 모델을 메모리로 직접 다운로드하는 기능이 제거되었습니다. 모델은 반드시 디스크에 다운로드해야 합니다.

2025년 9월 29일 릴리스됨

ONNX Runtime용 추가 프로필 작업 옵션이 추가되었습니다(–onnx_options 를 통해). vtcm_mb, context_priority 및 offload_graph_io_quantization 을 설정하는 방법은 API 문서 를 확인하세요.
새로운 디바이스: 현재 Qualcomm AI Hub를 통해 모델을 테스트할 수 있는 2개의 새로운 모바일 디바이스, Snapdragon® 8 Elite Gen 5 (SM8850) 및 Snapdragon® 7 Gen 4 (SM7750), 가 출시되었습니다. 이 디바이스 중 하나에서 모델을 테스트하려면 작업을 제출할 때 다음과 같이 디바이스 이름을 지정하면 됩니다: device=hub.Device("Snapdragon 8 Elite Gen 5 QRD")
사전 컴파일된 ONNX 모델에 대한 수정이 적용되었습니다.

2025년 9월 22일 릴리스됨

AIMET-ONNX 2.14.0으로 업그레이드되었습니다.
QAIRT 2.38.0이 최신 버전으로 제공되며, QAIRT 2.37.0도 2.37.1로 업그레이드되었습니다.
작업 생성 및 재시도 작업에 대한 추가 로깅이 추가되었습니다.

2025년 9월 8일 릴리스됨

ONNX Runtime 1.22.2로 업그레이드되었습니다.
‘알 수 없음’ 이라는 이유로 발생하는 작업 실패가 감소되었습니다.

2025년 9월 2일 릴리스됨

LiteMP( light mixed precision의 약자)는 이제 AI Hub에서 양자화 작업을 제출할 때 베타로 사용할 수 있습니다. 양자화 작업을 제출할 때 이 옵션 을 활성화하면 지정된 비율의 레이어를 지정된 정밀도로 수정할 수 있습니다(--lite_mp percentage=10;override_qtype=int16).
aimet-onnx 2.13.0으로 업그레이드되었습니다.

2025년 8월 22일 릴리스

우리는 새로운 단일 로그인(SSO) 공급자로 마이그레이션을 완료했습니다. 사용자에게는 중단이 없어야 합니다. 문제가 발생하면 다시 로그인해 보시고, 예상치 못한 동작이 있으면 알려주세요.
QAIRT 2.37.0 및 aimet_onnx 2.12.0으로 업그레이드되었습니다.
모델을 메모리로 직접 다운로드하는 기능은 더 이상 지원되지 않습니다. 이에 따라 클라이언트와 문서에 경고가 추가되었습니다. 이제는 다음과 같이 소스 모델을 파일로 다운로드해야 합니다: model = compile_job.download_target_model("model_filename") 파일 이름은 필수입니다.
오랫동안 사용 중단되었던 클라이언트 API get_jobs 가 공식적으로 제거되었습니다. 대신 get_job_summaries() 를 사용하세요.

2025년 8월 11일 릴리스

AI Hub에서 DLC 지원이 이제 완전히 동작합니다! 그 결과, .so 모델 라이브러리 파일 생성은 중단됩니다. DLC 파일은 동일한 상황(즉, AArch64 Android 대상)에서 적합하고 더 안정적인 것으로 입증되었습니다. 따라서 .so 생성은 AI Hub를 통해 사용 중단되었습니다(즉시 적용되며 더 이상 지원하거나 유지 관리되지 않음) 그리고 약 6주 후 제거됩니다. .bin 파일을 생성하려면 이제 .dlc 를 거치게 됩니다. .bin``(–qnn_context_binary``) 및 .dlc``(–qnn_dlc``) 를 생성하는 런타임 옵션과 기타 런타임 옵션은 변경되지 않습니다! 사용 중단된 옵션 --qnn_bin_conversion_via_model_library 는 .so 모델을 통해 .bin 파일을 생성하는 데 사용할 수 있습니다. 링크 작업은 이제 .dlc 파일(1개 이상)과 하나 이상의 장치를 입력으로 받습니다. 기존 방식의 .bin 모델 링크는 사용 중단되고 있습니다. 또한 --target_runtime qnn_lib_aarch64_android 도 사용 중단되고 있습니다.
QAIRT 2.36.4로 업그레이드되었으며, 이제 기본 버전입니다. 현재 Hub는 2.33.2, 2.34.2 및 2.36.4를 지원합니다.
QNN Context Binary 생성 실패로 인해 컴파일 작업에서 발생하는 유효성 검사 오류에 대한 메시지를 개선했습니다. 메시지에는 적용 가능한 경우 <failed op_name>: <op_type>: <root-cause of failure> 이 포함됩니다.
문서의 FAQ 에 일반적인 ONNX Runtime 오류가 추가되었습니다.
특정 실패한 작업에 대한 오류 메시지에 적용 가능한 경우 런타임 로그를 확인하라는 안내가 추가되었습니다.
ONNX Runtime을 사용하는 프로파일/추론 작업 전에 파이프라인에서 가중치를 양자화하지 않게 되었습니다. 이 변경은 향후 기능 향상 지원 및 성능 측정의 재현성을 높이기 위해 이루어졌습니다.

2025년 7월 28일 릴리스

Quantize 작업에서 AIMET-ONNX 2.10.0으로 업그레이드되었습니다.
문서의 현지화가 한국어, 일본어, 번체 중국어 등 3개 언어로 추가되었습니다. 왼쪽 하단의 언어 선택기를 통해 확인하세요.
장치(>=v73 및 SA8295P)에 가중치 공유 속성이 추가되었습니다. hub.get_devices() 를 제출하면 htp-supports-weight-sharing:true 속성은 어떤 장치의 HTP가 가중치 공유를 허용하는지 나타냅니다.

2025년 7월 14일 릴리즈

AI Hub는 이제 모델 크기와 관계없이 항상 외부 가중치(.zip)가 포함된 ONNX 모델을 생성하여, 모델 업로드 및 시각화에 영향을 미치는 하위 단계 문제를 해결합니다. 이를 임베디드 가중치가 포함된 단일 모델로 바꾸려면, 사용자는 할 수 있습니다
```
import onnx
model = onnx.load("your_model.onnx")
onnx.save(model, "your_new_model.onnx")
```
OpSet 5의 Reshape 레이어를 사용하는 ONNX 모델에서 발생하던 컴파일 버그를 수정했습니다.
외부 가중치를 사용하는 ONNX 모델의 Quantize 작업에서 PSNR 계산 관련 버그를 해결했습니다.
AIMET+ONNX에서 QNN으로 컴파일할 때 발생하던 일부 문제를 해결했습니다.
AI Hub 클라이언트에서 요구되는 protobuf 버전을 완화했습니다. 이제 사용자는 protobuf>=3.20,<=6.31.1을 설치할 수 있습니다.
Yolov8 QNN 컨텍스트 바이너리에서 텐서 출력 순서에 영향을 주던 문제가 최신 QAIRT 버전에서 해결되었습니다.
버전 탭에 표시되던 AI Hub 버전이 일시적으로 local-hub-1999로 나타나는 문제가 있었으며, 현재는 해결되었습니다.
.dlc 를 대상으로 하는 w8a8 및 w8a16 모델의 양자화된 모델 성능은 의도치 않게 Q/DQ 노드에 영향을 준 성능 그래프 패스로 인해 상당한 성능 저하가 보고되었습니다.

2025년 6월 30일 릴리즈

모델 시각화 기능이 확장되어 int4 계층을 표시할 수 있게 되었습니다.
여러 종속 패키지를 업그레이드했습니다: QAIRT 2.35를 최신 버전으로 제공합니다. QAIRT 2.34.2는 기본 버전으로 유지됩니다. Quantize Job용 AIMET ONNX 2.8.0. ONNX Runtime 1.22.0.

2025년 6월 16일 릴리즈

QAIRT SDK 2.34.2로 업그레이드되었습니다. 이제 모든 작업에서 기본 QAIRT SDK 버전으로 사용됩니다.
.dlc 모델 시각화 지원이 추가되었습니다. (단, QAIRT SDK 2.34.2 이상이 필요합니다.)
Quantize 작업은 이제 aimet-onnx 2.7.0을 사용합니다.
퀄컴 AI Hub CLI 클라이언트에 --verbose 옵션이 추가되어 상세 로그를 출력할 수 있습니다. 실패한 작업을 디버깅할 때 유용하며, 추가 정보를 위해 당사 팀에서 요청할 수 있습니다.
여러 그래프 중 하나를 프로파일링할 때, 특히 LLM 내보내기 튜토리얼을 사용할 때 간헐적으로 발생하던 실패를 해결하는 버그 수정입니다. 이는 --qnn_options 를 플래그로 전달했고 의도치 않은 동작이 발생했기 때문입니다.

2025년 6월 2일 릴리즈

멀티 그래프 프로파일링 관련 버그 수정
RF-DETR 모델 지원을 위해 TFLite 경로에 한정된 6D 슬라이스 지원 추가
(2GB를 초과하는) 대형 모델 지원이 양자화 작업 및 Compute 플랫폼에서의 프로파일/추론 작업으로 확장되었습니다. Android 플랫폼은 현재 대형 모델의 프로파일 또는 추론을 지원하지 않습니다.
aimet-onnx 2.6.0으로 업그레이드

2025년 5월 14일 릴리즈

CLI를 통해 모델 업로드 시, 모델 ID와 클릭 가능한 모델 링크가 출력되도록 개선
aimet-onnx 2.5.0으로 업그레이드

2025년 5월 5일 릴리즈

사용자는 이제 AI Hub를 통해 대용량 PyTorch 및 ONNX 모델을 컴파일할 수 있습니다 (이전에는 2GB를 초과하는 모델은 지원되지 않는다는 오류 메시지가 표시됨). 단, 대용량 TF-Lite 모델 생성은 아직 지원되지 않습니다.
다양한 패키지가 업그레이드되었습니다: QAIRT 2.33.2, ONNX Runtime 1.21.1, aimet-onnx 2.4.0.
AI Hub에 잘못된 입력 형태(input shape)의 작업이 제출될 경우 추가적인 오류 메시지가 제공됩니다.
이제 ONNX 모델을 precompiled_qnn_onnx 경로로 타겟팅할 때 출력 형태(output shape)를 준수하여 컴파일 작업이 수행됩니다.

2025년 4월 22일 릴리즈

AI Hub에서 컴파일, 프로파일 및 추론 작업을 제출할 때 Deep Learning Container .dlc 지원이 제공됩니다. examples 를 확인하세요. 현재는 torch/onnx를 DLC로 컴파일하고 DLC 모델의 프로파일/추론 작업을 제출하는 기능만 지원됩니다. DLC 시각화 등 추가 기능은 곧 제공될 예정입니다.
QAIRT SDK 2.33.0 지원 추가 및 2.32.6으로 업그레이드되었습니다. 기본값은 계속해서 2.32이며 최신 버전은 이제 2.33입니다.
aimet-onnx 2.3.0으로 업그레이드되었습니다.
Samsung Galaxy S25 장치가 available devices 에 추가되었습니다.

2025년 4월 8일 릴리즈

AI Hub는 이제 opset 20의 ONNX 모델을 생성하며, 이는 ONNX Runtime 1.17.0이 필요합니다(기존에는 1.12.0이었습니다).
ONNX2TF에서 AffineGrid op 지원이 추가되었습니다.
AIMET 모델을 컴파일할 때 AI Hub는 이제 AIMET 인코딩 버전 1.0.0을 지원합니다.

2025년 3월 25일 릴리즈

“Job timed out after 8h”이라는 실패 이유가 증가하고 있었습니다. 이 문제는 조사되어 해결되었습니다. 이 문제가 발생하면 작업을 다시 시도해 주세요.
이전에 ONNX Runtime을 지정하는 데 사용되었던 ort 옵션이 제거되었습니다. 대신 onnx를 계속 사용해 주세요: --target_runtime onnx.
여러 HTP 최적화 옵션을 지정할 수 있는 기능이 추가되었습니다.

2025년 3월 10일 릴리즈

QAIRT 2.32.0으로 업그레이드되었습니다. Qualcomm AI Engine Direct SDK(일명 QNN)는 이제 Qualcomm AI Runtime SDK(일명 QAIRT)로 알려져 있습니다.
AIMET-ONNX가 버전 2.0.1로 업그레이드되었습니다. 이는 Quantize Job의 기본 엔진입니다. 이 업그레이드로 인해 여러 Quantize Job 버그가 해결되었으며, 내부 양자화 오류로 인해 실패한 작업도 포함됩니다. 작업을 다시 제출해 주시고 문제가 있으면 알려 주세요.
정적 형태 ROI Align TensorFlow Lite 지원이 구현되었습니다.
컴파일 작업의 버전 하위 섹션에 ONNX Runtime의 버전 정보가 추가되었습니다.
최신 클라이언트 버전 0.25.0 으로 업그레이드해 주세요.

2025년 2월 24일 릴리즈

QNN 버전 2.31로 업그레이드되었습니다.
런타임 지원 정보를 제공하는 새로운 devices page 를 확인하세요.

2025년 2월 10일 릴리즈

이제 ONNX 모델은 모델 업로드 시 외부 가중치를 가져오는 것을 지원합니다. .onnx 확장자를 가진 디렉토리 이름 또는 .onnx.zip 확장자를 가진 파일 이름은 정확히 하나의 가중치 파일을 가져야 하며, 이는 .data 파일이어야 합니다. 참고: 이 기능을 사용하는 LLM 지원은 아직 개발 중입니다.
프로파일 작업에서 모델 추론 시간을 볼 때 중간값 및 스파크라인 그래픽이 추가되어 더 자세한 타이밍 정보를 제공합니다.
모든 모델 자산에 대한 다중 모델 작업 시각화: 이제 작업의 오른쪽 상단 모서리에 있는 시각화 버튼을 클릭하면 작업과 관련된 모든 적용 가능한 모델(소스, 중간 및 대상)을 탐색하고 시각화할 수 있습니다.
퀄컴 QCS8275 및 QCS9075용 새로운 IoT 프록시 디바이스가 추가되었습니다. 이제 AI Hub에서 작업 제출 시 대상으로 선택할 수 있습니다.
다음 오류 메시지가 표시되면: Tensors {'...'} occur in value_info but also in model IO. See https://github.com/onnx/onnx/blob/main/docs/IR.md#graphs, 최신 AI Hub Models(pip install qai-hub-models)로 업데이트해 주세요. 이 문제는 Llama 모델 컴파일에 직접 영향을 미치는 것으로 알고 있습니다.
만료된 데이터셋을 참조하는 작업은 이제 정확한 오류 메시지와 함께 표시됩니다.

2025년 1월 22일 릴리즈

대규모 모델의 업로드 속도가 개선되어 시간 초과 및 SSLEOF 오류를 방지합니다. 오류가 발생하면 계속 알려 주세요!
실패한 작업의 오류 메시지를 개선하기 위한 다양한 변경 사항이 있습니다. 실패한 작업이 발생하고 무슨 일이 일어났는지 더 자세히 알고 싶다면 Slack 에 링크를 공유해 주세요.

2025년 1월 6일 릴리즈

AIMET PyTorch 모델(.pt) 업로드 경로가 제거되었습니다. 대신 ONNX 모델(.onnx)과 양자화 매개변수가 포함된 인코딩 파일(.encodings)을 사용하는 것을 권장합니다.
FAQ가 문서의 새 위치로 이동했습니다! 확인해 보세요!
fp16 I/O를 사용하는 양자화된 QNN 모델을 사용하는 추론 작업은 이제 fp32 데이터를 허용합니다.

2024년 12월 13일 릴리즈

ONNX NonMaxSupression 연산을 TFLite 동등 연산으로 번역 추가.
경고: 1월 6일 배포의 일환으로 AIMET PyTorch 모델(.pt) 업로드 경로를 폐지할 예정입니다. 대신 ONNX 모델(.onnx)과 양자화 매개변수가 포함된 인코딩 파일(.encodings)을 사용할 것을 권장합니다.

2024년 11월 25일 릴리즈

자동차 장치용 QNN 2.28.2 및 2.28.0으로 업그레이드되었습니다.
AI허브 에 Llama 계열 모델을 업로드하는 문제와 관련된 다양한 개선 사항. 이러한 LLM을 사용하여 AI허브 에 업로드하는 동안 시간 초과를 경험한 사용자로부터 피드백을 해결했습니다. 문제가 지속되면 알려주세요.
컴파일 옵션에 --quantize_weight_type float16 를 추가하여 이제 FP32 가중치를 FP16으로 압축할 수 있습니다.
AI허브 에서 새로운 자동 장치를 사용할 수 있습니다! 이제 SA8775P 및 SA7255P ADP 장치를 제공합니다.

2024년 11월 11일 릴리즈

발표: link jobs;! 여러 모델을 단일 컨텍스트 바이너리로 결합하여 그래프 간 가중치를 공유하고 디스크 공간을 절약합니다. 링크 작업은 Hexagon Tensor Processor(HTP)용 QNN 컨텍스트 바이너리에만 적용됩니다.
일반적인 문제를 해결하는 qai-hub 클라이언트 개선: 최신 클라이언트 버전 0.19.0에는 업로드 시 발생한 오류에 대한 수정 사항이 더 많이 있습니다. 또한 업로드 크기 제한이 5GB에서 10GB(압축)로 늘어났으며, 큰 파일은 여러 부분으로 업로드됩니다.
ONNX 버전이 1.17.0으로 업데이트되었습니다.
양자화 벤치마킹 및 컴파일 작업을 위한 문서 documentation 의 예제가 업데이트되었습니다.

2024년 10월 28일 릴리즈

새로운 디바이스: Snapdragon 8 Elite가 Snapdragon Summit에서 발표되었으며, device = hub.Device("Snapdragon 8 Elite QRD") 를 지정하여 모든 사용자가 사용할 수 있습니다.
새로운 디바이스: 자동차 디바이스인 Snapdragon Cockpit Gen 4 (SA8295P)가 이제 AI Hub에서 사용할 수 있습니다. --device "SA8295P ADP" --device-os 14 를 선택하십시오.
SSO로 AI Hub에 로그인하면 자동으로 관심 페이지로 리디렉션됩니다.

2024년 10월 14일 릴리즈

(베타) Qualcomm AI Hub는 이제 float32 모델을 정수 연산(int8, int16 등)으로 변환할 수 있습니다. 이 베타 기능은 submit_quantize_job API를 통해 PyTorch 모델을 양자화하는 데 사용할 수 있습니다. 우리 문서의 자세한 내용과 예제 를 확인하세요.
이제 int64가 지원됩니다(추론 및 프로파일링 작업 모두)!
QNN 2.27로 업그레이드되었습니다.

2024년 10월 7일 릴리즈

추론 작업에서 rank-0 (스칼라) 텐서에 대한 지원이 향상되었습니다.
작업이 제출될 때 작업 상태를 업데이트하여 작업의 진행 단계를 더 명확하게 보여줍니다(그리고 성가신 UI 버그를 수정했습니다).
프로파일러에서 지원하지 않는 데이터 유형 사용, 잘못된 TFLite 모델 파일 및 많은 디바이스에서 메모리 부족 오류를 포함한 여러 경우에 대한 오류 메시지가 개선되었습니다.
클라이언트 버전 0.17.0 pip install qai-hub==0.17.0 이 릴리즈되었으며, 이는 데이터 업로드 및 다운로드를 훨씬 더 신뢰할 수 있게 만드는 HTTP 재시도에 대한 수정 사항을 포함합니다.
새로운 디바이스 지원! 이제 device = hub.Device("Snapdragon X Plus 8-Core CRD") 를 지정하여 AI Hub에서 Snapdragon X Plus를 대상으로 작업을 시작할 수 있습니다.

2024년 9월 23일 릴리즈

모든 프록시 장치의 chipset 속성 이름이 접미사 -proxy 를 포함하도록 변경되었습니다. 예를 들어, chipset:qualcomm-qcs6490 는 이제 chipset:qualcomm-qcs6490-proxy 입니다. 장치 이름은 변경되지 않았습니다.
ONNXRuntime 1.19.2, TFLite 2.17로 업그레이드되었습니다.

2024년 9월 11일 릴리즈

QNN 2.26으로 업그레이드되었습니다.
모델 페이지에 생성자로 필터링할 수 있는 드롭다운이 추가되어 조직 내 다른 사람이 소유한 모델을 더 쉽게 검색할 수 있습니다.
QNN 모델에 대한 시각화를 포함한 UI 전반에 걸친 다양한 버그 수정이 포함되었습니다. 문제가 발생하면 알려주세요!

2024년 8월 26일 릴리즈

8월 13일부터, 사용자가 실행 중인 최대 허용 작업 수를 이미 가지고 있는 경우 작업 생성 시 Hub가 더 이상 예외를 발생시키지 않습니다. 대신, 새로운 작업은 대기 중 상태로 설정되고 기존 작업이 완료되면 자동으로 실행됩니다. Python 클라이언트 버전 0.14.1 에서는 작업 객체에 pending 이라는 새 속성이 추가되었습니다. 백엔드 용량을 기다리는 대기 중 상태의 작업은 이제 pending 이 호출되면 True, running 이 호출되면 False 를 반환합니다.
QNN 2.25로 업그레이드되었습니다.
get_job_summaries 는 이 버전(0.15.0)부터 클라이언트에서 사용할 수 있습니다. get_jobs API는 더 이상 사용되지 않으며 get_job_summaries 를 대신 사용해야 합니다.
Qualcomm AI Hub의 최신 기능을 모두 사용하려면 클라이언트 버전 0.15.0 pip install qai-hub==0.15.0 으로 업데이트하고 각 릴리즈마다 클라이언트를 업데이트하는 것이 좋습니다!

2024년 8월 12일 릴리즈

새로운 클라이언트 버전 0.14.0이 릴리즈되었습니다!
중간 자산: 컴파일 작업을 제출하면 이제 컴파일 작업 페이지에 “중간 자산” 탭이 표시됩니다. 이 새로운 기능을 통해 AI Hub는 컴파일의 중간 상태를 AI Hub의 일급 모델로 저장할 수 있습니다. 예를 들어, TFLite 컴파일을 위해 TorchScript 모델을 제출하면 중간 ONNX 모델이 저장되고 액세스할 수 있습니다.
작업 동시성 제한: 오류를 반환하는 대신, Hub는 이제 사용자당 최대 제한을 초과하는 작업을 자동으로 대기열에 추가합니다. 이전에 오류 처리를 통해 오류를 처리한 경우, 이제 작업을 제출하는 데 더 이상 필요하지 않습니다.

2024년 7월 29일 릴리즈

ONNX 1.18로 업그레이드
Qualcomm AI Hub는 Snapdragon Ride 플랫폼을 포함하도록 지원을 확장했습니다. 자동차 디바이스 에 사용할 수 있는 사전 최적화된 AI Hub 모델을 확인하고, AI Hub를 통해 실제 자동차 디바이스에서 이러한 모델을 테스트해보고 문제가 발생하면 알려주세요!

2024년 7월 15일 릴리즈

Android 디바이스의 메모리 추정치가 개선되어 훨씬 더 정확한 범위를 제공할 수 있게 되었습니다. 프로파일러의 외부 힙 사용을 피하는 능력이 향상되어 더 작은 메모리 범위를 제공합니다. 새로운 작업을 제출하고 메모리 범위를 확인해보세요!
QNN 2.24.0, ONNX 1.16.0으로 업그레이드
ONNX Runtime에 대한 int16 지원이 추가되었습니다.

2024년 7월 1일 릴리즈

AI Hub 작업은 조직과 자동으로 공유할 수 있습니다. 조직에 사용자를 추가하려면 팀원의 이메일 주소를 포함하여 ai-hub-support@qti.qualcomm.com 로 이메일을 보내주세요.
AI Hub 작업은 조직 외부 및 Qualcomm과도 공유할 수 있습니다. 작업의 오른쪽 상단에 있는 “공유” 버튼을 클릭하고 AI Hub 사용자의 이메일을 지정하면 작업(및 관련 모델 자산)이 공유됩니다. 이메일 주소를 작업에서 제거하여 액세스를 취소할 수도 있습니다.
컴파일에 실패한 AIMET 모델에 대한 오류 메시지가 개선되었습니다.
precompiled_qnn_onnx 에 대한 문서 가 업데이트되었습니다.
AI Hub 웹페이지에 대한 자세한 제목이 추가되었습니다. 이제 페이지를 열면 해당 페이지와 해당되는 작업 이름이 지정됩니다.
AI Hub의 이전 릴리스 노트는 이제 문서 에서 확인할 수 있습니다.

2024년 6월 17일 릴리즈

Windows 디바이스는 이제 AI Hub에서 널리 사용 가능하며, 새로운 Snapdragon X Elite 및 이전 세대 Snapdragon 8cx Gen 3 참조 디자인을 포함합니다. qai-hub list-devices를 실행하면 목록에 표시됩니다. device = hub.Device("Snapdragon X Elite CRD") 를 지정하여 X Elite를 대상으로 작업을 실행하십시오.
사전 컴파일된 QNN ONNX 모델 컴파일 지원! 사전 컴파일된 ONNX Runtime 모델을 사용 중임을 지정하려면 options="--target_runtime precompiled_qnn_onnx" 를 사용하십시오. (참고: 문서에 오타가 있으며 다음 릴리즈에서 수정될 예정입니다. 위에 지정된 옵션을 사용하십시오).
지원되는 ONNX Runtime 옵션에 대한 문서가 추가되었습니다.
시작하기 빠른 예제에 추론 작업 제출, 모델 다운로드 등을 포함한 단계가 확장되었습니다.
프로파일 및 추론 작업에 대한 추가 오류 세부 정보가 강조 표시되었습니다: 작업이 실패하면 런타임 로그의 추가 정보 라는 새 섹션을 확인하십시오. 런타임 로그를 확장하고 스크롤하지 않고도 디버그하는 데 도움이 되는 주요 세부 정보를 제공합니다.
QNN 버전 2.23으로 업데이트되었습니다.

2024년 6월 4일 릴리즈

디바이스 패밀리 목록이 추가되었습니다: 이제 qai-hub list-devices를 사용할 때 이러한 목록이 표시됩니다(Google Pixel 3a 패밀리, Samsung Galaxy S21 패밀리 등). 이는 디바이스 프로비저닝 시간을 단축하는 데 도움이 되므로 해당 옵션을 사용할 때 사용하십시오!
QNN 버전 2.22.6으로 업데이트되었습니다.
64비트 입력 유형에 대한 컴파일 옵션 --truncate_64bit_io 지원이 추가되었습니다.

2024년 5월 17일 릴리즈

ONNX QNN 실행 공급자를 통한 Windows에서 Snapdragon X Elite NPU 및 ONNX DirectML 실행 공급자를 통한 Windows에서 Snapdragon X Elite GPU 지원이 추가되었습니다. 조기 액세스를 위해 여기에 등록하십시오!
QNN 버전 2.22 지원(컴파일된 자산은 이제 QNN 버전 2.20 대신 QNN 2.22를 대상으로 함).
AI Hub에서 Windows 지원!
QNN에 대한 w4a8 지원(--quantize_full_type w4a8).
문서에 각 런타임을 사용할 때의 추가 컨텍스트가 추가되었습니다.
대상 런타임 qnn_bin 의 사용 중단. 이제 --target_runtime qnn_context_binary 를 사용하십시오. 컨텍스트 바이너리는 디바이스의 하드웨어 아키텍처에 맞게 컴파일됩니다. 자세한 내용은 문서에서 확인할 수 있습니다.

2024년 5월 6일 릴리즈

문서에는 이제 ONNX 모델을 TFLite 또는 QNN으로 컴파일하고 ONNX Runtime을 사용하여 직접 프로파일링하는 예제가 포함되어 있습니다.
ONNX Runtime의 기본 구성은 이제 프로파일링/추론에서 가장 높은 속도를 위한 옵션을 활용합니다. 기본적으로 가장 최적화된 모델을 제공하는 3으로 설정되었습니다.
(프로파일링 작업을 위해)TensorFlowLite를 2.16.1 로 업그레이되었습니다.
컴파일 작업에 대한 추가 성능 수정.

2024년 4월 22일 릴리즈

다양한 성능 개선, 오류 보고 개선 및 추가 레이어 지원이 추가되었습니다!
QCS8450 프록시 디바이스가 추가되었습니다(스레드의 참고 사항 참조).
최신 ONNX runtime (1.17.3)으로 업그레이드 되었습니다.
ONNX 런타임 모델에 대한 문서가 업데이트되었습니다.
ONNX Runtime에 대한 IO 옵션이 도입되었습니다.
QNN 경로에 대한 w4a16 양자화 지원이 추가되었습니다.

2024년 4월 8일 릴리즈

ONNX 런타임(.onnx) 및 NPU 지원이 도입되었습니다. 컴파일 작업을 제출할 때 options=--target_runtime onnx 를 지정하여 사용해보십시오.
ONNX 런타임의 개선 사항에는 많은 속도 향상이 포함됩니다.
ONNX 런타임 모델에 대한 모델 시각화가 추가되었습니다.
컴파일 작업에 대한 로깅이 증가했습니다.
IOT용 더 많은 프록시 디바이스: QCS8250, QCS8550 프록시 디바이스를 확인하십시오.
Tensorflow 2.15.0으로 업그레이드되었습니다.
Hub를 통한 int16, w8a16 양자화 지원이 추가되었습니다.

2024년 3월 25일 릴리즈

작업 실행을 위한 더 많은 Galaxy S24 디바이스가 추가되었습니다.
최신 QNN 버전 2.20으로 업그레이드되었습니다.
모델 업로드 제한이 10GB로 증가했습니다.
AIMET(.onnx + 인코딩) 양자화 모델을 ONNX로 변환하고 ONNX Runtime을 통해 디바이스에서 실행할 수 있는 지원이 추가되었습니다.
최적화 추가: constant folding reshape for depthwise convolutions for TFLite 모델들.
잘못된 입력 이름이 컴파일 옵션을 통해 전달되지 않도록 추가 검사를 수행합니다.

2024년 3월 11일

스냅드래곤® 8 젠 3 칩셋을 AI허브에 도입하였습니다. 스냅드래곤® 8 젠 3 device = hub.Device("Samsung Galaxy S24") 를 지정해서 대상 단말을 설정하세요.

2024년 2월 28일 릴리즈

MWC 2024에서 퀄컴AI허브 출시
약 75개의 QAI 허브 모델에 대한 지원을 통해 TFLite 및 QNN 런타임을 통해 다양한 모바일 장치에서 성능 및 정확도 수치를 제공합니다.