배포

배포 가능한 자산이 있으면 애플리케이션에 통합하고 싶을 수 있습니다. 이 프로세스는 대상 런타임에 따라 달라지므로 해당 설명서를 참조하세요.

참고: 양자화된 ONNX 모델을 배포하려면 장치 성능 향상 및 메모리 사용량 감소를 위해 몇 가지 추가 단계를 따라야 합니다.

배포 가능한 ONNX 모델 생성

ONNX Graph after Quantize & Compile Job: The combination of quantize and compile jobs in Qualcomm® AI Hub Workbench produces ONNX graphs with edge-centric quantized representation where edges go through fake quantization (Q + DQ). All the weights are kept in fp32 and all the ops operate on fp32.

원하는 경우, ONNX 그래프를 QOp 표현과 일대일로 매핑되는 연산 중심의 양자화 표현으로 변환할 수 있습니다. QDQ가 QOp보다 가지는 장점은, 완전히 양자화된 그래프를 표현하기 위해 opset에 단 두 개의 추가 연산(Q, DQ)만 필요하다는 점입니다. 가중치는 양자화된 값으로 저장되며, 이는 모델 크기를 줄이고 QOp에 더 깔끔하게 매핑하는 데 기여합니다.

배포 가능한 자산을 만들려면:

  • Download the target model from Qualcomm® AI Hub Workbench.

  • 다운로드한 모델에서 이 스크립트 를 실행합니다.

  • 원하는 경우, 이 업데이트된 모델을 업로드하고 프로파일링하세요.

Qualcomm® AI Hub Apps

The process of integrating your model into your application can be daunting, with a steep learning curve. To help you get started, we have a growing collection of sample apps which walk through how to configure your runtime and how to configure your application to use your model optimized by Qualcomm® AI Hub Workbench to achieve performance similar to what we observed when running inference on device.