배포
배포 가능한 자산이 있으면 애플리케이션에 통합하고 싶을 수 있습니다. 이 프로세스는 대상 런타임에 따라 달라지므로 해당 설명서를 참조하세요.
참고: 양자화된 ONNX 모델을 배포하려면 장치 성능 향상 및 메모리 사용량 감소를 위해 몇 가지 추가 단계를 따라야 합니다.
배포 가능한 ONNX 모델 생성
양자화 및 컴파일 작업 후 ONNX 그래프: Qualcomm® AI Hub Workbench 에서 양자화 및 컴파일 작업을 결합하면 가장자리 중심의 양자화된 표현을 가진 ONNX 그래프가 생성됩니다. 여기서 가장자리는 가짜 양자화(Q + DQ)를 거칩니다. 모든 가중치는 fp32로 유지되며 모든 연산은 fp32로 작동합니다.
원하는 경우, ONNX 그래프를 QOp 표현과 일대일로 매핑되는 연산 중심의 양자화 표현으로 변환할 수 있습니다. QDQ가 QOp보다 가지는 장점은, 완전히 양자화된 그래프를 표현하기 위해 opset에 단 두 개의 추가 연산(Q, DQ)만 필요하다는 점입니다. 가중치는 양자화된 값으로 저장되며, 이는 모델 크기를 줄이고 QOp에 더 깔끔하게 매핑하는 데 기여합니다.
배포 가능한 자산을 만들려면:
Qualcomm® AI Hub Workbench 에서 대상 모델을 다운로드하세요.
다운로드한 모델에서 이 스크립트 를 실행합니다.
원하는 경우, 이 업데이트된 모델을 업로드하고 프로파일링하세요.
Qualcomm® AI Hub Apps
애플리케이션에 모델을 통합하는 과정은 학습 곡선이 가파르고 부담스러울 수 있습니다. 시작을 돕기 위해, 런타임을 구성하는 방법과 Qualcomm® AI Hub Workbench 에서 최적화된 모델을 사용하도록 애플리케이션을 설정하는 방법을 단계별로 안내하는 샘플 앱 모음을 제공하고 있습니다. 이를 통해 디바이스에서 추론을 실행할 때 관찰한 것과 유사한 성능을 달성할 수 있습니다.