동적 공유 할당량 (DSQ)

동적 공유 할당량 (DSQ)은 할당량 및 할당량 증가 요청 (QIR)을 관리하지 않고도 워크로드 요구사항에 더 유연하게 적응하여 사용한 만큼만 지불 (PayGo) 요청을 처리하기 위해 도입되었습니다. DSQ를 사용하면 사용량에 사전 정의된 할당량 제한이 없습니다. 대신 DSQ는 해당 모델의 모든 고객에 걸쳐 리소스의 실시간 가용성과 실시간 수요에 따라 동적으로 할당되는 대규모 공유 리소스 풀에 대한 액세스를 제공합니다. 활성 고객이 많을수록 각 고객의 처리량은 줄어듭니다. 마찬가지로 고객 수가 적으면 각 고객의 처리량이 더 높을 수 있습니다.

지원되는 모델

다음 Gemini 모델과 지도 기반 미세 조정 모델은 DSQ를 지원합니다.

다음 기존 Gemini 모델은 DSQ를 지원합니다.

  • Gemini 1.5 Pro
  • Gemini 1.5 Flash

DSQ 작동 방식

동적 공유 할당량 (DSQ)은 트래픽 패턴과 요구사항에 맞게 조정되며 사용 중단을 최소화합니다. DSQ에 따른 프로젝트의 리소스 액세스는 Google에서 임의로 설정한 수로 제한되지 않습니다. 대신 공유 풀의 전반적인 용량과 모든 고객의 현재 총체적인 수요에 따라 결정됩니다. 이 모델은 상당한 유연성을 제공하도록 설계되어 워크로드가 필요할 때 더 많은 리소스를 사용하고 증가할 수 있습니다. 반대로 공유 풀의 모든 고객이 고객별 할당량을 구성하지 않고도 사용 가능한 경우 리소스에 액세스할 수 있습니다.

공유 리소스 환경의 모든 사용자에게 공정하고 안정적인 환경을 제공하기 위해 동적 공유 할당량은 특히 고립된 소스에서 수요가 매우 많은 기간에 요청이 처리되는 방식을 지능적으로 관리합니다. DSQ는 고정 한도가 아닌 동적 우선순위 지정 접근 방식을 사용합니다. 즉, 시스템은 급증을 수용하도록 설계되었지만 단일 소스에서 발생하는 비정상적으로 크고 빠른 트래픽 급증은 더 일관되고 안정적인 트래픽과는 다른 우선순위로 처리될 수 있습니다. 이 정교한 관리를 통해 광범위한 사용자 활동과 일반 워크로드가 일시적인 극심한 급증으로부터 보호되므로 전반적인 시스템 안정성과 공정한 액세스가 촉진됩니다.

멀티모달 입력이 있는 Gemini 요청에는 이미지, 오디오, 동영상, 문서를 포함한 상응하는 시스템 비율 제한이 적용됩니다.

애플리케이션의 가용성을 높이고 프로덕션 워크로드의 서비스 수준을 예측 가능하게 하려면 프로비저닝된 처리량을 참고하세요.

DSQ의 리소스 소진 429 오류 이해

'리소스 소진됨' 429 오류가 발생하면 불편을 끼쳐드릴 수 있으며, 일종의 할당량 한도가 발생했다고 생각할 수 있습니다. 하지만 DSQ의 경우는 그렇지 않습니다. 이러한 오류는 특정 시간에 특정 유형 (예: 특정 지역의 특정 모델)의 전체 공유 리소스 풀에 여러 사용자의 수요가 동시에 매우 높다는 것을 나타냅니다. 출퇴근 시간에 매우 인기 있는 열차에 타려고 하는 것과 비슷합니다. 나를 위한 '티켓 한도'는 없지만 기차 자체가 일시적으로 꽉 차 있을 수 있습니다. 이는 프로젝트에 부과된 고정 한도가 아니라 리소스 경합의 일시적인 상태입니다.

DSQ는 사용 가능한 용량을 공정하고 효율적으로 관리하고 배포하기 위해 지속적으로 노력하고 있습니다. 이러한 오류가 발생하면 즉시 발생한 수요가 공유 풀의 사용 가능한 공급을 초과했다는 의미입니다. 다른 곳에서 리소스가 유휴 상태이더라도 차단되는 하드 할당량과 달리 DSQ는 리소스가 사용 가능한 경우 언제든지 액세스할 수 있도록 합니다. 소진 오류는 계정의 한도가 아니라 전체 시스템의 현재 부하를 반영합니다.

이 동적 환경의 가용성은 빠르게 변경될 수 있으므로 재시도 메커니즘을 구현하는 것이 좋습니다. 리소스 소진 오류를 처리하는 방법에 관한 자세한 내용은 429 오류 처리 가이드 또는 오류 코드 429를 참고하세요.

다음 단계