Anthropic의 Claude 모델 사용

Vertex AI 기반 Anthropic Claude 모델은 완전 관리형 서버리스 모델을 API로 제공합니다. Vertex AI에서 Claude 모델을 사용하려면 요청을 Vertex AI API 엔드포인트로 직접 보냅니다. Anthropic Claude 모델은 관리형 API를 사용하므로 인프라를 프로비저닝하거나 관리할 필요가 없습니다.

Claude 응답을 스트리밍하여 최종 사용자의 지연 시간 인식을 줄일 수 있습니다. 스트리밍된 응답은 서버 전송 이벤트(SSE)를 사용하여 응답을 점진적으로 스트리밍합니다.

Claude 모델을 사용할 때는 사용한 만큼 비용을 지불하고(사용한 만큼만 지불) 프로비저닝 처리량을 사용할 때는 고정 요금을 지불합니다. 사용한 만큼만 지불 가격 책정은 Vertex AI 가격 책정 페이지의 Anthropic Claude 모델을 참조하세요.

사용 가능한 Claude 모델

Vertex AI에 사용할 수 있는 Anthropic의 모델은 다음과 같습니다. Claude 모델에 액세스하려면 Model Garden 모델 카드로 이동합니다.

Claude 3.7 Sonnet

Claude 3.7 Sonnet은 Anthropic의 현재까지 가장 지능적인 모델이자 확장된 사고(단계별로 신중하게 추론하여 복잡한 문제를 해결하는 능력)를 제공하는 최초의 Claude 모델입니다. Claude 3.7 Sonnet은 거의 즉각적인 응답을 위한 표준 사고와 고급 추론을 위한 확장된 사고 중에서 선택하여 속도와 품질의 균형을 맞출 수 있는 단일 모델입니다.

확장된 사고에 관한 자세한 내용은 Anthropic의 문서를 참조하세요.

Claude 3.7 Sonnet은 다음과 같은 사용 사례에 최적화되어 있습니다.

  • 에이전트 코딩 - Claude 3.7 Sonnet은 에이전트 코딩을 위한 최신 기술로, 초기 계획부터 버그 수정, 유지보수, 대규모 리팩터링에 이르기까지 전체 소프트웨어 개발 수명 주기에 걸쳐 작업을 완료할 수 있습니다. 복잡한 코딩 작업을 계획하고 해결하는 데 강력한 성능을 제공하므로 Claude 3.7 Sonnet은 엔드 투 엔드 소프트웨어 개발 프로세스를 강화하는 데 이상적인 선택입니다.
  • 고객 대면 에이전트 - Claude 3.7 Sonnet은 고객 대면 에이전트와 복잡한 AI 워크플로를 위한 우수한 안내 따르기, 도구 선택, 오류 수정, 고급 추론을 제공합니다.
  • 컴퓨터 사용 - Claude 3.7 Sonnet은 가장 정확한 컴퓨터 사용 모델로, 개발자가 Claude에게 사람이 컴퓨터를 사용하는 방식으로 컴퓨터를 사용하도록 지시할 수 있습니다.
  • 콘텐츠 생성 및 분석 - Claude 3.7 Sonnet은 쓰기에 능숙하며 콘텐츠의 뉘앙스와 어조를 이해하여 더 매력적인 콘텐츠를 생성하고 콘텐츠를 심층적으로 분석할 수 있습니다.
  • 시각적 데이터 추출 - Claude 3.7 Sonnet의 강력한 비전 기술을 통해 차트나 그래프와 같은 시각적 요소에서 원시 데이터를 추출하여 AI 워크플로의 일부로 사용하려는 팀에게 적합한 솔루션입니다.

Claude 3.7 Sonnet 모델 카드로 이동

Claude 3.5 Sonnet v2

Claude 3.5 Sonnet V2는 실제 소프트웨어 엔지니어링 태스크와 에이전트 기능을 위한 최첨단 모델입니다. Claude 3.5 Sonnet v2는 Claude 3.5 Sonnet과 동일한 가격과 속도로 이러한 개선된 기능을 제공합니다.

업그레이드된 Claude 3.5 Sonnet 모델은 컴퓨터 데스크톱 환경을 조작할 수 있는 도구와 상호작용할 수 있습니다. 자세한 내용은 Anthropic 문서를 참조하세요.

Claude 3.5 Sonnet은 다음과 같은 사용 사례에 최적화되어 있습니다.

  • 에이전트 작업 및 도구 사용 - Claude 3.5 Sonnet은 도구 사용이 필요한 에이전트 워크플로에 우수한 안내 따르기, 도구 선택, 오류 수정, 고급 추론을 제공합니다.
  • 코딩 - 코드 마이그레이션, 코드 수정, 번역 등 소프트웨어 개발 작업의 경우 Claude 3.5 Sonnet은 복잡한 코딩 작업을 계획하고 해결하는 데 강력한 성능을 제공합니다.
  • 문서 Q&A - Claude 3.5 Sonnet은 강력한 컨텍스트 이해, 고급 추론, 종합을 결합하여 정확하고 인간과 유사한 응답을 제공합니다.
  • 시각적 데이터 추출 - Claude 3.5 Sonnet은 선도적인 비전 기술을 통해 AI 워크플로의 일환으로 차트나 그래프와 같은 시각적 요소에서 원시 데이터를 추출할 수 있습니다.
  • 콘텐츠 생성 및 분석 - Claude 3.5 Sonnet은 콘텐츠의 뉘앙스와 어조를 이해하여 더 매력적인 콘텐츠를 생성하고 콘텐츠를 더 심층적으로 분석할 수 있습니다.

Claude 3.5 Sonnet V2 모델 카드로 이동

Claude 3.5 Haiku

Anthropic의 차세대 모델인 Claude 3.5 Haiku는 가장 빠르고 비용 효율적인 모델로, 속도와 경제성이 중요한 사용 사례에 적합합니다. 모든 기술 세트에서 이전 모델보다 개선되었습니다. Claude 3.5 Haiku는 다음과 같은 사용 사례에 최적화되어 있습니다.

  • 코드 완성 - 빠른 응답 시간과 프로그래밍 패턴에 대한 이해를 바탕으로 Claude 3.5 Haiku는 실시간 개발 워크플로에서 빠르고 정확한 코드 제안 및 완성을 제공하는 데 탁월합니다.
  • 대화형 챗봇 - Claude 3.5 Haiku의 향상된 추론 능력과 자연스러운 대화 능력은 많은 양의 사용자 상호작용을 효율적으로 처리할 수 있는 반응적이고 매력적인 챗봇을 만드는 데 이상적입니다.
  • 데이터 추출 및 라벨 지정 - 향상된 분석 기술을 활용하는 Claude 3.5 Haiku는 데이터를 효율적으로 처리하고 분류하므로 빠른 데이터 추출 및 자동 라벨 지정 작업에 유용합니다.
  • 실시간 콘텐츠 검토 - 강력한 추론 기술과 콘텐츠 이해를 바탕으로 Claude 3.5 Haiku는 대규모로 즉각적인 응답 시간이 필요한 플랫폼에 빠르고 안정적인 콘텐츠 검토를 제공합니다.

Claude 3.5 Haiku 모델 카드로 이동

Claude 3 Opus

Anthropic의 Claude 3 Opus는 매우 복잡한 작업에서 최상위 수준의 성능을 발휘하는 강력한 AI 모델입니다. 탁월한 유창성과 인간과 유사한 이해력을 바탕으로 개방형 프롬프트와 불확실한 시나리오를 탐색할 수 있습니다. Claude 3 Opus는 다음과 같은 사용 사례에 최적화되어 있습니다.

  • 대화형 코딩 및 계획, API 및 데이터베이스 간에 복잡한 작업 실행과 같은 작업 자동화.

  • 연구 검토, 브레인스토밍, 가설 생성, 제품 테스트와 같은 연구 및 개발 작업.

  • 차트 및 그래프의 고급 분석, 재무 및 시장 동향, 예측과 같은 전략 작업.

  • 텍스트 출력을 반환하는 이미지 처리와 같은 Vision 작업. 또한 차트, 그래프, 기술 다이어그램, 보고서, 기타 시각적 콘텐츠에 대한 분석도 있음.

Claude 3 Opus 모델 카드로 이동

Claude 3 Haiku

Anthropic Claude 3 Haiku는 간단한 쿼리에 거의 즉각적으로 응답할 수 있는 Anthropic에서 가장 빠른 비전 및 텍스트 모델로, 인간의 상호작용을 모방하는 원활한 AI 경험을 지원합니다.

  • 실시간 고객 상호작용 및 번역.

  • 의심스러운 행동이나 고객 요청을 파악하기 위한 콘텐츠 검토.

  • 인벤토리 관리, 비정형 데이터에서 지식 추출과 같은 비용 절감 작업.

  • 텍스트 출력을 반환하는 이미지 처리, 차트, 그래프, 기술 다이어그램, 보고서, 기타 시각적 콘텐츠 분석과 같은 Vision 작업.

Claude 3 Haiku 모델 카드로 이동

Claude 3.5 Sonnet

Anthropic Claude 3.5 Sonnet은 Anthropic의 중간 등급 Claude 3 Sonnet의 속도와 비용으로 광범위한 Anthropic 평가에서 Claude 3 Opus를 능가합니다. Claude 3.5 Sonnet은 다음과 같은 사용 사례에 최적화되어 있습니다.

  • 정교한 추론 및 문제 해결 기능을 사용하여 코드 작성, 수정, 실행 등의 코딩.

  • 사용자 컨텍스트를 이해하고 여러 단계로 이루어진 워크플로를 조정하여 고객 지원팀의 복잡한 문의 처리

  • 비정형 데이터를 탐색하고 여러 도구를 활용하여 유용한 정보를 생성하는 데이터 과학 및 분석.

  • 시각적 이해가 필요한 차트 및 그래프 해석과 같은 시각적 처리.

  • 사람과 대화를 나누는 것 같은 자연스러운 어조로 콘텐츠 작성.

Claude 3.5 Sonnet 모델 카드로 이동

Claude 모델 사용

Anthropic SDK 또는 curl 명령어를 사용하여 다음 모델 이름으로 Vertex AI 엔드포인트에 요청을 보낼 수 있습니다.

  • Claude 3.7 Sonnet의 경우 claude-3-7-sonnet@20250219 사용
  • Claude 3.5 Sonnet v2의 경우 claude-3-5-sonnet-v2@20241022 사용
  • Claude 3.5 Haiku의 경우 claude-3-5-haiku@20241022 사용
  • Claude 3 Opus의 경우 claude-3-opus@20240229 사용
  • Claude 3.5 Sonnet의 경우 claude-3-5-sonnet@20240620 사용
  • Claude 3 Haiku의 경우 claude-3-haiku@20240307 사용

Anthropic Claude 모델 버전은 일관된 동작을 보장하기 위해 @ 기호(예: claude-3-7-sonnet@20250219 또는 claude-3-5-haiku@20241022)로 시작하는 서픽스와 함께 사용해야 합니다.

시작하기 전에

Vertex AI에서 Anthropic Claude 모델을 사용하려면 다음 단계를 실행해야 합니다. Vertex AI를 사용하려면 Vertex AI API(aiplatform.googleapis.com)를 사용 설정해야 합니다. Vertex AI API가 사용 설정된 기존 프로젝트가 이미 있는 경우 새 프로젝트를 만드는 대신 해당 프로젝트를 사용할 수 있습니다.

파트너 모델을 사용 설정하고 사용하는 데 필요한 권한이 있는지 확인합니다. 자세한 내용은 필수 권한 부여를 참조하세요.

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI API.

    Enable the API

  8. 다음 Model Garden 모델 카드 중 하나로 이동한 다음 사용 설정을 클릭합니다.

Anthropic SDK 사용

Anthropic Claude SDK를 사용하여 Anthropic Claude 모델에 API를 요청할 수 있습니다. 자세한 내용은 다음을 참조하세요.

Anthropic Vertex SDK를 사용하여 Claude 모델에 스트리밍 호출 수행

다음 코드 샘플에서는 Anthropic Vertex SDK를 사용하여 Claude 모델에 스트리밍 호출을 실행합니다.

Python용 Vertex AI SDK

Python용 Vertex AI SDK를 설치하거나 업데이트하는 방법은 Python용 Vertex AI SDK 설치를 참조하세요. 자세한 내용은 Python용 Vertex AI SDK API 참조 문서를 확인하세요.

# TODO(developer): Vertex AI SDK - uncomment below & run
# pip3 install --upgrade --user google-cloud-aiplatform
# gcloud auth application-default login
# pip3 install -U 'anthropic[vertex]'

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

from anthropic import AnthropicVertex

client = AnthropicVertex(project_id=PROJECT_ID, region="us-east5")
result = []

with client.messages.stream(
    model="claude-3-5-sonnet-v2@20241022",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": "Send me a recipe for banana bread.",
        }
    ],
) as stream:
    for text in stream.text_stream:
        print(text, end="", flush=True)
        result.append(text)

# Example response:
# Here's a simple recipe for delicious banana bread:
# Ingredients:
# - 2-3 ripe bananas, mashed
# - 1/3 cup melted butter
# ...
# ...
# 8. Bake for 50-60 minutes, or until a toothpick inserted into the center comes out clean.
# 9. Let cool in the pan for a few minutes, then remove and cool completely on a wire rack.

Anthropic Vertex SDK를 사용하여 Claude 모델에 단항 호출 수행

다음 코드 샘플에서는 Anthropic Vertex SDK를 사용하여 Claude 모델에 단항 호출을 실행합니다.

Python용 Vertex AI SDK

Python용 Vertex AI SDK를 설치하거나 업데이트하는 방법은 Python용 Vertex AI SDK 설치를 참조하세요. 자세한 내용은 Python용 Vertex AI SDK API 참조 문서를 확인하세요.

# TODO(developer): Vertex AI SDK - uncomment below & run
# pip3 install --upgrade --user google-cloud-aiplatform
# gcloud auth application-default login
# pip3 install -U 'anthropic[vertex]'

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

from anthropic import AnthropicVertex

client = AnthropicVertex(project_id=PROJECT_ID, region="us-east5")
message = client.messages.create(
    model="claude-3-5-sonnet-v2@20241022",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": "Send me a recipe for banana bread.",
        }
    ],
)
print(message.model_dump_json(indent=2))
# Example response:
# {
#   "id": "msg_vrtx_0162rhgehxa9rvJM5BSVLZ9j",
#   "content": [
#     {
#       "text": "Here's a simple recipe for delicious banana bread:\n\nIngredients:\n- 2-3 ripe bananas...
#   ...

curl 명령어 사용

curl 명령어를 사용하여 Vertex AI 엔드포인트에 요청할 수 있습니다. curl 명령어는 지원되는 Claude 모델을 지정합니다.

Anthropic Claude 모델 버전은 일관된 동작을 보장하기 위해 @ 기호(예: claude-3-7-sonnet@20250219 또는 claude-3-5-haiku@20241022)로 시작하는 서픽스와 함께 사용해야 합니다.

다음 주제에서는 curl 명령어를 만드는 방법과 샘플 curl 명령어에 대해 소개합니다.

REST

Vertex AI API를 사용하여 텍스트 프롬프트를 테스트하려면 POST 요청을 게시자 모델 엔드포인트로 전송합니다.

요청 데이터를 사용하기 전에 다음을 바꿉니다.

  • LOCATION: Anthropic Claude 모델을 지원하는 리전.
  • MODEL: 사용할 모델 이름.
  • ROLE: 메시지와 연결된 역할. user 또는 assistant를 지정할 수 있습니다. 첫 번째 메시지는 user 역할을 사용해야 합니다. Claude 모델이 userassistant의 턴을 번갈아가며 작동합니다. 최종 메시지에서 assistant 역할을 사용하는 경우 이 메시지의 콘텐츠에서 곧바로 응답 콘텐츠가 계속됩니다. 이를 사용하여 모델 응답의 일부를 제한할 수 있습니다.
  • STREAM: 응답 스트리밍 여부를 지정하는 불리언. 응답을 스트리밍하여 최종 사용자 지연 시간 인식을 줄입니다. 응답을 스트리밍하려면 true로 설정하고 응답을 한 번에 반환하려면 false로 설정합니다.
  • CONTENT: user 또는 assistant 메시지의 콘텐츠(예: 텍스트)
  • MAX_TOKENS: 응답에서 생성될 수 있는 토큰의 최대 개수. 토큰은 약 3.5자(영문 기준)입니다. 토큰 100개는 단어 약 60~80개에 해당합니다.

    응답이 짧을수록 낮은 값을 지정하고 잠재적으로 응답이 길면 높은 값을 지정합니다.

  • TOP_P: (선택사항) Top-P는 모델이 출력용 토큰을 선택하는 방식을 변경합니다. 토큰은 확률의 합이 Top-P 값과 같아질 때까지 확률이 가장 높은 것부터(Top-K 참조) 가장 낮은 것까지 선택됩니다. 예를 들어 토큰 A, B, C의 확률이 0.3, 0.2, 0.1이고 Top-P 값이 0.5이면 모델이 온도를 사용하여 다음 토큰으로 A 또는 B를 선택하고 C를 후보에서 제외합니다.

    임의성이 낮은 응답에 낮은 값을 지정하고 임의성이 높은 응답에 높은 값을 지정합니다.

  • TOP_K: (선택사항) Top-K는 모델이 출력용 토큰을 선택하는 방식을 변경합니다. Top-K가 1이면 선택된 토큰이 모델의 어휘에 포함된 모든 토큰 중에서 가장 확률이 높다는 의미입니다(그리디 디코딩이라고도 함). 반면에 Top-K가 3이면 강도를 사용하여 가장 확률이 높은 3개 토큰 중에서 다음 토큰이 선택된다는 의미입니다.

    각 토큰 선택 단계에서 확률이 가장 높은 Top-K 토큰이 샘플링됩니다. 그런 다음 Top-P를 기준으로 토큰을 추가로 필터링하고 온도 샘플링을 사용하여 최종 토큰을 선택합니다.

    임의성이 낮은 응답에 낮은 값을 지정하고 임의성이 높은 응답에 높은 값을 지정합니다.

  • TYPE: Claude 3.7 Sonnet만 해당. 확장된 사고 모드를 사용 설정하려면 enable을 지정합니다.
  • BUDGET_TOKENS: 확장된 사고를 사용 설정하는 경우 모델이 내부 추론에 사용할 수 있는 토큰 수를 출력의 일부로 지정해야 합니다. 예산이 클수록 복잡한 문제를 더 철저하게 분석하고 응답 품질을 개선할 수 있습니다. 1024 이상의 MAX_TOKENS 이하인 값을 지정해야 합니다.

HTTP 메서드 및 URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict

JSON 요청 본문:

{
  "anthropic_version": "vertex-2023-10-16",
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": STREAM,
  "thinking": {
    "type": "TYPE",
    "budget_tokens": BUDGET_TOKENS
  }
}

요청을 보내려면 다음 옵션 중 하나를 선택합니다.

curl

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict"

PowerShell

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict" | Select-Object -Expand Content

다음과 비슷한 JSON 응답이 수신됩니다.

curl 명령어 예시

MODEL_ID="MODEL"
LOCATION="us-central1"
PROJECT_ID="PROJECT_ID"

curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${LOCATION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${LOCATION}/publishers/anthropic/models/${MODEL_ID}:streamRawPredict -d \
'{
  "anthropic_version": "vertex-2023-10-16",
  "messages": [{
    "role": "user",
    "content": "Hello!"
  }],
  "max_tokens": 50,
  "stream": true}'

도구 사용(함수 호출)

Anthropic Claude 모델은 모델의 기능을 향상시키기 위한 도구와 함수 호출을 지원합니다. 자세한 내용은 Anthropic 문서의 도구 사용 개요를 참조하세요.

다음 샘플은 SDK 또는 curl 명령어를 사용하여 도구를 사용하는 방법을 보여줍니다. 샘플에서는 영업 중인 샌프란시스코 인근 레스토랑을 검색합니다.

Python용 Vertex AI SDK

Python용 Vertex AI SDK를 설치하거나 업데이트하는 방법은 Python용 Vertex AI SDK 설치를 참조하세요. 자세한 내용은 Python용 Vertex AI SDK API 참조 문서를 확인하세요.

# TODO(developer): Vertex AI SDK - uncomment below & run
# pip3 install --upgrade --user google-cloud-aiplatform
# gcloud auth application-default login
# pip3 install -U 'anthropic[vertex]'
from anthropic import AnthropicVertex

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

client = AnthropicVertex(project_id=PROJECT_ID, region="us-east5")
message = client.messages.create(
    model="claude-3-5-sonnet-v2@20241022",
    max_tokens=1024,
    tools=[
        {
            "name": "text_search_places_api",
            "description": "returns information about a set of places based on a string",
            "input_schema": {
                "type": "object",
                "properties": {
                    "textQuery": {
                        "type": "string",
                        "description": "The text string on which to search",
                    },
                    "priceLevels": {
                        "type": "array",
                        "description": "Price levels to query places, value can be one of [PRICE_LEVEL_INEXPENSIVE, PRICE_LEVEL_MODERATE, PRICE_LEVEL_EXPENSIVE, PRICE_LEVEL_VERY_EXPENSIVE]",
                    },
                    "openNow": {
                        "type": "boolean",
                        "description": "whether those places are open for business.",
                    },
                },
                "required": ["textQuery"],
            },
        }
    ],
    messages=[
        {
            "role": "user",
            "content": "What are some affordable and good Italian restaurants open now in San Francisco??",
        }
    ],
)
print(message.model_dump_json(indent=2))
# Example response:
# {
#   "id": "msg_vrtx_018pk1ykbbxAYhyWUdP1bJoQ",
#   "content": [
#     {
#       "text": "To answer your question about affordable and good Italian restaurants
#       that are currently open in San Francisco....
# ...

REST

요청 데이터를 사용하기 전에 다음을 바꿉니다.

  • LOCATION: Anthropic Claude 모델을 지원하는 리전.
  • MODEL: 사용할 모델 이름입니다.
  • ROLE: 메시지와 연결된 역할. user 또는 assistant를 지정할 수 있습니다. 첫 번째 메시지는 user 역할을 사용해야 합니다. Claude 모델이 userassistant의 턴을 번갈아가며 작동합니다. 최종 메시지에서 assistant 역할을 사용하는 경우 이 메시지의 콘텐츠에서 곧바로 응답 콘텐츠가 계속됩니다. 이를 사용하여 모델 응답의 일부를 제한할 수 있습니다.
  • STREAM: 응답 스트리밍 여부를 지정하는 불리언. 응답을 스트리밍하여 최종 사용자 지연 시간 인식을 줄입니다. 응답을 스트리밍하려면 true로 설정하고 응답을 한 번에 반환하려면 false로 설정합니다.
  • CONTENT: user 또는 assistant 메시지의 콘텐츠(예: 텍스트).
  • MAX_TOKENS: 응답에서 생성될 수 있는 토큰의 최대 개수. 토큰은 약 3.5자(영문 기준)입니다. 토큰 100개는 단어 약 60~80개에 해당합니다.

    응답이 짧을수록 낮은 값을 지정하고 잠재적으로 응답이 길면 높은 값을 지정합니다.

HTTP 메서드 및 URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict

JSON 요청 본문:


{
  "anthropic_version": "vertex-2023-10-16",
  "max_tokens": MAX_TOKENS,
  "stream": STREAM,
  "tools": [
    {
      "name": "text_search_places_api",
      "description": "Returns information about a set of places based on a string",
      "input_schema": {
        "type": "object",
        "properties": {
          "textQuery": {
            "type": "string",
            "description": "The text string on which to search"
          },
          "priceLevels": {
            "type": "array",
            "description": "Price levels to query places, value can be one of [PRICE_LEVEL_INEXPENSIVE, PRICE_LEVEL_MODERATE, PRICE_LEVEL_EXPENSIVE, PRICE_LEVEL_VERY_EXPENSIVE]",
          },
          "openNow": {
            "type": "boolean",
            "description": "Describes whether a place is open for business at
            the time of the query."
          },
        },
        "required": ["textQuery"]
      }
    }
  ],
  "messages": [
    {
      "role": "user",
      "content": "What are some affordable and good Italian restaurants that are open now in San Francisco??"
    }
  ]
}

요청을 보내려면 다음 옵션 중 하나를 선택합니다.

curl

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict"

PowerShell

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict" | Select-Object -Expand Content

다음과 비슷한 JSON 응답이 수신됩니다.

Vertex AI Studio 사용

일부 Anthropic Claude 모델의 경우 Vertex AI Studio를 사용하여 Google Cloud 콘솔에서 생성형 AI 모델을 빠르게 프로토타이핑하고 테스트할 수 있습니다. 예를 들어 Vertex AI Studio를 사용하여 Claude 모델 응답을 Google Gemini와 같은 지원되는 다른 모델과 비교할 수 있습니다.

자세한 내용은 빠른 시작: Vertex AI Studio를 사용하여 Gemini에 텍스트 프롬프트 보내기를 참조하세요.

Anthropic Claude 사용 가능한 리전

Claude 3.7 Sonnet은 다음 리전에서 사용할 수 있습니다.
  • us-east5 (Ohio)
  • europe-west1 (Belgium)
Claude 3.5 Sonnet v2는 다음 리전에서 사용할 수 있습니다.
  • us-east5 (Ohio)
  • europe-west1 (Belgium)
Claude 3.5 Haiku는 다음 리전에서 사용할 수 있습니다.
  • us-east5 (Ohio)
Claude 3 Opus는 다음 리전에서 사용할 수 있습니다.
  • us-east5 (Ohio)
Claude 3.5 Sonnet은 다음 리전에서 사용할 수 있습니다.
  • us-east5 (Ohio)
  • asia-southeast1 (Singapore)
  • europe-west1 (Belgium)
Claude 3 Haiku는 다음 리전에서 사용할 수 있습니다.
  • us-east5 (Ohio)
  • asia-southeast1 (Singapore)
  • europe-west1 (Belgium)

Anthropic Claude 할당량 및 지원되는 컨텍스트 길이

Claude 모델의 경우 모델을 사용할 수 있는 각 리전에 할당량이 적용됩니다. 할당량은 분당 쿼리 수(QPM) 및 분당 토큰 수(TPM)로 지정됩니다. TPM에는 입력 및 출력 토큰이 모두 포함됩니다.

전반적인 서비스 성능과 서비스이용(정책)을 유지하기 위해 최대 할당량은 계정에 따라 다를 수 있으며 경우에 따라 액세스가 제한될 수도 있습니다. Google Cloud 콘솔의 할당량 및 시스템 한도 페이지에서 프로젝트의 할당량을 확인합니다. 또한 다음 할당량을 사용할 수 있어야 합니다.

  • Online prediction requests per base model per minute per region per base_model
  • Online prediction tokens per minute per base model per minute per region per base_model

Claude 3.7 Sonnet

다음 표에는 Claude 3.7 Sonnet의 기본 할당량 및 지원되는 컨텍스트 길이가 나와 있습니다.

지역 할당량 지원되는 컨텍스트 길이
us-east5 (Ohio) 최대 55QPM, 500,000TPM 200,000 토큰
europe-west1 (Belgium) 최대 40QPM, 300,000TPM 200,000 토큰

Claude 3.5 Sonnet v2

다음 표에는 Claude 3.5 Sonnet v2의 기본 할당량 및 지원되는 컨텍스트 길이가 나와 있습니다.

지역 할당량 지원되는 컨텍스트 길이
us-east5 (Ohio) 최대 90QPM, 540,000TPM 200,000 토큰
europe-west1 (Belgium) 최대 55QPM, 330,000TPM 200,000 토큰

Claude 3.5 Haiku

다음 표에는 Claude 3.5 Haiku의 기본 할당량 및 지원되는 컨텍스트 길이가 나와 있습니다.

지역 할당량 지원되는 컨텍스트 길이
us-east5 (Ohio) 최대 80QPM, 350,000TPM 200,000 토큰

Claude 3 Opus

다음 표에는 Claude 3 Opus의 기본 할당량 및 지원되는 컨텍스트 길이가 나와 있습니다.

지역 할당량 지원되는 컨텍스트 길이
us-east5 (Ohio) 최대 20QPM, 105,000TPM 200,000 토큰

Claude 3 Haiku

다음 표에는 Claude 3 Haiku의 기본 할당량 및 지원되는 컨텍스트 길이가 나와 있습니다.

지역 할당량 지원되는 컨텍스트 길이
us-east5 (Ohio) 최대 245QPM, 600,000TPM 200,000 토큰
asia-southeast1 (Singapore) 최대 70QPM, 174,000TPM 200,000 토큰
europe-west1 (Belgium) 최대 75QPM, 181,000TPM 200,000 토큰

Claude 3.5 Sonnet

다음 표에는 Claude 3.5 Sonnet의 기본 할당량 및 지원되는 컨텍스트 길이가 나와 있습니다.

지역 할당량 지원되는 컨텍스트 길이
us-east5 (Ohio) 최대 120QPM, 555,000TPM 200,000 토큰
asia-southeast1 (Singapore) 최대 35QPM, 150,000TPM 200,000 토큰
europe-west1 (Belgium) 최대 130QPM, 600,000TPM 200,000 토큰

Vertex AI의 생성형 AI 할당량을 상향 조정하려면 Google Cloud 콘솔을 사용해 할당량 상향을 요청하면 됩니다. 할당량에 대한 자세한 내용은 할당량 작업을 참조하세요.