이미지 이해 · OCR · 문서

Vision (VLM / OCR)

TBC

이미지를 입력으로 받는 멀티모달 대화 LLM, 그리고 문서 OCR・표 추출.

개요

Vision (VLM / OCR)

스크린샷 해석, 종이 문서・PDF의 OCR, 표・도형 추출, 레이아웃 해석, 영수증・장표 자동 입력, 이미지 Q&A, UI 자동화를 위한 화면 이해 등의 용도로 제공 예정.

엔드포인트: /v1/chat/completions
예시 모델: vlm-7b

API

API 예시

curl

curl https://api.openalchemy.io/v1/chat/completions \
  -H "Authorization: Bearer $OPENALCHEMY_API_KEY" \
  -H "X-Project-Id: $YOUR_PROJECT_ID" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vlm-7b",
    "messages": [
      {"role": "user", "content": [
        {"type": "text", "text": "What is in this image?"},
        {"type": "image_url", "image_url": {"url": "https://example.com/receipt.jpg"}}
      ]}
    ]
  }'

상태

할당량 및 요금 (프로젝트별)

할당과 레이트 리밋은 API 키를 발급한 프로젝트에 적용. 도메인 스코프의 정책 레이어가 각 모달리티를 호출할 수 있는 오리진을 추가로 제약.

이 모달리티의 문서 보기 →

오늘 시작

추론 비용을 연금술에 가까운 무언가로 바꿀 준비, 됐나요?

무료 플랜으로 프로젝트를 하나 띄우고 첫 1,000건의 요청을 신용카드 없이 실행.

무료 시작 요금 보기