画像理解／ OCR ／文書解析

Vision（VLM / OCR）

検討中

画像を入力に取って対話するマルチモーダル LLM、および文書 OCR・図表抽出。

概要

Vision（VLM / OCR）

スクリーンショット解析、紙文書・PDF の OCR、表・図形の抽出、レイアウト解析、レシート・帳票の自動入力、画像 Q&A、UI 自動化のためのスクリーン理解といった用途を提供予定。

エンドポイント: /v1/chat/completions
例: モデル: vlm-7b

API

API サンプル

curl

curl https://api.openalchemy.io/v1/chat/completions \
  -H "Authorization: Bearer $OPENALCHEMY_API_KEY" \
  -H "X-Project-Id: $YOUR_PROJECT_ID" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vlm-7b",
    "messages": [
      {"role": "user", "content": [
        {"type": "text", "text": "What is in this image?"},
        {"type": "image_url", "image_url": {"url": "https://example.com/receipt.jpg"}}
      ]}
    ]
  }'

ステータス

クォータ／料金（プロジェクト粒度）

利用枠とレート制限は API キーを発行したプロジェクトに対して適用される。さらにドメイン単位の細粒度ポリシーで、特定オリジンからの呼び出しを制限できる。

このモダリティのドキュメントを読む →

START TODAY

推論コストを、錬金術にかける準備はできていますか。

無料枠で1プロジェクトを作り、最初の1,000リクエストまでクレジットカードなしで動かせる。

無料で始める料金プランを見る