OpenAlchemyOpenAlchemy
← モダリティ一覧

画像理解 / OCR / 文書解析

Vision(VLM / OCR)

検討中

画像を入力に取って対話するマルチモーダル LLM、および文書 OCR・図表抽出。

概要

Vision(VLM / OCR)

スクリーンショット解析、紙文書・PDF の OCR、表・図形の抽出、レイアウト解析、レシート・帳票の自動入力、画像 Q&A、UI 自動化のためのスクリーン理解といった用途を提供予定。

エンドポイント
/v1/chat/completions
例: モデル
vlm-7b

API

API サンプル

curl
curl https://api.openalchemy.io/v1/chat/completions \
  -H "Authorization: Bearer $OPENALCHEMY_API_KEY" \
  -H "X-Project-Id: $YOUR_PROJECT_ID" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vlm-7b",
    "messages": [
      {"role": "user", "content": [
        {"type": "text", "text": "What is in this image?"},
        {"type": "image_url", "image_url": {"url": "https://example.com/receipt.jpg"}}
      ]}
    ]
  }'

ステータス

クォータ/料金(プロジェクト粒度)

利用枠とレート制限は API キーを発行したプロジェクトに対して適用される。さらにドメイン単位の細粒度ポリシーで、特定オリジンからの呼び出しを制限できる。

このモダリティのドキュメントを読む

START TODAY

推論コストを、錬金術にかける準備はできていますか。

無料枠で1プロジェクトを作り、最初の1,000リクエストまでクレジットカードなしで動かせる。