OCR · PDF · Extraction · DePIN

Extraction de documents.
Distribuée à l'échelle.

OCR et extraction PDF parallélisés sur des centaines de nodes.

Commencer gratuitement → Voir l'API

€0.0016par document PDF

~20 MBpar job OCR

100%parallélisable

3 GBgratuits/semaine

Le job type

Ce que fait ocr_pdf

Un seul type de job pour l'extraction depuis PDFs, images scannées et documents multi-formats.

📄

Extraction de texte complet

Extrait tout le contenu, page par page, avec structure sémantique préservée.

🖼️

OCR sur images scannées

Photos de documents, captures d'écran — extraction même sur fond bruité.

📊

Extraction de tableaux

Détecte et structure les tableaux PDF en JSON ou CSV directement utilisable.

🔢

Multi-pages

Centaines de pages distribuées en parallèle pour une latence minimale.

🌐

Multi-langues

Français, anglais, espagnol, allemand et 30+ langues.

🔒

Sandbox isolé

Aucun document stocké après traitement. Privacy by design.

Formats supportés

Input — ce que tu envoies

.pdfDocuments PDF natifs ou scannés

.pngImages haute résolution

.jpgPhotos de documents

.tiffArchives scannées

URLLien direct vers le document

base64Document encodé inline

Output — ce que tu reçois

textTexte brut avec sauts de ligne

jsonStructure page/bloc/ligne

markdownMise en forme préservée

tablesTableaux extraits en JSON/CSV

Architecture

Comment le job s'exécute

CPU-bound et embarrassingly parallel — idéal pour DePIN. Chaque page sur un node différent simultanément.

Soumission

Tu envoies le document (URL ou base64) avec les options de format via POST /jobs.

Découpage

Le document est découpé en chunks. Chaque chunk devient un sous-job indépendant.

Distribution parallèle

Les sous-jobs sont dispatched simultanément. Un PDF 100 pages = 100 jobs OCR en parallèle.

Validation multi-node

Chaque résultat est validé. En cas de divergence, re-route vers un node supplémentaire.

Agrégation & retour

Résultats réassemblés dans l'ordre et retournés via GET /jobs/ID/result.

Intégration

Extraction en 2 appels

bash
# Submit OCR job
curl -X POST https://api.revolution-network.fr/api/enterprise/v1/jobs \
  -H "x-api-key: YOUR_KEY" \
  -d '{
    "type": "ocr_pdf",
    "params": {
      "url": "https://example.com/invoice.pdf",
      "output_format": "json",
      "extract_tables": true,
      "language": "fr"
    }
  }'

# Response → { "job_id": "jb_xyz789" }

# Get result
curl https://api.revolution-network.fr/api/enterprise/v1/jobs/jb_xyz789/result \
  -H "x-api-key: YOUR_KEY"

# Response:
{
  "status": "done",
  "pages": [{
    "page": 1,
    "text": "FACTURE N°2025-0142...",
    "tables": [{"headers":["Description","Qté","Prix HT"],"rows":[...]}]
  }],
  "cost_mb": 18.4
}

Performance

Benchmarks réels

Validés sous charge concurrente réelle.

Jobs concurrents testés

60+

Zéro crash, zéro timeout

Taux de succès (early stage)

88%

En amélioration constante

Latence moyenne

~3s

Stable sous charge continue

Cas d'usage typiques

Factures PDF

ERP, comptabilité

~€0.0016/doc

Contrats légaux

100+ pages

~€0.016/doc

Archives scannées

Historisation

€0.08/GB

3 GB gratuits · ~150 documents OCR

Extrait tes premiers
documents maintenant.

Inscription en 30 secondes. Aucune carte bancaire.

Créer un compte gratuit → Rejoindre le Discord

Extraction de documents.Distribuée à l'échelle.