OCR · PDF · Extraction · DePIN

Extraction de documents.
Distribuée à l'échelle.

OCR et extraction PDF parallélisés sur des centaines de nodes.

Commencer gratuitement → Voir l'API
€0.0016par document PDF
~20 MBpar job OCR
100%parallélisable
3 GBgratuits/semaine
Le job type

Ce que fait ocr_pdf

Un seul type de job pour l'extraction depuis PDFs, images scannées et documents multi-formats.

📄
Extraction de texte complet
Extrait tout le contenu, page par page, avec structure sémantique préservée.
🖼️
OCR sur images scannées
Photos de documents, captures d'écran — extraction même sur fond bruité.
📊
Extraction de tableaux
Détecte et structure les tableaux PDF en JSON ou CSV directement utilisable.
🔢
Multi-pages
Centaines de pages distribuées en parallèle pour une latence minimale.
🌐
Multi-langues
Français, anglais, espagnol, allemand et 30+ langues.
🔒
Sandbox isolé
Aucun document stocké après traitement. Privacy by design.
Formats supportés

Input — ce que tu envoies

.pdfDocuments PDF natifs ou scannés
.pngImages haute résolution
.jpgPhotos de documents
.tiffArchives scannées
URLLien direct vers le document
base64Document encodé inline

Output — ce que tu reçois

textTexte brut avec sauts de ligne
jsonStructure page/bloc/ligne
markdownMise en forme préservée
tablesTableaux extraits en JSON/CSV
Architecture

Comment le job s'exécute

CPU-bound et embarrassingly parallel — idéal pour DePIN. Chaque page sur un node différent simultanément.

1

Soumission

Tu envoies le document (URL ou base64) avec les options de format via POST /jobs.

2

Découpage

Le document est découpé en chunks. Chaque chunk devient un sous-job indépendant.

3

Distribution parallèle

Les sous-jobs sont dispatched simultanément. Un PDF 100 pages = 100 jobs OCR en parallèle.

4

Validation multi-node

Chaque résultat est validé. En cas de divergence, re-route vers un node supplémentaire.

5

Agrégation & retour

Résultats réassemblés dans l'ordre et retournés via GET /jobs/ID/result.

Intégration

Extraction en 2 appels

bash
# Submit OCR job curl -X POST https://api.revolution-network.fr/api/enterprise/v1/jobs \ -H "x-api-key: YOUR_KEY" \ -d '{ "type": "ocr_pdf", "params": { "url": "https://example.com/invoice.pdf", "output_format": "json", "extract_tables": true, "language": "fr" } }' # Response → { "job_id": "jb_xyz789" } # Get result curl https://api.revolution-network.fr/api/enterprise/v1/jobs/jb_xyz789/result \ -H "x-api-key: YOUR_KEY" # Response: { "status": "done", "pages": [{ "page": 1, "text": "FACTURE N°2025-0142...", "tables": [{"headers":["Description","Qté","Prix HT"],"rows":[...]}] }], "cost_mb": 18.4 }
Performance

Benchmarks réels

Validés sous charge concurrente réelle.

Jobs concurrents testés
60+
Zéro crash, zéro timeout
Taux de succès (early stage)
88%
En amélioration constante
Latence moyenne
~3s
Stable sous charge continue
Cas d'usage typiques
Factures PDF
ERP, comptabilité
~€0.0016/doc
Contrats légaux
100+ pages
~€0.016/doc
Archives scannées
Historisation
€0.08/GB
3 GB gratuits · ~150 documents OCR

Extrait tes premiers
documents maintenant.

Inscription en 30 secondes. Aucune carte bancaire.