Passer au contenu principal

Documentation Index

Fetch the complete documentation index at: https://firecrawl-docs-improve-developers-mcp-value-props.mintlify.app/llms.txt

Use this file to discover all available pages before exploring further.

Firecrawl offre de puissantes fonctionnalités d’analyse de documents, vous permettant d’extraire du contenu structuré à partir de divers formats. Cette fonctionnalité est particulièrement utile pour traiter des fichiers comme des feuilles de calcul, des documents Word, et plus encore.

Formats de documents pris en charge

Firecrawl prend actuellement en charge les formats de documents suivants :
  • Feuilles de calcul Excel (.xlsx, .xls)
    • Chaque feuille est convertie en tableau HTML
    • Les feuilles sont séparées par des titres H2 portant le nom de la feuille
    • Préserve le formatage des cellules et les types de données
  • Documents Word (.docx, .doc, .odt, .rtf)
    • Extrait le contenu textuel tout en préservant la structure du document
    • Conserve les titres, paragraphes, listes et tableaux
    • Préserve le formatage et le style de base
  • Documents PDF (.pdf)
    • Extrait le contenu textuel avec les informations de mise en page
    • Préserve la structure du document, y compris les sections et les paragraphes
    • Prend en charge les PDF textuels et les PDF scannés (avec OCR)
    • Prend en charge l’option mode pour contrôler la stratégie d’analyse : fast (texte uniquement), auto (texte avec recours à l’OCR en cas d’échec, par défaut) ou ocr (forcer l’OCR)
    • Facturé 1 crédit par page. Voir la tarification pour plus de détails.

Modes d’analyse PDF

Utilisez l’option parsers pour contrôler le traitement des PDF :
ModeDescription
autoTente d’abord une extraction rapide basée sur le texte, puis bascule sur l’OCR si nécessaire. C’est l’option par défaut.
fastAnalyse basée uniquement sur le texte (texte intégré). Option la plus rapide, mais n’extrait pas le texte des pages scannées ou contenant beaucoup d’images.
ocrForce l’analyse OCR sur chaque page. À utiliser pour les documents scannés ou lorsque auto se trompe dans la classification d’une page.
// Syntaxe objet avec mode
parsers: [{ type: "pdf", mode: "ocr", maxPages: 20 }]

// Par défaut (mode auto)
parsers: [{ type: "pdf" }]

Comment utiliser l’analyse de documents

L’analyse de documents dans Firecrawl fonctionne de deux façons :
  1. Analyse à partir d’une URL (/v2/scrape) : fournissez une URL pointant vers un type de document pris en charge.
  2. Analyse par téléversement de fichier (/v2/parse) : téléversez directement le contenu binaire du fichier avec multipart/form-data.
Pour l’analyse à partir d’une URL, Firecrawl détecte automatiquement le type de fichier à partir de l’extension ou du type de contenu.

Importer des documents avec /v2/parse

Utilisez /v2/parse lorsque le document source est local ou n’est pas accessible publiquement via une URL.
curl -X POST "https://api.firecrawl.dev/v2/parse" \
  -H "Authorization: Bearer fc-YOUR-API-KEY" \
  -F 'options={"formats":["markdown"]}' \
  -F "file=@./document.docx;type=application/vnd.openxmlformats-officedocument.wordprocessingml.document"

Exemple : extraction d’un fichier Excel

Node
import Firecrawl from '@mendable/firecrawl-js';

const firecrawl = new Firecrawl({ apiKey: "fc-VOTRE-CLE-API" });

const doc = await firecrawl.scrape('https://example.com/data.xlsx');

console.log(doc.markdown);

Exemple : Scraper un document Word

Node
import Firecrawl from '@mendable/firecrawl-js';

const firecrawl = new Firecrawl({ apiKey: "fc-VOTRE-CLE-API" });

const doc = await firecrawl.scrape('https://example.com/data.docx');

console.log(doc.markdown);

Format de sortie

Tous les types de documents pris en charge sont convertis en Markdown propre et structuré. Par exemple, un fichier Excel comportant plusieurs feuilles peut être converti en :
## Feuille1

| Nom   | Valeur |
|-------|--------|
| Élément 1 | 100   |
| Élément 2 | 200   |

## Feuille2

| Date       | Description  |
|------------|--------------|
| 2023-01-01 | Premier trimestre|
Êtes-vous un agent IA ayant besoin d’une clé API Firecrawl ? Consultez firecrawl.dev/agent-onboarding/SKILL.md pour obtenir des instructions d’intégration automatisée.