Formatos de documentos suportados
-
Planilhas do Excel (
.xlsx,.xls)- Cada planilha é convertida em uma tabela HTML
- As planilhas são separadas por títulos H2 com o nome da aba
- Preserva a formatação das células e os tipos de dados
-
Documentos do Word (
.docx,.doc,.odt,.rtf)- Extrai o conteúdo de texto preservando a estrutura do documento
- Mantém títulos, parágrafos, listas e tabelas
- Preserva formatação e estilos básicos
-
Documentos PDF (
.pdf)- Extrai o conteúdo de texto com informações de layout
- Preserva a estrutura do documento, incluindo seções e parágrafos
- Lida com PDFs baseados em texto e digitalizados (com suporte a OCR)
- Oferece a opção
modepara controlar a estratégia de parsing:fast(apenas texto),auto(texto com fallback de OCR, padrão) ouocr(forçar OCR) - Custa 1 crédito por página. Consulte a tabela de preços para detalhes.
Modos de processamento de PDF
parsers para controlar como os PDFs são processados:
| Modo | Descrição |
|---|---|
auto | Tenta primeiro uma extração rápida baseada em texto e, se necessário, recorre ao OCR. Este é o modo padrão. |
fast | Processamento apenas baseado em texto (texto embutido). É a opção mais rápida, mas não extrai texto de páginas digitalizadas ou com muitas imagens. |
ocr | Força o uso de OCR em todas as páginas. Use para documentos digitalizados ou quando auto classificar uma página incorretamente. |
Como usar a análise de documentos
Exemplo: Fazendo scraping de um arquivo Excel
Node
Exemplo: Extraindo um documento do Word
Node

