サポートされているドキュメントフォーマット
-
Excel スプレッドシート(
.xlsx,.xls)- 各ワークシートを HTML テーブルに変換します
- ワークシートはシート名の H2 見出しで区切られます
- セルの書式とデータ型を保持します
-
Word ドキュメント(
.docx,.doc,.odt,.rtf)- ドキュメント構造を保ちながらテキストコンテンツを抽出します
- 見出し、段落、リスト、表を保持します
- 基本的な書式とスタイルを保持します
-
PDF ドキュメント(
.pdf)- レイアウト情報とともにテキストコンテンツを抽出します
- セクションや段落を含むドキュメント構造を保持します
- テキストベースおよびスキャン PDF の両方に対応します(OCR 対応)
- 解析方法を制御するための
modeオプションをサポートします:fast(テキストのみ)、auto(必要に応じて OCR を行うテキスト、デフォルト)、ocr(OCR のみを使用) - 料金は1ページあたり1クレジットです。詳細は Pricing を参照してください。
PDF 解析モード
parsers オプションを使用します:
| Mode | Description |
|---|---|
auto | まず高速なテキストベースの抽出を試行し、必要に応じて OCR にフォールバックします。これがデフォルトです。 |
fast | テキストベースの解析のみ(埋め込みテキスト)。最速のオプションですが、スキャンされたページや画像が多いページからはテキストを抽出しません。 |
ocr | すべてのページで OCR による解析を強制します。スキャンされたドキュメントや、auto がページを誤って判定してしまう場合に使用します。 |
ドキュメント解析の使い方
例: Excel ファイルのスクレイピング
Node
例:Word ドキュメントのスクレイピング
Node

