OCR — スキャンした PDF や画像をテキストに

スキャンした文書・写真・画像ベースの PDF から、端末上の OCR を使ってテキストを抜き出します。すべてブラウザ内でローカルに動作するため、文書はプライベートに保たれます。英語に対応しています。

100% ブラウザ内で処理ファイルはアップロードされません登録不要

ファイルはブラウザ内で処理され、お使いの端末から外に出ることはありません。

ツールを読み込み中…

使い方

  1. スキャンした PDF または画像(PNG/JPG)をアップロードします。
  2. 「テキストを抽出」をクリックします。初回実行時に認識エンジン(約 10 MB)がダウンロードされます。
  3. 各ページがお使いの端末上でローカルに読み取られます。
  4. テキストをコピーするか、.txt ファイルとしてダウンロードします。

よくあるご質問

OCR はブラウザ内で動作しますか。

はい。Tesseract(WebAssembly)を使い、すべてお使いの端末上で動作します。ファイルがアップロードされることはありません。

どの言語に対応していますか。

現在は英語に対応しています。エンジンは初回利用時に言語モデルをダウンロードし、その後はキャッシュします。

初回実行が遅いのはなぜですか。

認識エンジンと英語モデル(約 10 MB)が初回利用時に一度だけダウンロードされます。その後はずっと速くなります。