本ページはプロモーションが含まれています。

Googleドライブ/ドキュメントを使用して、無料で画像/PDFから文字を抽出する方法

Googleで無料OCR
https://www.google.com/intl/ja_ALL/drive/

画像ファイル上に表示されている文字は、通常、そのままでは選択やコピーすることができません。

画像上の文字をテキストデータとして使用したい場合、文字数が少なければ目視かつキーボードからの手入力で文字起こしすることも可能ではありますが、文字数や画像ファイル数が多ければ大変な作業となります。

このような場合、画像上の文字をテキストデータとして抽出することができれば、文字起こし作業の手間を省くことができます。また、テキストデータを抽出することによって、文字のコピー検索集計などにも使用できるようになり大変便利です。

実際に画像データから文字を抽出するには、高価なアプリも難しい操作も必要ありません。誰でも使用可能な「Googleドライブ」と「Googleドキュメント」を使用すれば、誰でも簡単に、かつ無料で、画像ファイルからテキストデータを抽出することができます。

目次

  1. 画像ファイルから文字を抽出する事前準備
  2. 文字抽出のためにどのような画像ファイルを用意すれば良いか
  3. 「Googleドライブ/ドキュメント」を使用して、画像ファイルから文字を抽出する方法
  4. 「Googleドライブ/ドキュメント」の文字抽出に関する注意事項
  5. 最後に

画像ファイルから文字を抽出する事前準備

本ページでご紹介する方法は、「Googleドライブ」と「Googleドキュメント」を使用します。以下の内容をご準備ください。

  • インターネットに接続可能なPC
    Windows / Mac など、パソコン上からWebブラウザにアクセス可能な環境をご用意ください。
  • Googleアカウント
    Googleドライブ」と「Googleドキュメント」を使用するため、「Googleアカウント」をご用意ください。

文字抽出のためにどのような画像ファイルを用意すれば良いか

GoogleのWebページ上には「おすすめの方法」として以下の記載があります。
以下の内容を満たしていなくても画像/PDFから文字を抽出することは可能ですが、以下の条件に近ければよりテキスト抽出の精度が上がります。

  • 形式
    PDF(マルチページ ドキュメント)または写真ファイル(.jpeg、.png、.gif)を変換できます。
  • ファイルサイズ
    ファイルは 2 MB 以下にします。
  • 解像度
    テキストの高さは 10 ピクセル以上にします。
  • 向き
    ドキュメントは正しい向きにします。画像の向きが正しくない場合は、回転させてから Google ドライブにアップロードします。
  • 言語
    Google ドライブはドキュメントの言語を検出します。対応する言語の説明の詳細
  • フォントと文字セット
    Arial や Times New Roman などの一般的なフォントを使用します。
  • 画質
    明るさが均一でコントラストがはっきりしたシャープな画像を使用します。

「Googleドライブ/ドキュメント」を使用して、画像ファイルから文字を抽出する方法

Googleドライブ」と「Googleドキュメント」を使用して、画像/PDFファイルから文字を抽出する方法は以下の手順となります。

  1. 「Googleドライブ」に画像/PDFファイルをアップロード
    「Googleドライブ」に文字を抽出したい画像/PDFファイルをアップロードします。
  2. 「Google ドキュメント」で開く
    アップロードした画像を右クリックし、表示されたメニューで「アプリで開く」>「Google ドキュメント」の順で選択します。
右クリック > アプリで開く > Google ドキュメント

Google ドキュメント」が開いた後、画像/PDFの下に抽出された文字が表示され、編集やコピーが可能となります。

「Googleドライブ/ドキュメント」の文字抽出に関する注意事項

Googleドライブ」と「Googleドキュメント」を使用すれば、上記の方法により画像/PDFファイルから文字を抽出することができます。テキスト抽出後は、コピー、編集、検索などが可能になるため大変便利です。

しかし、画像/PDFファイル上のテキストが単純に抽出されるため、画像/PDFファイル上に表示されているテキストのレイアウトは保持されません。

また、手書きの文字や背景が複雑な場合、正確にテキストが抽出されない場合があります。

このため、抽出されたテキストを再利用する場合は、必ず内容が正しいかチェックすることをお勧めします。

最後に

Googleドライブ」と「Googleドキュメント」を使用したテキスト抽出方法は、簡単かつ無料なので大変便利です。しかし、元となる画像/PDFファイルの状態によっては、正確にテキストが抽出されない場合もあります。

レイアウトの保持やより制度の高いテキスト抽出が必要な場合は、有料の「OCR」アプリなどを探してみてください。