
PDF データをテキスト化するなら Googleドキュメントが使える!
PDFはビジネスでよく使用するファイル形式で、どんな端末で開いても見え方が変わらないことが特徴です。そのため、情報を共有する際に最適なものとなっており、PDFデータを元に資料を作成するといった機会も多いのではないでしょうか。
GoogleドキュメントにはPDF等のファイルを自動でテキスト化してくれる機能があり、PDFデータを参照して資料を作成する場合も、直接テキストを打ち込むやり方よりも作業時間を短縮することができます。
そこで今回は、Googleドキュメントを用いてファイルをテキスト化する方法とその機能の活用術を紹介していきます。
PDFとは
今や当たり前のように使われているPDFですが、その詳しい特徴については知らない方も多いのではないでしょうか。
PDFは、「Portable Document Format(ポータブル ドキュメント フォーマット)」の略で平たく言えば電子の紙のことになります。データをプリントした場合と同じ体裁で見ることができ、指定のソフトでしか開くことができないファイル形式と違い、PDFは相手の端末に入っているソフトに関わらず、レイアウトを崩さずに共有できます。
PDFを受け取った場合、PDFリーダーと呼ばれるソフトで閲覧することができます。PDFリーダーで代表的なのは「Adobe Reader」で、無料で利用することができます。キーワードを使って中身の検索や署名を行うことも可能です。
PDFは行政の文章から機器の説明書、パンフレットなど、あらゆる場面で活用されています。電子メールなどで添付して相手に送るだけでなく、Web上で公開することも可能です。
Googleドキュメントとは
では次に、Googleドキュメントの特徴について紹介していきます。
Googleドキュメントは、Googleが提供しているクラウドサービス型の文章作成ソフトで、Googleアカウントがあれば使用することができます。全てブラウザ上で作業は完結し、無料で使うことができます。文字を作成するだけでなく、ファイルを複数人とリアルタイムで共有できるなど、様々な機能があります。
Googleドキュメントで作成したファイルはGoogleドライブという場所に保存されます。今回の作業ではGoogleドライブにPDFデータを保存してからGoogleドキュメントで開くという手順になります。
テキストはPDFから直接コピーできる?
PDFは元データがテキストであれば原則、直接コピーすることができます。しかし、資料をスキャンしてPDF化しているなど、元データが画像である場合、テキストをコピーできません。
また、元データがテキストであっても、保護されている場合はコピーできません。ただし、パスワードがわかる場合は保護を解除できます。
コピーできても正しく貼り付けできないことも
PDFのテキストをコピーして貼り付けを行うということができたとしても、テキストの文字コードが一般的でなかったり、テキストの順序や順番が正しくなかったりと少しでもおかしい箇所があると、正確に貼り付けることができない可能性があります。
また、コピー&ペーストした場合、どうしても貼り付け後の全体的なバランスが悪くなってしまいます。このように、コピー&ペーストという作業は一見簡単で手っ取り早い方法に思えますが、修正作業に時間がかかり、結果として手間が増えてしまう可能性があります。短い文であれば修正もすぐに終わるので問題はありませんが、長文の場合はPDFを直接コピーするやり方は非効率的です。
GoogleドキュメントでPDFデータをテキスト化する方法
ここからGoogleドキュメントを使ったPDFデータのテキスト化について説明していきます。
Googleドキュメントでテキスト化できるファイルにはいくつか条件があります。下記5つの条件を満たしているPDFでないとテキスト化はできないので注意してください。
・ファイルサイズは2MB以下
・テキストの解像度は10ピクセル以上
・正しい向きになっていること
・フォントや文字セットは、Arial またはTimes New Romanのような一般的なものであること
・画質は明るく、コントラストははっきりとしていて読み取りやすい状態である
実際にテキスト化してみよう
ではいよいよ、PDFデータのテキスト化を行っていきます。
まずはGoogleドライブにアクセスして、PDFファイルをアップロードしていきましょう。
ファイルのアップロードは、Googleドライブの左上にある「新規」または「マイドライブ」を選択すると行うことができます。
どちらかを選択したら次に「ファイルのアップロード」を選択します。
アップロードが完了したらファイルを右クリックし、「アプリで開く」を選択したら「Googleドキュメント」を開きます。
すると上記のようにGoogleドキュメントにPDFがテキスト化された状態で表示されます。PDFファイルに画像データがある場合は、画像も一緒に表示されます。
誤字脱字のチェックは必須
Googleドキュメントを使ったPDFデータのテキスト化は便利な機能ではありますが、完璧ではありません。誤字脱字がないか、間違った箇所で改行されていないかなど、元のデータと比べ調整を行う必要があります。PDFデータをGoogleドキュメントで開いたら確認するようにしましょう。
縦書きの場合は注意が必要
PDFデータのテキストが縦書きだった場合でも、横書きで表示されるので注意が必要です。また、PDFによっては文字配列が大きく変わってしまう場合があるので、縦書きをGoogleドキュメントでテキスト化するのはおすすめできません。
画像もテキスト化できる
GoogleドキュメントはOCR(光学文字認識)に対応しているため、PDFだけでなく、jpgなど元データが画像であっても、テキスト化することが可能です。
OCRとは画像内のテキストを読み取り、そのままテキスト化するというものです。そのため、書類をスキャンしたPDFでもテキスト化できます。
日本語以外のテキストにも対応
PDFデータのテキストは日本語以外に英語、中国語、韓国語など複数ヵ国に対応しています。Googleドキュメントは翻訳機能もあるので、海外の資料を使ったテキスト化も問題なく行うことができます。
簡単・無料で試してみる価値は大きい
Googleドキュメントはクラウドサービスのため、インストールを必要とせず、すぐに始めることができます。手順もGoogleドライブにPDFをアップロードしてそれをGoogleドキュメントで開くというものだけなので、ストレスを感じることなく使うことができるでしょう。
また、Googleドキュメント自体が複数の機能を搭載しているので、テキスト化したデータを共有したい、翻訳したいといった場合でも、すぐに次のアクションに移ることができます。
新しい生活様式の推奨などにより、ビジネスでも非接触の作業が取り入れられ、脱ハンコなどペーパーレス化が進められています。それにより、今後PDFを扱う機会は増えていくでしょう。
PDFを簡単にテキスト化する方法を知っておけば、作業の効率化が図れるだけでなく、手入力と比べて誤字脱字のリスクを抑えることができます。Googleドキュメントは無料で利用できるソフトなので、まずは試してみてはいかがでしょうか。
RANKING ランキング
- WEEKLY
- MONTHLY
UPDATE 更新情報
- ALL
- ARTICLE
- MOVIE
- FEATURE
- DOCUMENT