PDF2Text
https://github.com/juu7g/Python-PDF2text?tab=readme-ov-file
日本語のPDFをテキストに変換できる
適当なPDFだと文字化けしている(パワポをPDFにしたようなファイルはNG?)
3/5 リーダーからディベートのサンプルPDFを受領し、出力したところ奇麗にテキスト化できている
movie2Text
AWS
Azure
GCP
クラウド系は従量課金のため、データ量次第
Claude 3
:利用規約を確認すると学習には使えない。
https://www.anthropic.com/legal/aup
無料版は入力トーンの制限のため長文は難しい
AWS Bedrock Claude 3 Sonnet v1(@バージニア北部)をお試し
上記のPDF2Textツールだと文字化けしたPDFを画像化して、情報をテキスト化
奇麗な画像のため、それなりに読み取れた
実行するたびに内容は変わるがそれなりに読み取ってくれる(段組みが苦手?)
段組み毎に実行