• PDF2Text

    • https://github.com/juu7g/Python-PDF2text?tab=readme-ov-file
    • 日本語のPDFをテキストに変換できる
    • 適当なPDFだと文字化けしている(パワポをPDFにしたようなファイルはNG?)
    • 3/5 リーダーからディベートのサンプルPDFを受領し、出力したところ奇麗にテキスト化できている
  • movie2Text

    • AWS
    • Azure
    • GCP
      • クラウド系は従量課金のため、データ量次第
  • Claude 3:利用規約を確認すると学習には使えない。

    • https://www.anthropic.com/legal/aup
    • 無料版は入力トーンの制限のため長文は難しい
    • AWS Bedrock Claude 3 Sonnet v1(@バージニア北部)をお試し
    • 上記のPDF2Textツールだと文字化けしたPDFを画像化して、情報をテキスト化

    ntt-nishida.png

    Untitled

    • 奇麗な画像のため、それなりに読み取れた

    Untitled

    • 実行するたびに内容は変わるがそれなりに読み取ってくれる(段組みが苦手?)

    • 段組み毎に実行

      LLM-option1.png

    Untitled