Files
PaddleOCR/readme/README_ja.md
cuicheng01 4fa436ba4c update readme (#16861)
* update readme

* fix code-style for readme
2025-10-28 11:29:47 +08:00

50 KiB
Raw Permalink Blame History

🚀 概要

PaddleOCRは、その最先端のアルゴリズムと実世界での応用実績により、初回リリース以来、学術界、産業界、研究コミュニティから広く支持を得ています。Umi-OCR、OmniParser、MinerU、RAGFlowなどの人気オープンソースプロジェクトで既に採用されており、世界中の開発者にとって定番のOCRツールキットとなっています。

2025年5月20日、PaddlePaddleチームはPaddlePaddle 3.0フレームワークの公式リリースに完全対応したPaddleOCR 3.0を発表しました。このアップデートでは、テキスト認識精度がさらに向上し、複数テキストタイプの認識手書き文字認識がサポートされ、大規模モデルアプリケーションからの複雑なドキュメントの高精度解析に対する高まる需要に応えます。ERNIE 4.5と組み合わせることで、キー情報抽出の精度が大幅に向上します。完全な使用方法については、PaddleOCR 3.0 ドキュメント をご参照ください。

PaddleOCR 3.0の3つの主要な新機能

  • 全シーン対応テキスト認識モデル PP-OCRv5: 1つのモデルで5つの異なるテキストタイプと複雑な手書き文字を処理。全体の認識精度は前世代に比べて13パーセントポイント向上。オンラインデモ

  • 汎用ドキュメント解析ソリューション PP-StructureV3: 複数レイアウト、複数シーンのPDFの高精度解析を実現し、公開ベンチマークで多くのオープンソースおよびクローズドソースのソリューションを凌駕。オンラインデモ

  • インテリジェントドキュメント理解ソリューション PP-ChatOCRv4: ERNIE 4.5にネイティブで対応し、前世代よりも15パーセントポイント高い精度を達成。オンラインデモ

PaddleOCR 3.0は、優れたモデルライブラリを提供するだけでなく、モデルのトレーニング、推論、サービス展開をカバーする使いやすいツールも提供しており、開発者がAIアプリケーションを迅速に本番環境に導入できるよう支援します。

PaddleOCR Architecture

特別な注意PaddleOCR 3.x では、いくつかの重要なインターフェースの変更が導入されています。PaddleOCR 2.x を基に作成された古いコードは、PaddleOCR 3.x では動作しない可能性があります。ご利用中の PaddleOCR のバージョンに対応したドキュメントを参照していることを確認してください。このドキュメント では、アップグレードの理由と PaddleOCR 2.x から 3.x への主な変更点が説明されています。

📣 最近のアップデート

🔥🔥 2025.10.16PaddleOCR 3.3.0がリリースされ、内容は以下の通りです:

  • PaddleOCR-VL をリリース:

    • モデル紹介:

      • PaddleOCR-VLは、ドキュメント解析向けに特化した最先端SOTAかつリソース効率の高いモデルです。中核となるPaddleOCR-VL-0.9Bは、コンパクトながら強力なビジョン・ランゲージ・モデルVLMであり、NaViTスタイルの動的解像度ビジュアルエンコーダとERNIE-4.5-0.3B言語モデルを統合することで、正確な要素認識を実現しています。この革新的なモデルは109言語に対応し、複雑な要素テキスト、表、数式、チャートなどの認識に優れ、なおかつリソース消費を最小限に抑えています。広く使われている公開ベンチマークや社内ベンチマークでの包括的な評価を通じて、PaddleOCR-VLはページレベルのドキュメント解析や要素レベルの認識の両方でSOTA性能を達成しています。既存のソリューションを大きく上回り、トップクラスのVLMと比べても強力な競争力を発揮し、高速な推論速度も実現しています。これらの強みから、実際の現場への導入にも非常に適しています。本モデルはHuggingFaceで公開されており、どなたでもダウンロード・ご利用いただけます!
    • 主な特徴:

      • コンパクトで強力なVLMアーキテクチャリソース効率の高い推論のために特別に設計された新しいビジョン・ランゲージ・モデルを提供し、要素認識において優れたパフォーマンスを実現します。NaViTスタイルの動的高解像度ビジュアルエンコーダと軽量なERNIE-4.5-0.3B言語モデルを統合することで、認識能力とデコーディング効率を大幅に向上させました。この統合により、高精度を維持しつつ計算コストを削減し、効率的かつ実用的なドキュメント処理アプリケーションに最適です。
      • ドキュメント解析におけるSOTA性能PaddleOCR-VLは、ページレベルのドキュメント解析と要素レベルの認識の両方で最先端の性能を達成しています。既存のパイプライン型ソリューションを大幅に上回り、主要なビジョン・ランゲージ・モデルVLMと比べても強力な競争力を示しています。さらに、テキスト・表・数式・チャートなどの複雑なドキュメント要素の認識にも優れており、手書きテキストや歴史的文書を含む幅広いチャレンジングなコンテンツタイプにも対応できます。これにより、非常に汎用性が高く、さまざまなドキュメントタイプやシナリオに適しています。
      • 多言語対応PaddleOCR-VLは109言語に対応しており、主要な世界言語中国語・英語・日本語・ラテン語・韓国語などをはじめ、ロシア語キリル文字、アラビア語、ヒンディー語デーヴァナーガリー文字、タイ語など、さまざまな文字体系や構造の言語にも対応しています。この幅広い言語カバーは、多言語・グローバルなドキュメント処理シーンでの適用性を大きく高めています。
  • PP-OCRv5 多言語認識モデルをリリース:

    • ラテン文字認識の精度とカバレッジを向上し、キリル文字・アラビア語・デーヴァナーガリー文字・テルグ語・タミル語などの言語にも新たに対応。109言語の認識をカバーしています。モデルサイズはわずか2Mパラメータで、一部のモデルでは前世代比で精度が40%以上向上しています。

🔥🔥2025.08.21PaddleOCR 3.2.0 をリリース、内容は以下の通りです:

  • 主要モデルのアップデート:

    • 英語、タイ語、ギリシャ語向けPP-OCRv5認識モデルのトレーニング、推論、デプロイ機能を追加。英語モデルは英語シナリオで従来のPP-OCRv5対比で11%の精度向上、タイ語モデルの精度は82.68%、ギリシャ語モデルは89.28%を達成。
  • デプロイ機能の改善:

    • PaddlePaddle 3.1.0および3.1.1を完全サポート。
    • C++によるローカルデプロイソリューションを全面刷新、Linux・Windows両方に対応し、Python版と同等の機能・精度を実現。
    • 高性能推論に向けてCUDA 12をサポート、Paddle InferenceまたはONNX Runtimeバックエンドの選択が可能。
    • 高安定性サービス型デプロイソリューションをフルオープンソース化、ユーザー側でDockerイメージやSDKのカスタマイズが可能。
    • 高安定性サービス型デプロイは手動でのHTTPリクエスト呼び出しもサポート、クライアントは任意言語で実装可能。
  • ベンチマークサポート:

    • 全てのプロダクションパイプラインで詳細なベンチマーク機能を提供、エンドツーエンド推論時間やレイヤー・モジュール単位の実行時間を計測可能、性能分析に役立つ。こちらはベンチマーク機能の設定と使用方法です
    • ドキュメントには、主要なハードウェアプラットフォームでの代表的な設定値(推論時間、メモリ使用量等)を記載、ユーザーのデプロイ判断を支援。
  • バグ修正:

    • モデル学習時にログが保存されない問題を修正。
    • 数式モデルのデータ拡張部分をalbumentations新バージョンに適合、tokenizersのマルチプロセス利用時のデッドロック警告も解決。
    • PP-StructureV3の設定ファイルでuse_chart_parsing等のフラグ挙動が他プロダクションと一致しない問題を修正。
  • その他のアップデート:

    • 必須依存関係とオプション依存関係を分離、基本的な認識機能は最小限の依存関係で利用可能、文書解析や情報抽出等の追加機能はニーズに応じて追加インストール。
    • Windows環境でNVIDIA 50シリーズGPUをサポート、インストールガイドを参照しPaddleバージョン選択が可能。
    • PP-OCRシリーズモデルが各文字ごとの座標の返却に対応。
    • モデルダウンロード元としてAIStudio・ModelScope等を追加、選択指定が可能。
    • チャートからテーブルへの変換モジュールPP-Chart2Tableの推論もサポート。
    • 一部ドキュメントの説明を最適化し、利便性向上。

2025.08.15PaddleOCR 3.1.1 をリリース、内容は以下の通りです:

  • バグ修正:

    • PP-ChatOCRv4クラスに不足していたsave_vectorsave_visual_info_listload_vectorload_visual_info_listメソッドを追加。
    • PPDocTranslationクラスのtranslateメソッドに不足していたglossaryおよびllm_request_intervalパラメータを追加。
  • ドキュメント最適化:

    • MCPドキュメントにデモ例を追加。
    • 性能指標テストで使用したPaddlePaddleフレームワークとPaddleOCRバージョンを明記。
    • ドキュメント翻訳パイプラインの誤りや不足を修正。
  • その他:

    • MCPサーバーの依存関係を変更インストール問題を減らすためにpython-magicの代わりにpure Pythonライブラリのpuremagicを使用。
    • PaddleOCR 3.1.0バージョンでPP-OCRv5の性能指標を再テストし、ドキュメントを更新。

2025.06.29PaddleOCR 3.1.0 をリリース、内容は以下の通りです:

  • 主なモデルとパイプライン:

    • PP-OCRv5 多言語テキスト認識モデルを追加、フランス語、スペイン語、ポルトガル語、ロシア語、韓国語など 37 言語に対応。平均精度が 30%以上向上。 詳細
    • PP-StructureV3 の PP-Chart2Table モデルをアップグレードし、グラフから表への変換能力をさらに強化。社内カスタム評価セットでは、指標RMS-F19.36 ポイント向上71.24% → 80.60%)。
    • PP-StructureV3 および ERNIE 4.5 に基づくドキュメント翻訳パイプライン PP-DocTranslationを新たに追加。Markdown 形式ドキュメント、さまざまな複雑レイアウトの PDF ドキュメント、ドキュメント画像の翻訳に対応し、結果を Markdown 形式で保存可能。詳細
  • 新しい MCP サーバー:Details

    • OCR と PP-StructureV3 パイプラインの両方をサポートします。
    • ローカル Python ライブラリ、AIStudio コミュニティクラウドサービス、セルフホストサービスの3つの動作モードをサポートします。
    • stdio を介してローカルサービスを呼び出し、Streamable HTTP を介してリモートサービスを呼び出すことができます。
  • ドキュメント最適化: 一部のユーザーガイドの説明を改善し、よりスムーズな読書体験を提供。

更新履歴

🔥🔥2025.06.26: PaddleOCR 3.0.3のリリース、以下の内容を含みます:

  • バグ修正:enable_mkldnnパラメータが機能しない問題を修正し、CPUがデフォルトでMKL-DNN推論を使用する動作を復元しました。

🔥🔥2025.06.19: PaddleOCR 3.0.2のリリース、以下の内容を含みます:

  • 新機能:
    • デフォルトのダウンロード元がBOSからHuggingFaceに変更されました。ユーザーは環境変数 PADDLE_PDX_MODEL_SOURCEBOS に変更することで、モデルのダウンロード元をBaidu Object Storage (BOS)に戻すこともできます。
    • PP-OCRv5、PP-StructureV3、PP-ChatOCRv4などのパイプラインに、C++、Java、Go、C#、Node.js、PHPの6言語のサービス呼び出し例を追加しました。
    • PP-StructureV3パイプラインのレイアウト分割ソートアルゴリズムを改善し、複雑な縦書きレイアウトのソートロジックを強化して、より良い結果を提供します。
    • モデル選択ロジックを強化:言語が指定されているがモデルのバージョンが指定されていない場合、システムはその言語をサポートする最新のモデルバージョンを自動的に選択します。
    • MKL-DNNキャッシュサイズにデフォルトの上限を設定し、無制限の増加を防ぎます。同時に、ユーザーがキャッシュ容量を設定することも可能です。
    • 高性能推論のデフォルト設定を更新し、Paddle MKL-DNNアクセラレーションをサポートし、よりスマートな選択のための自動設定選択ロジックを最適化しました。
    • インストールされているPaddleフレームワークによる計算デバイスの実際のサポートを考慮するようにデフォルトデバイスの取得ロジックを調整し、プログラムの動作をより直感的にしました。
    • PP-OCRv5のAndroidサンプルを追加しました。詳細
  • バグ修正:
    • PP-StructureV3の一部のCLIパラメータが有効にならない問題を修正しました。
    • 特定のケースでexport_paddlex_config_to_yamlが正しく機能しない問題を解決しました。
    • save_pathの実際の動作とそのドキュメントの記述との間の不一致を修正しました。
    • 基本的なサービス展開でMKL-DNNを使用する際の潜在的なマルチスレッドエラーを修正しました。
    • Latex-OCRモデルの画像前処理におけるチャネル順序のエラーを修正しました。
    • テキスト認識モジュールで可視化画像を保存する際のチャネル順序のエラーを修正しました。
    • PP-StructureV3パイプラインで可視化されたテーブル結果のチャネル順序のエラーを解決しました。
    • PP-StructureV3パイプラインで非常に特殊な状況下でoverlap_ratioを計算する際のオーバーフロー問題を修正しました。
  • ドキュメントの改善:
    • ドキュメント内のenable_mkldnnパラメータの説明を更新し、プログラムの実際の動作を正確に反映するようにしました。
    • langおよびocr_versionパラメータに関するドキュメントのエラーを修正しました。
    • CLIを介してプロダクションライン設定ファイルをエクスポートする手順を追加しました。
    • PP-OCRv5のパフォーマンスデータテーブルで欠落していた列を修正しました。
    • さまざまな構成におけるPP-StructureV3のベンチマーク指標を洗練しました。
  • その他:
    • numpyやpandasなどの依存関係のバージョン制限を緩和し、Python 3.12のサポートを復元しました。

🔥🔥 2025.06.05: PaddleOCR 3.0.1のリリース、以下の内容を含みます:

  • 一部のモデルとモデル設定の最適化:

    • PP-OCRv5のデフォルトモデル設定を更新し、検出と認識の両方をmobileモデルからserverモデルに変更しました。ほとんどのシーンでのデフォルト性能を向上させるため、設定のlimit_side_lenパラメータを736から64に変更しました。
    • 新しいテキスト行方向分類モデルPP-LCNet_x1_0_textline_ori精度99.42%を追加しました。OCR、PP-StructureV3、およびPP-ChatOCRv4パイプラインのデフォルトのテキスト行方向分類器がこのモデルに更新されました。
    • テキスト行方向分類モデルPP-LCNet_x0_25_textline_oriを最適化し、精度が3.3パーセントポイント向上し、現在の精度は98.85%です。
  • バージョン3.0.0の一部の問題の最適化と修正、詳細

🔥🔥2025.05.20: PaddleOCR v3.0の公式リリース、以下の内容を含みます:

  • PP-OCRv5: あらゆるシーンに対応する高精度テキスト認識モデル - 画像/PDFから瞬時にテキストを抽出。

    1. 🌐 単一モデルで5つのテキストタイプをサポート - 簡体字中国語、繁体字中国語、簡体字中国語ピンイン、英語日本語をシームレスに処理。
    2. ✍️ 手書き文字認識の向上:複雑な草書体や非標準的な手書き文字の認識性能が大幅に向上。
    3. 🎯 PP-OCRv4に比べて13ポイントの精度向上を達成し、さまざまな実世界のシナリオで最先端の性能を実現。
  • PP-StructureV3: 汎用ドキュメント解析 実世界のシナリオで最先端の画像/PDF解析を解放

    1. 🧮 高精度な複数シーンPDF解析により、OmniDocBenchベンチマークでオープンソースおよびクローズドソースのソリューションをリード。
    2. 🧠 印鑑認識グラフからテーブルへの変換ネストされた数式/画像を含むテーブル認識縦書きテキスト文書の解析複雑なテーブル構造分析などの専門機能。
  • PP-ChatOCRv4: インテリジェントなドキュメント理解 画像/PDFからテキストだけでなく、キー情報を抽出。

    1. 🔥 PDF/PNG/JPGファイルからのキー情報抽出において、前世代に比べて15ポイントの精度向上
    2. 💻 ERNIE 4.5をネイティブサポートし、PaddleNLP、Ollama、vLLMなどを介した大規模モデルのデプロイメントとの互換性あり。
    3. 🤝 PP-DocBee2 と統合し、印刷テキスト、手書き文字、印鑑、テーブル、グラフなど、複雑な文書内の一般的な要素の抽出と理解をサポート。

更新履歴

クイックスタート

1. オンラインデモの実行

AI Studio AI Studio AI Studio

2. インストール

インストールガイド を参照してPaddlePaddleをインストールした後、PaddleOCRツールキットをインストールします。

# もし基本的なテキスト認識機能テキストの座標と内容を返すのみを利用したい場合PP-OCRシリーズを含む
python -m pip install paddleocr
# ドキュメント解析、ドキュメント理解、ドキュメント翻訳、キーワード抽出など、すべての機能を利用したい場合
# python -m pip install "paddleocr[all]"

バージョン3.2.0以降、上記の all 依存グループ以外にも、PaddleOCRは他の依存グループを指定することで一部のオプション機能のインストールもサポートしています。PaddleOCRが提供するすべての依存グループは以下の通りです

依存グループ名 対応する機能
doc-parser ドキュメントパース文書から表、数式、スタンプ、画像などのレイアウト要素を抽出するために使用できます。PP-StructureV3やPaddleOCR-VLなどのモデルが含まれています。
ie 情報抽出ドキュメントから名前、日付、住所、金額などの主要情報を抽出できます。PP-ChatOCRv4などのモデルが含まれます。
trans ドキュメント翻訳ドキュメントを他の言語に翻訳できます。PP-DocTranslationなどのモデルが含まれます。
all 全機能

3. CLIによる推論の実行

# PP-OCRv5の推論を実行
paddleocr ocr -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png --use_doc_orientation_classify False --use_doc_unwarping False --use_textline_orientation False  

# PP-StructureV3の推論を実行
paddleocr pp_structurev3 -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/pp_structure_v3_demo.png --use_doc_orientation_classify False --use_doc_unwarping False

# 最初にQianfan APIキーを取得し、その後PP-ChatOCRv4の推論を実行
paddleocr pp_chatocrv4_doc -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/vehicle_certificate-1.png -k 驾驶室准乘人数 --qianfan_api_key your_api_key --use_doc_orientation_classify False --use_doc_unwarping False 

# PaddleOCR-VLの推論を実行
paddleocr doc_parser -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/paddleocr_vl_demo.png

# "paddleocr ocr" の詳細情報を取得
paddleocr ocr --help

4. APIによる推論の実行

4.1 PP-OCRv5の例

# PaddleOCRインスタンスの初期化
from paddleocr import PaddleOCR
ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False)

# サンプル画像でOCR推論を実行
result = ocr.predict(
    input="https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")

# 結果を可視化し、JSON形式で保存
for res in result:
    res.print()
    res.save_to_img("output")
    res.save_to_json("output")
4.2 PP-StructureV3の例
from pathlib import Path
from paddleocr import PPStructureV3

pipeline = PPStructureV3(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False
)

# 画像の場合
output = pipeline.predict(
    input="https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/pp_structure_v3_demo.png",
)

# 結果を可視化し、JSON形式で保存
for res in output:
    res.print() 
    res.save_to_json(save_path="output") 
    res.save_to_markdown(save_path="output")           
4.3 PP-ChatOCRv4の例
from paddleocr import PPChatOCRv4Doc

chat_bot_config = {
    "module_name": "chat_bot",
    "model_name": "ernie-3.5-8k",
    "base_url": "https://qianfan.baidubce.com/v2",
    "api_type": "openai",
    "api_key": "api_key",  # your api_key
}

retriever_config = {
    "module_name": "retriever",
    "model_name": "embedding-v1",
    "base_url": "https://qianfan.baidubce.com/v2",
    "api_type": "qianfan",
    "api_key": "api_key",  # your api_key
}

pipeline = PPChatOCRv4Doc(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False
)

visual_predict_res = pipeline.visual_predict(
    input="https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/vehicle_certificate-1.png",
    use_common_ocr=True,
    use_seal_recognition=True,
    use_table_recognition=True,
)

mllm_predict_info = None
use_mllm = False
# マルチモーダル大規模モデルを使用する場合、ローカルmllmサービスを起動する必要があります。ドキュメントhttps://github.com/PaddlePaddle/PaddleX/blob/release/3.0/docs/pipeline_usage/tutorials/vlm_pipelines/doc_understanding.en.md を参照してデプロイを行い、mllm_chat_bot_config設定を更新してください。
if use_mllm:
    mllm_chat_bot_config = {
        "module_name": "chat_bot",
        "model_name": "PP-DocBee",
        "base_url": "http://127.0.0.1:8080/",  # your local mllm service url
        "api_type": "openai",
        "api_key": "api_key",  # your api_key
    }

    mllm_predict_res = pipeline.mllm_pred(
        input="https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/vehicle_certificate-1.png",
        key_list=["驾驶室准乘人数"],
        mllm_chat_bot_config=mllm_chat_bot_config,
    )
    mllm_predict_info = mllm_predict_res["mllm_res"]

visual_info_list = []
for res in visual_predict_res:
    visual_info_list.append(res["visual_info"])
    layout_parsing_result = res["layout_parsing_result"]

vector_info = pipeline.build_vector(
    visual_info_list, flag_save_bytes_vector=True, retriever_config=retriever_config
)
chat_result = pipeline.chat(
    key_list=["驾驶室准乘人数"],
    visual_info=visual_info_list,
    vector_info=vector_info,
    mllm_predict_info=mllm_predict_info,
    chat_bot_config=chat_bot_config,
    retriever_config=retriever_config,
)
print(chat_result)
4.4 PaddleOCR-VLの例
from paddleocr import PaddleOCRVL

pipeline = PaddleOCRVL()
output = pipeline.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/paddleocr_vl_demo.png")
for res in output:
    res.print()
    res.save_to_json(save_path="output")
    res.save_to_markdown(save_path="output")

🧩 その他の機能

  • モデルをONNX形式に変換ONNXモデルの取得
  • OpenVINO、ONNX Runtime、TensorRTなどのエンジンを使用して推論を高速化、またはONNX形式モデルで推論を実行高性能推論
  • 複数GPUおよび複数プロセスを使用して推論を高速化パイプラインの並列推論
  • C++、C#、Java などで書かれたアプリケーションに PaddleOCR を統合する: サービング

⛰️ 上級チュートリアル

🔄 実行結果のクイックレビュー

PP-OCRv5 Demo

PP-StructureV3 Demo

🌟 最新情報をお見逃しなく

このリポジトリにスターを付けて、強力なOCRやドキュメント解析機能を含む、エキサイティングなアップデートや新リリースに注目しましょう

Star-Project

👩‍👩‍👧‍👦 コミュニティ

PaddlePaddle WeChat公式アカウント 技術ディスカッショングループへの参加

😃 PaddleOCRを活用した素晴らしいプロジェクト

PaddleOCRは、その素晴らしいコミュニティなしでは今日の姿にはなりえませんでした💗長年のパートナー、新しい協力者、そしてPaddleOCRに情熱を注いでくださったすべての方々に心から感謝申し上げます。皆様のサポートが私たちの原動力です

プロジェクト名 概要
RAGFlow 詳細なドキュメント理解に基づくRAGエンジン。
pathway ストリーム処理、リアルタイム分析、LLMパイプラインおよびRAGのためのPython ETLフレームワーク
MinerU 複数タイプのドキュメントからMarkdownへの変換ツール
Umi-OCR 無料、オープンソースのバッチオフラインOCRソフトウェア。
cherry-studio 複数のLLMプロバイダーに対応したデスクトップクライアント
OmniParser OmniParser: 純粋なビジョンベースのGUIエージェントのための画面解析ツール。
QAnything あらゆるものに基づいた質疑応答。
PDF-Extract-Kit 複雑で多様なPDFドキュメントから高品質なコンテンツを効率的に抽出するために設計された強力なオープンソースツールキット。
Dango-Translator 画面上のテキストを認識し、翻訳して、リアルタイムで翻訳結果を表示します。
他のプロジェクトを見る PaddleOCRをベースにした他のプロジェクト

👩‍👩‍👧‍👦 貢献者

🌟 Star

Star History Chart

📄 ライセンス

このプロジェクトはApache 2.0 licenseの下で公開されています。

🎓 引用

@misc{cui2025paddleocr30technicalreport,
      title={PaddleOCR 3.0 Technical Report}, 
      author={Cheng Cui and Ting Sun and Manhui Lin and Tingquan Gao and Yubo Zhang and Jiaxuan Liu and Xueqing Wang and Zelun Zhang and Changda Zhou and Hongen Liu and Yue Zhang and Wenyu Lv and Kui Huang and Yichao Zhang and Jing Zhang and Jun Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
      year={2025},
      eprint={2507.05595},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2507.05595}, 
}

@misc{cui2025paddleocrvlboostingmultilingualdocument,
      title={PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model}, 
      author={Cheng Cui and Ting Sun and Suyin Liang and Tingquan Gao and Zelun Zhang and Jiaxuan Liu and Xueqing Wang and Changda Zhou and Hongen Liu and Manhui Lin and Yue Zhang and Yubo Zhang and Handong Zheng and Jing Zhang and Jun Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
      year={2025},
      eprint={2510.14528},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2510.14528}, 
}