プロジェクト

全般

プロフィール

バグ #495

未完了

DOCXテキスト抽出機能実装

Redmine Admin さんが8日前に追加.

ステータス:
新規
優先度:
高め
担当者:
-
開始日:
2025-06-11
期日:
進捗率:

0%

予定工数:

説明

概要

レジュメ変換システムのDOCXテキスト抽出機能を実装します。Mammoth.jsを使用して、アップロードされたDOCX(Word)ファイルからテキストを抽出し、解析可能な形式に変換します。

作業内容

  1. Mammoth.js導入と設定

    • Mammoth.jsのインストール
    • 基本設定
    • 変換オプション設定
    • スタイル設定
  2. DOCXパース処理実装

    • DOCXファイル読み込み
    • ドキュメント構造解析
    • スタイル情報抽出
    • メタデータ抽出
  3. テキスト抽出処理実装

    • テキストコンテンツ抽出
    • フォーマット情報保持
    • 表・リスト構造の処理
    • 画像・図形の処理
  4. テキスト前処理実装

    • HTML形式からのテキスト抽出
    • 不要なタグ・属性の除去
    • セクション分割
    • レイアウト情報の正規化
  5. エラーハンドリング実装

    • パスワード保護DOCX対応
    • 破損ファイル対応
    • 複雑なフォーマット対応
    • 非標準要素対応

成果物

  • Mammoth.js設定モジュール
  • DOCXパース処理モジュール
  • テキスト抽出モジュール
  • テキスト前処理モジュール
  • エラーハンドリングモジュール

技術スタック

  • Mammoth.js
  • Node.js
  • TypeScript
  • Express.js

参照

  • 親チケット: #472(ファイルアップロード・テキスト抽出機能)
  • 関連チケット: #493(ファイルアップロード機能実装)
  • 関連チケット: #494(PDFテキスト抽出機能実装)

表示するデータがありません

他の形式にエクスポート: Atom PDF