AIテキスト校正の魔法

·tover0314·10 min read分で読めます

生の音声認識出力は雑然としています。句読点がなく、文法の問題があり、「えーと」「まあ」などのフィラーワードが含まれ、専門用語の大文字・小文字が正しくないことも多いです。これはどのSTTプロバイダーを使っても同じで、最高のプロバイダーでもクリーンアップが必要な出力を生成します。OpenTypelessのAI校正ステップが、この生の出力をすぐに使えるクリーンでプロフェッショナルなテキストに変換します。

AIテキスト校正とは?

AIテキスト校正とは、大規模言語モデル(LLM)を使って生の文字起こし出力をクリーンアップするプロセスです。あなたが口述するすべての文章を熟練した編集者がレビューするようなものです。文法の修正、句読点の追加、言い淀みの除去、テキストの自然なフォーマットを行います。従来の文法チェッカーとの大きな違いは、LLMが文脈と意図を理解するため、何を修正し何を残すかをインテリジェントに判断できる点です。

OpenTypelessでは、校正は文字起こしのたびに自動的に行われます。音声はまずSTTプロバイダーを通り、次に生のテキストが慎重に設計されたシステムプロンプトとともに選択したLLMに送信されます。LLMは元の意味を保ちながら表現を整えた校正済みテキストを返します。このプロセス全体でパイプラインに追加されるのはわずか200〜500ミリ秒で、実際にはほとんど気になりません。

パイプラインの仕組み

校正パイプラインは高速かつ信頼性が高くなるよう設計されています。STTプロバイダーが生のテキストを返した後、OpenTypelessは以下を含むプロンプトを構築します:生の文字起こし、カスタム辞書の用語(ある場合)、そしてテキストの校正方法に関するLLMへの指示です。プロンプトは意味の保持、トーンの維持、コードスニペット・URL・専門用語などのエッジケースの処理に最適化されています。

システムプロンプトはLLMに以下を指示します:文法と句読点の誤りを修正する、フィラーワードや言い淀みを除去する、固有名詞や専門用語を正しく大文字にする、話者の元のトーンと意図を維持する、コードや技術的な内容を発話通りに保持する、カスタム辞書の修正を適用する。このプロンプトは数千件の実際の文字起こしを通じて、最も一般的な発話パターンに対応できるよう改良されてきました。

Loading animation…

ビフォー・アフターの例

AI校正を理解する最良の方法は、実際の動作を見ることです。以下はOpenTypelessユーザーの実例で、生の音声から校正済みテキストへの変換を示しています。

生の音声文字起こしとAI校正後の出力の比較
生の文字起こしとAI校正後の出力 — 同じ意味で、格段にクリーンなテキスト

例1:技術的な議論

生テキスト:'so basically i think we should like implement the new feature using react server components and maybe add some caching you know and uh also we need to think about the database schema i guess'。校正後:'I think we should implement the new feature using React Server Components and add caching. We also need to consider the database schema.'。フィラーワードが除去され、大文字が正しくなり、テキストが自然に読めるようになっています。

例2:メールの下書き

生テキスト:'hey can you send me the report from last week i need it for the meeting tomorrow morning also let me know if the budget numbers have been updated thanks'。校正後:'Hey, can you send me the report from last week? I need it for tomorrow morning\'s meeting. Also, let me know if the budget numbers have been updated. Thanks!'。句読点が追加され、文が適切に区切られ、カジュアルなトーンが保たれています。

例3:コードレビューのコメント

生テキスト:'this function should probably use typescript generics instead of any types and we should add error handling for the api call also the variable name user data should be camel case'。校正後:'This function should use TypeScript generics instead of `any` types. We should add error handling for the API call. Also, the variable name `userData` should be camelCase.'。専門用語が正しくフォーマットされ、コード参照が適切にマークされています。

LLMプロバイダーの選び方

OpenTypelessはテキスト校正用に11のLLMプロバイダーをサポートしており、それぞれ速度・品質・コストのトレードオフが異なります。LLMの選択は、校正後の出力がどれだけ自然で正確に感じられるかに影響します。以下は最も人気のあるオプションの概要です。

LLMプロバイダー比較マトリクス:速度、品質、コストの評価
LLMプロバイダー比較:テキスト校正における速度、品質、コスト

速度重視:Groq

Groqはカスタム LPUハードウェア上でLlamaなどのオープンソースモデルを実行し、100ミリ秒未満でレスポンスを返します。1ミリ秒が重要な音声入力において、Groqは校正ステップを瞬時に感じさせます。品質も良好で、GPT-4oレベルには及びませんが、音声文字起こしのクリーンアップには十分です。レスポンスの速さを重視するユーザーにはGroqがデフォルトの推奨です。

品質重視:OpenAI GPT-4oまたはClaude

最も自然で人間らしい校正テキストを求めるなら、OpenAI GPT-4oとClaudeが最高の結果を出します。ニュアンス、トーンの保持、複雑な文の再構成を小型モデルよりも上手に処理します。トレードオフはやや高いレイテンシ(300〜800ミリ秒)と高いトークン単価です。品質が最も重要なプロフェッショナルな文章、メール、ドキュメントには最適な選択肢です。

コスト重視:DeepSeek

DeepSeekはOpenAIやClaudeのコストのほんの一部で優れた校正品質を提供します。特に技術的なコンテンツやコード関連のテキストに強いモデルです。1日に数千語を処理するヘビーな音声入力ユーザーにとって、DeepSeekの価格設定は品質をほとんど犠牲にせず最も経済的な選択肢です。

プライバシー重視:Ollama

Ollamaはローカルマシン上でLLMを完全に実行するため、データがコンピューターの外に出ることはありません。医療記録、法律文書、機密コードの議論など、センシティブなコンテンツに最適な究極のプライバシーオプションです。トレードオフとして、ローカルモデルはクラウドホスト型より遅く能力も劣りますが、基本的なテキストのクリーンアップには十分機能します。スムーズなパフォーマンスには、少なくとも8GBのRAMと適切なGPUを搭載したマシンが必要です。

カスタム辞書

カスタム辞書は、技術系ユーザーにとってOpenTypelessの最も強力な機能の一つです。辞書に用語を追加すると、LLMは校正時にそのスペルを正確に保持します。つまり「kubernetes」は「Kubernetes」に、「postgres」は「PostgreSQL」に、「nextjs」は「Next.js」になり、会社の製品名も常に正しく大文字で表記されます。辞書はすべてのLLMプロバイダーで機能し、技術的な文字起こしの精度を大幅に向上させます。