AI 텍스트 다듬기의 마법
원시 음성 인식 결과물은 지저분합니다. 구두점이 없고, 문법 오류가 있으며, '음', '그러니까' 같은 군더더기 표현이 포함되고, 전문 용어의 대소문자도 자주 틀립니다. 이는 어떤 STT 제공자를 사용하든 마찬가지입니다 — 최고 수준의 제공자라도 후처리가 필요한 결과물을 내놓습니다. OpenTypeless의 AI 다듬기 단계가 바로 이 원시 결과물을 깔끔하고 바로 사용할 수 있는 전문적인 텍스트로 변환해 줍니다.
AI 텍스트 다듬기란?
AI 텍스트 다듬기는 대규모 언어 모델(LLM)을 사용하여 원시 음성 인식 결과물을 정리하는 과정입니다. 숙련된 편집자가 여러분이 받아쓰기한 모든 문장을 검토하는 것과 같다고 생각하면 됩니다 — 문법을 교정하고, 구두점을 추가하고, 말버릇을 제거하고, 텍스트를 자연스럽게 다듬어 줍니다. 기존 문법 검사기와의 핵심적인 차이점은 LLM이 문맥과 의도를 이해하기 때문에 무엇을 수정하고 무엇을 유지할지 지능적으로 판단할 수 있다는 것입니다.
OpenTypeless에서는 모든 음성 인식 후 자동으로 다듬기가 진행됩니다. 음성이 먼저 STT 제공자를 거친 다음, 원시 텍스트가 정교하게 설계된 시스템 프롬프트와 함께 선택한 LLM으로 전송됩니다. LLM은 원래 의미를 보존하면서 표현을 깔끔하게 정리한 텍스트를 반환합니다. 전체 과정은 파이프라인에 200~500ms만 추가할 뿐이라 실제 사용 시 거의 느끼지 못합니다.
파이프라인 작동 방식
다듬기 파이프라인은 빠르고 안정적으로 설계되었습니다. STT 제공자가 원시 텍스트를 반환하면, OpenTypeless는 원시 음성 인식 결과, 사용자 사전 용어(있는 경우), 그리고 텍스트를 어떻게 다듬을지에 대한 LLM 지시사항을 포함하는 프롬프트를 구성합니다. 이 프롬프트는 의미를 보존하고, 어조를 유지하며, 코드 스니펫, URL, 전문 용어 같은 특수한 경우를 처리할 수 있도록 세밀하게 조정되어 있습니다.
시스템 프롬프트는 LLM에게 다음을 지시합니다: 문법 및 구두점 오류 수정, 군더더기 표현과 말 더듬기 제거, 고유 명사와 전문 용어의 올바른 대소문자 표기, 화자의 원래 어조와 의도 유지, 코드나 기술적 내용을 말한 그대로 보존, 그리고 사용자 사전 교정 적용. 이 프롬프트는 수천 건의 실제 음성 인식 데이터를 통해 가장 일반적인 발화 패턴을 처리할 수 있도록 개선되었습니다.
변환 전후 비교 예시
AI 다듬기를 이해하는 가장 좋은 방법은 실제 결과를 보는 것입니다. 다음은 OpenTypeless 사용자들의 실제 사례로, 원시 음성이 다듬어진 텍스트로 변환되는 과정을 보여줍니다.
예시 1: 기술 토론
원시: 'so basically i think we should like implement the new feature using react server components and maybe add some caching you know and uh also we need to think about the database schema i guess'. 다듬기 후: 'I think we should implement the new feature using React Server Components and add caching. We also need to consider the database schema.' 군더더기 표현이 사라지고, 대소문자가 올바르게 적용되었으며, 텍스트가 자연스럽게 읽힙니다.
예시 2: 이메일 초안
원시: 'hey can you send me the report from last week i need it for the meeting tomorrow morning also let me know if the budget numbers have been updated thanks'. 다듬기 후: 'Hey, can you send me the report from last week? I need it for tomorrow morning\'s meeting. Also, let me know if the budget numbers have been updated. Thanks!' 구두점이 추가되고, 문장이 적절히 구분되었으며, 캐주얼한 어조가 유지되었습니다.
예시 3: 코드 리뷰 코멘트
원시: 'this function should probably use typescript generics instead of any types and we should add error handling for the api call also the variable name user data should be camel case'. 다듬기 후: 'This function should use TypeScript generics instead of `any` types. We should add error handling for the API call. Also, the variable name `userData` should be camelCase.' 전문 용어가 올바르게 표기되고, 코드 참조가 적절히 표시되었습니다.
LLM 제공자 선택하기
OpenTypeless는 텍스트 다듬기를 위해 11개의 LLM 제공자를 지원하며, 각각 속도, 품질, 비용 간의 트레이드오프가 다릅니다. LLM 선택은 다듬어진 결과물이 얼마나 자연스럽고 정확하게 느껴지는지에 영향을 미칩니다. 가장 인기 있는 옵션들을 살펴보겠습니다.
속도 우선: Groq
Groq는 자체 LPU 하드웨어에서 Llama 같은 오픈소스 모델을 실행하여 100밀리초 이내에 응답을 제공합니다. 1밀리초가 중요한 음성 입력에서 Groq는 다듬기 단계를 거의 즉각적으로 느끼게 해줍니다. 품질도 우수합니다 — GPT-4o 수준에는 미치지 못하지만 음성 인식 결과물을 정리하기에는 충분합니다. Groq는 응답 속도를 중시하는 사용자에게 기본 추천 옵션입니다.
품질 우선: OpenAI GPT-4o 또는 Claude
가장 자연스럽고 사람이 쓴 것 같은 다듬기 결과를 원한다면, OpenAI GPT-4o와 Claude가 최고의 결과를 제공합니다. 이 모델들은 뉘앙스, 어조 보존, 복잡한 문장 재구성을 소형 모델보다 훨씬 잘 처리합니다. 트레이드오프는 약간 높은 지연 시간(300~800ms)과 토큰당 비용입니다. 전문적인 글쓰기, 이메일, 문서 등 품질이 가장 중요한 경우에 최적의 선택입니다.
비용 우선: DeepSeek
DeepSeek는 OpenAI나 Claude 비용의 일부만으로 뛰어난 다듬기 품질을 제공합니다. 특히 기술 콘텐츠와 코드 관련 텍스트에 강점이 있습니다. 하루에 수천 단어를 처리하는 헤비 음성 입력 사용자라면, DeepSeek의 가격 정책이 품질을 크게 희생하지 않으면서 가장 경제적인 선택이 됩니다.
프라이버시 우선: Ollama
Ollama는 LLM을 완전히 로컬 머신에서 실행합니다 — 데이터가 컴퓨터 밖으로 나가지 않습니다. 의료 기록, 법률 문서, 기밀 코드 논의 같은 민감한 콘텐츠에 이상적인 궁극의 프라이버시 옵션입니다. 트레이드오프는 로컬 모델이 클라우드 호스팅 모델보다 느리고 성능이 떨어진다는 점이지만, 기본적인 텍스트 정리에는 충분히 잘 작동합니다. 원활한 성능을 위해 최소 8GB RAM과 적절한 GPU가 필요합니다.
사용자 사전
사용자 사전은 기술 분야 사용자를 위한 OpenTypeless의 가장 강력한 기능 중 하나입니다. 사전에 용어를 추가하면, LLM이 다듬기 과정에서 해당 용어를 정확한 철자 그대로 보존합니다. 즉, 'kubernetes'는 'Kubernetes'로, 'postgres'는 'PostgreSQL'로, 'nextjs'는 'Next.js'로 변환되며, 회사 제품명도 항상 올바르게 표기됩니다. 사용자 사전은 모든 LLM 제공자에서 작동하며, 기술 관련 음성 인식의 정확도를 크게 향상시킵니다.