PH PolyHarness

Research prototype

한국어 프롬프트를 영어로 바꾸면 토큰을 줄일 수 있을까?

PolyHarness는 한국어가 많은 채팅 입력을 로컬 번역 모델에서 영어 프롬프트로 바꾼 뒤, 메인 LLM에 전달하는 방식을 검증한 실험용 프록시입니다.

Research prototype

Can Korean prompts use fewer tokens if the main LLM sees English?

PolyHarness is an experimental proxy that translates Korean-heavy chat input into English before the main LLM call, then optionally returns the answer in Korean.

검증하려는 질문

사용자는 한국어로 대화하되, 메인 모델에는 영어 프롬프트를 보내면 입력 토큰을 줄일 수 있는지 확인했습니다.

Research Question

The test asks whether users can keep a Korean-facing experience while the main model receives a shorter English prompt.

1

한국어 요청이 들어옵니다

긴 한국어 질문이나 누적된 대화 내용이 API 프록시에 도착합니다.

Korean request enters the proxy

A long Korean prompt or accumulated chat context arrives at the API proxy.

2

로컬 번역 모델가 영어로 바꿉니다

작은 로컬 모델이 메인 LLM에 보낼 내용을 영어 프롬프트로 변환합니다.

A local translation layer rewrites it in English

A smaller local model prepares the English prompt that will be sent to the main LLM.

3

메인 모델은 영어 입력만 봅니다

메인 LLM은 영어 프롬프트에 답하고, 필요하면 최종 응답만 한국어로 다시 바꿉니다.

The main model sees English

The main LLM answers the English prompt, and the final response can be translated back to Korean.

벤치마크 결과

2026년 6월 8일, 같은 의미의 한국어/영어 프롬프트 20쌍을 Ollama에서 비교했습니다. 각 프롬프트는 1회, 3회, 6회 반복한 형태로 테스트했습니다.

Recorded Benchmark Result

On June 8, 2026, the Ollama benchmark ran 20 Korean/English prompt pairs at repeat levels 1, 3, and 6.

전체 호출 Raw calls 120
한국어/영어 비교 Paired comparisons 60
평균 프롬프트 토큰 절감 Average prompt-token reduction 11.4%
평균 총 토큰 절감 Average total-token reduction 7.33%
총 토큰 절감은 답변 길이에 따라 달라질 수 있습니다. 이 실험에서 더 안정적으로 본 지표는 메인 LLM에 들어가는 프롬프트 토큰 수입니다. 자세한 결과는 벤치마크 요약에서 확인할 수 있습니다.
Total-token savings can move with answer length. The more stable measurement in this experiment is the prompt-token count sent to the main LLM.

결과를 해석할 때 주의할 점

What This Result Does And Does Not Say

확인된 내용

  • 이 모델과 데이터셋에서는 영어 프롬프트가 한국어 프롬프트보다 메인 LLM 입력 토큰을 적게 썼습니다.
  • 사용자는 한국어로 대화하고, 메인 모델에는 영어 입력을 보내는 구조를 로컬에서 검증했습니다.
  • mock 모드로 API 흐름을 키 없이 재현할 수 있습니다.

Supported claim

  • For this model and dataset, English prompts used fewer main-LLM input tokens than Korean prompts.
  • The proxy flow can keep a Korean-facing experience while sending English to the main model.
  • The API proxy path can be reproduced locally in mock mode without keys.

주의해서 봐야 할 점

  • 모든 한국어 요청에서 비용이 줄어든다고 볼 수는 없습니다.
  • 다른 모델이나 데이터셋에서도 같은 비율이 나온다고 보기는 어렵습니다.
  • 이 프록시는 운영용 서비스가 아닙니다.

Unsupported claim

  • This does not prove cost savings for every Korean request.
  • It does not predict the same ratio for other models or datasets.
  • This proxy is not production-ready infrastructure.

로컬에서 재현하기

가장 빠른 확인은 mock 모드입니다. API 키와 Ollama가 없어도 프록시 흐름을 볼 수 있습니다.

Reproduce Locally

The quickest check is mock mode. It verifies the proxy path without an API key or Ollama.

python3 -m venv .venv
.venv/bin/python -m pip install -r proxy/requirements.txt

POLYHARNESS_TRANSLATION_MODE=mock \
POLYHARNESS_REMOTE_LLM=mock \
.venv/bin/python -m uvicorn proxy.main:app --host 127.0.0.1 --port 8000

.venv/bin/python test_proxy.py