Schift PII Beta

GPT에 넣기 전에,
한국어 개인정보를 먼저 막습니다.

Claude, GPT, Gemini에 넣기 전에 민감한 내용을 먼저 줄이는 한국어 개인정보 보호 레이어입니다. 상담 기록과 법률 문서처럼 한국어 문맥이 긴 입력에서 주민번호, 계좌번호, 주소, 전화번호, 이메일을 먼저 가립니다.

아직 베타입니다. 그래서 넓게 약속하기보다, 실제로 자주 나오는 항목부터 안정적으로 보여주는 데 집중합니다.

상담 기록 콜센터 메모 병원 기록 법률 문서 고객 문의 AI 입력 전 문서 저장 전
베타 안내. 입력한 텍스트는 모델 학습 및 평가 데이터셋으로 사용될 수 있습니다. 민감한 운영 데이터는 입력하지 마세요. Cloud 배포는 로컬 벤치보다 늦을 수 있습니다.
0 / 8192 공개 데모 분당 30회 · API key 별도

예시 문장

여기에 결과가 표시됩니다.

Before / After

사람들이 AI에 그대로 넣는 한국어 상담 기록을 먼저 가립니다.

Raw input

김민수(990210-1234567)는
서울 강남구 테헤란로 521 12층에 거주합니다.
국민은행 123-45-678901 예금주 김민수,
[email protected]으로 연락했습니다.

Masked output

[이름]([주민등록번호])는
[주소]에 거주합니다.
[계좌번호] 예금주 [이름],
[이메일]로 연락했습니다.

기존 regex

주민번호처럼 정형 포맷은 잡지만, 한국 주소와 계좌 문맥은 자주 빠집니다.

일반 탐지 모델

한국어 주소, 이름, 계좌번호가 섞인 문장에서 놓치는 경우가 있습니다.

Schift

상담 기록과 법률 문서에서 자주 나오는 항목부터 먼저 가리도록 맞췄습니다.

Use in workflow

데모에서 끝나지 않고 실제 업무 흐름 앞단에 붙입니다.

원문을 AI 모델이나 문서 검색 시스템에 보내기 전에 한 번 줄이는 용도입니다. 민감한 내용이 들어간 상담 기록, 고객 문의, 법률 문서를 그대로 넘기지 않도록 앞에서 막습니다.

공개 데모는 낮은 한도로 열어두고, API key가 있으면 유저별 한도로 호출할 수 있습니다. 초기 운영 한도는 API key당 분당 120회, 일일 5,000회로 시작하고 서버비를 보며 조정합니다.

AI에 보내기 전

상담 기록을 GPT나 Claude에 넣기 전에 먼저 가립니다.

문서 검색에 넣기 전

검색용 문서 저장 전에 개인정보가 남지 않게 줄입니다.

업무 시스템에 붙일 때

API key가 있는 유저는 공개 데모보다 별도 한도로 호출할 수 있습니다.

API example

schift = Schift(api_key="sch_...")
masked = schift.mask(text)

response = client.responses.create(
    input=masked,
)

개발자는 이 흐름을 API key로 붙이고, 공개 데모와 별도 한도로 운영할 수 있습니다.

Image Beta

이미지 안의 개인정보도 베타로 엽니다.

주민번호가 찍힌 스캔본, 상담 캡처, 계약서 이미지처럼 텍스트 복사 전에 이미 위험한 파일을 먼저 줄이는 용도입니다. 텍스트 API와 같은 privacy layer로 관리하되, 이미지 원본은 더 보수적으로 다룹니다.

이미지 베타 문의

스캔 문서와 상담 캡처에서 OCR로 텍스트를 읽고 개인정보 영역을 가립니다.

초기 베타는 브라우저/로컬 처리 우선입니다. 원본 이미지를 서버에 보내지 않는 흐름부터 검증합니다.

API key 고객용 서버 처리량은 텍스트 API와 별도 버킷으로 운영합니다.

Strengths · Weaknesses

지금 데모에서 먼저 확인할 수 있는 항목입니다.

먼저 가리는 항목

카테고리 상태 예시
주민등록번호 우선 가림 상담 기록과 신청서에 그대로 남기 쉬운 직접 식별자를 먼저 처리합니다.
전화번호 우선 가림 010 번호와 +82 국제 표기처럼 자주 쓰는 연락처를 가립니다.
이메일 우선 가림 상담 기록, 계약 메일, 고객 문의에 남은 이메일 주소를 가립니다.
계좌번호 우선 가림 은행명과 함께 적힌 송금 계좌를 먼저 가립니다.
주소 베타 지원 도로명 주소처럼 문장 안에 들어간 주소를 계속 개선 중입니다.

확인하고 써야 하는 부분

  • 모든 개인정보를 100% 보장하지는 않음

    실제 운영에 붙일 때는 가지고 있는 샘플로 먼저 확인하는 것을 권장합니다.

  • 짧은 이름은 문맥을 봅니다

    이름만 단독으로 있을 때보다 “의뢰인 김민수”처럼 역할이 같이 있을 때 더 안정적입니다.

  • 긴 문장은 결과 확인이 필요합니다

    여러 사람이 한 문단에 섞인 상담 기록은 일부 항목이 남을 수 있습니다.

  • 날짜는 기본적으로 가리지 않습니다

    예약일, 상담일처럼 문서 이해에 필요한 경우가 많아 기본 대상에서 뺐습니다.

  • 이미지 결과는 OCR 품질 영향을 받습니다

    흐릿한 캡처나 기울어진 스캔은 먼저 텍스트를 잘 읽어야 정확히 가릴 수 있습니다.

못 잡은 케이스 / 잘못 잡은 케이스를 아래 폼으로 알려주시면 다음 학습 데이터에 반영합니다.

Feedback

이상하게 잡혔거나 못 잡은 케이스를 알려주세요.

위에서 한 번 마스킹을 실행한 뒤에 그 결과에 대해 코멘트를 남기실 수 있습니다. 후속 모델 개선에 직접 반영합니다.

먼저 위에서 마스킹을 한 번 실행해주세요.