데이터 가이드

타임스탬프 문맥에서 일관된 추출을 유지하고 그럴듯한 연관성을 검토하기 위한 운영 규칙입니다.

READING GUIDE

What you will find on this page

A quick overview of what 데이터 가이드 covers before you read in detail.

Highlights from 4 key sections

추출 원칙

  • 명시적으로 적혀 있지 않은 사실을 추론하지 않습니다
  • 원래 의도를 보존하면서 단위/시간/횟수를 정규화합니다
  • 알 수 없는 값은 추정하지 않고 null로 유지합니다
  • 인과관계는 확정이 아니라 검토할 연관성으로 다룹니다
  • 시간 앵커(예: 14:00 배송)를 우선하고 인접 이벤트를 윈도우로 비교합니다
  • 게시 전 date/day_number 일관성을 검증합니다

파이프라인

  1. 다이어리/아티클 마크다운 생성
  2. 텔레메트리 JSON으로 변환 (convert_diary_to_json_telemetry_v2.py)
  3. 의미 이벤트(행동, 환경, 개입)를 시간 앵커로 추출
  4. 전/후 윈도우(예: -30분~+60분)에서 이벤트를 비교해 연관성을 검토
  5. JSON을 원본 데이터로 저장 (posts/telemetry/ja/telemetry_XXXX.json)
  6. WP-Cron(01:30)으로 SQLite 일일 델타 동기화
  7. 대시보드/FAQ/고정 페이지에서 재사용

게시 품질 게이트

게시 자동화는 다음을 검증합니다.

  • 제목/본문 길이/헤딩 수
  • TODO/TBD 플레이스홀더 잔존
  • 링크 형식의 유효성
  • frontmatter.date와 telemetry.date 일관성
  • 시간 앵커 추출 커버리지(시간 표기 누락)
  • 각 검토 대상 연관성에 증거 조각이 연결되어 있는지

리포트는 logs/publish_quality_gate.jsonl에 저장됩니다.

시간 단위 인과 추론 (Beta)

시맨틱 매칭으로 일상 맥락과 반응을 검토 가능한 연관성으로 변환합니다.

예: “14:00에 활동 증가”만으로는 원인을 설명할 수 없습니다. 같은 날의 “14:00 배송”, “14:03 짖음”, “14:10 안정” 앵커를 연결해 검토할 체인을 만듭니다: 배송 자극 -> 각성 반응 -> 회복.

  • Output 1: 후보 연관성 (trigger / reaction / recovery)
  • Output 2: 근거 (원문 조각과 시간 차이)
  • Output 3: 신뢰도 (high / medium / low)
  • Output 4: 다음 수집 지시 (무엇을 추가 측정할지)

이 연관성은 예측에서 다시 확인하고 트레이닝 가이드에서 실행으로 연결하세요.

관련 페이지