데이터 가이드
타임스탬프 문맥에서 일관된 추출을 유지하고 그럴듯한 연관성을 검토하기 위한 운영 규칙입니다.
READING GUIDE
What you will find on this page
A quick overview of what 데이터 가이드 covers before you read in detail.
추출 원칙
- 명시적으로 적혀 있지 않은 사실을 추론하지 않습니다
- 원래 의도를 보존하면서 단위/시간/횟수를 정규화합니다
- 알 수 없는 값은 추정하지 않고 null로 유지합니다
- 인과관계는 확정이 아니라 검토할 연관성으로 다룹니다
- 시간 앵커(예: 14:00 배송)를 우선하고 인접 이벤트를 윈도우로 비교합니다
- 게시 전 date/day_number 일관성을 검증합니다
파이프라인
- 다이어리/아티클 마크다운 생성
- 텔레메트리 JSON으로 변환 (
convert_diary_to_json_telemetry_v2.py) - 의미 이벤트(행동, 환경, 개입)를 시간 앵커로 추출
- 전/후 윈도우(예: -30분~+60분)에서 이벤트를 비교해 연관성을 검토
- JSON을 원본 데이터로 저장 (
posts/telemetry/ja/telemetry_XXXX.json) - WP-Cron(01:30)으로 SQLite 일일 델타 동기화
- 대시보드/FAQ/고정 페이지에서 재사용
게시 품질 게이트
게시 자동화는 다음을 검증합니다.
- 제목/본문 길이/헤딩 수
- TODO/TBD 플레이스홀더 잔존
- 링크 형식의 유효성
- frontmatter.date와 telemetry.date 일관성
- 시간 앵커 추출 커버리지(시간 표기 누락)
- 각 검토 대상 연관성에 증거 조각이 연결되어 있는지
리포트는 logs/publish_quality_gate.jsonl에 저장됩니다.
시간 단위 인과 추론 (Beta)
시맨틱 매칭으로 일상 맥락과 반응을 검토 가능한 연관성으로 변환합니다.
예: “14:00에 활동 증가”만으로는 원인을 설명할 수 없습니다. 같은 날의 “14:00 배송”, “14:03 짖음”, “14:10 안정” 앵커를 연결해 검토할 체인을 만듭니다: 배송 자극 -> 각성 반응 -> 회복.
- Output 1: 후보 연관성 (trigger / reaction / recovery)
- Output 2: 근거 (원문 조각과 시간 차이)
- Output 3: 신뢰도 (high / medium / low)
- Output 4: 다음 수집 지시 (무엇을 추가 측정할지)