Source / Pipeline / Catalog — 세 영역으로 역할을 분리하고, Agent와의 대화로 데이터를 함께 만들어가는 플랫폼
기존 단일 플로우(스캔→제안→선택→추출)에서 3개 영역으로 재편. 사용자가 원하는 데이터를 Agent와 대화로 직접 만든다.
단일 플로우 기반. Source(DB 연결)를 등록하면 Agent가 자동으로 스캔 → 제안 → 사용자가 선택 → 추출 스케줄 등록.
RDS 연결뿐 아니라 파일 업로드까지 하나의 Source 개념으로 통합. Source 하위에 Dataset 목록을 관리.
| 타입 | 설명 | 업로드 방식 |
|---|---|---|
| RDS Connection | PostgreSQL, MySQL, MSSQL, Oracle, ClickHouse | 암호화된 크리덴셜 등록 |
| Cloud Warehouse | BigQuery, Snowflake, Redshift, Glue | 암호화된 크리덴셜 등록 |
| File (Dataset) | CSV, Parquet, JSON, Excel | S3 presigned URL 직접 업로드 (크기 제한 없음) |
채팅이 아님. Agent가 CM 초안을 자동 생성하면, 사용자가 피드백 텍스트를 입력해 수정을 요청하는 루프. Pipeline은 Source가 아닌 Dataset을 직접 참조하며, 참조하는 Dataset들은 모두 동일 Vendor여야 한다. Vendor는 label처럼 별도 관리된다.
customer_id / total_amount / order_count 기준 30일 집계 쿼리 생성. 샘플 2,847건 조회됨.
WHERE status != 'cancelled' 조건 적용. 샘플 7,203건 조회됨.
CM이 Production한 결과물이 쌓이는 공간. Marketplace를 통해 다른 팀이 공개한 Catalog를 구독할 수 있다.
| AS-IS | → | TO-BE | 비고 |
|---|---|---|---|
data_sources (RDS) | → | Source › RDS Connection | 유지 |
data_sources (Glue/Snowflake) | → | Source › Cloud Warehouse | 유지 |
dataset_proposals | → | Source › Dataset | Source 레이어로 이동 |
dataset_sync_schedules | → | Dataset › schedule | Dataset 갱신 시 연결된 Pipeline 자동 트리거 |
| 1 Source → N Proposals | → | 1 Pipeline = 1 Dataset (1:1). vendor는 Dataset에서 자동 상속 | |
| Scan Pipeline | → | Source 내 탐색 기능 | Source 레벨로 내려감 |
| Propose Pipeline (자동) | → | Pipeline 대화 | 사용자 주도 Agent 협업으로 대체 |
| Trial Pipeline | → | CM Preview | 대화 중 미리보기로 통합 |
| Extract Pipeline | → | CM 실행 (Cron) | CM 결과 → Catalog |
catalog_entries | → | Catalog | Marketplace 추가 (추후) |
| SSE Stream | → | Pipeline 대화 SSE | 대화 실시간 스트리밍 |