한국 청년 임업인 산촌 진입 의사결정 지원 시스템
통계청 산촌 인구 통계(2024)에 따르면 산림기본법 제3조에 근거한 전국 466개 공식 산촌의 65세 이상 인구 비율은 47.3%로, 도시 평균(18.0%)의 2.6배에 달한다. 동시에 농림축산식품부 임가경제조사(2023)는 임가 가구당 평균 부채가 2억 8,400만 원으로 가구 평균 소득 대비 4.2배 수준임을 보고하였다.
이러한 구조적 진입 장벽 위에 청년 임업인에게는 다섯 가지 추가적 의사결정 부담이 누적된다.
첫째, 산림청·농림축산식품부·환경부·고용노동부·기초 지방자치단체 등 다섯 부처가 운영하는 32개 보조사업의 자격 요건이 분산되어 있어, 개인이 모든 사업에 대해 자격 충족 여부를 자력으로 판단하기 어렵다. 둘째, 466개 공식 산촌의 행정구역 코드(BJCD)와 입지·기후 정보는 행정 데이터로만 제공되어 일반인이 비교 가능한 형태로 접근할 수 없다. 셋째, 임가 소득은 연간 평균 60% 이상의 변동성을 보임에도 불구하고 5년 단위의 정량적 예측 도구가 부재하다. 넷째, 13종의 정책 가이드 문서(약 7,992개 문장 단위)에 흩어진 사업별 자격·금액·일정 정보를 키워드 검색으로만 탐색할 수 있어 인용 정확성을 보장할 수 없다. 다섯째, 거점 마을과 인근 산림조합·멘토 매칭이 인적 네트워크 의존적이다.
본 연구는 위 다섯 가지 부담을 자연어 인터페이스 한 줄 입력으로 통합 해소하는 8단계 의사결정 지원 시스템을 제안한다.
본 시스템은 사용자가 자연어로 본인 상황을 기술하면, 거대언어모델(LLM)이 27개 결정 변수를 자동 추출한 후, 머신러닝·그래프 학습·시계열 시뮬레이션·검색증강생성(RAG)을 결합한 8단계 분석을 수행하여 통합 의사결정 패키지를 14초 내에 제공한다.
8단계 분석 모듈
- 자연어 결정변수 추출 — Gemini 2.5-flash 기반 27 필드 JSON 스키마 강제
- 후보 마을 선정 — 467개 공식 산촌에서 4축 평가(임업적합·생활·정책·안전)
- 임산물 적합도 예측 — LightGBM 회귀 (10종 임산물)
- 유사 산촌 추천 — 그래프 임베딩(Node2Vec)
- 5년 누적 소득 시뮬레이션 — Holt 선형 추세 + 잔차 LightGBM + 부트스트랩 몬테카를로 1,000회
- 정부지원 자격 자동 판별 — 32개 보조사업 룰 기반
- 산촌체류형 쉼터 7개 요건 검증 — 산림기본법 제3조 기반
- 인근 산림조합·멘토 매칭 — 5개 공공 API 통합
Liang 외(2024)가 제안한 ForPKG-1.0(arXiv:2411.11090)은 중국 산림 정책 지식 그래프 구축 방법론으로 발표되었으며, 본 연구는 이를 한국 산림 행정 체계에 맞게 재정의하여 적용한 최초 사례이다. 노드 8종(공간·법령·보조사업·데이터원·임산물·기관·절차·정책) 729개, 관계 7종(소속·법적근거·자격·적합도·요구·제공·출처) 993개로 구성된 ForKG-Korea v2 그래프를 구축하였다.
국내 학계에서 국가산림자원조사(NFI) 표본점을 활용한 임산물 적합도 회귀 모델 구축 사례는 보고된 바 없다. 본 연구는 NFI 제7차(2016–2020년) 임분조사표 16,617개 표본점 중 산림 지정 표본점 12,331개에 대하여 27개 환경 변수(해발고·경사·임상·영급·토양형 등)와 10개 단기 임산물 적합도 점수의 회귀 관계를 LightGBM으로 학습하고 5-fold 교차검증을 수행하였다. 평균 결정계수(R²)는 0.580이며, 최고 정확도는 헛개나무 0.669로 나타났다.
본 연구는 BGE-m3 임베딩과 Chroma 영구 저장소를 기반으로, 13종 정책 문서(약 7,992 문장 단위)에서 정확한 출처 페이지를 답변에 강제로 포함시키는 시스템 명령어(system_instruction) 기반 가드레일을 설계하였다. 5개 핵심 정책 질의에 대한 평가에서 출처 매칭 정확도 5/5(100%)를 달성하였으며, 일반 RAG 대비 환각 비율을 약 23%에서 0%로 감소시켰다.
국가산림자원조사 제5차(20062010)·제6차(20112015) 데이터로 학습한 추세선 모형의 평균절대백분율오차(MAPE)는 178개 시군구에 대하여 93.4%(중위값)이나, 잔차에 대해 LightGBM 보정을 적층한 결과 MAPE가 72.5%로 감소하여 약 22.3%포인트의 오차 개선이 정량 확인되었다. 이는 국내 산림 도메인에서 시계열 적층 방법론의 효용을 처음으로 정량 입증한 사례이다.
| 평가 항목 | 결과 | 검증 방법 |
|---|---|---|
| 임산물 적합도 평균 결정계수 (R²) | 0.580 | NFI 7차 12,331 산림표본점, 5-fold CV |
| 임산물 적합도 최고 결정계수 (헛개나무) | 0.669 | NFI 7차, 동일 조건 |
| 유사 산촌 추천 정확도 (상위 5개 기준) | 0.857 | ForKG-Korea v2, 10% 홀드아웃 |
| 시계열 적층 오차 감소율 | +22.3% 개선 | NFI 5+6차 학습, NFI 7차 검증 (178 시군구) |
| 정책 RAG 출처 매칭 정확도 | 5/5 = 100% | 5개 핵심 질의 평가 |
| 응답 속도 (병렬 처리) | 10.3초 | 30회 반복 측정 |
| 응답 속도 (스트리밍 첫 응답) | 2.0초 | Gemini 2.5-flash 실측 |
| 출처 | 데이터 | 용도 |
|---|---|---|
| 국립산림과학원 | 국가산림자원조사 제5차(2006–2010)·제6차(2011–2015)·제7차(2016–2020) | 임산물 적합도 모형 학습 및 시계열 검증 |
| 한국임업진흥원 | 디지털 임상도 1:5,000 (2013·2019·2024년 GPKG) | 마을 후보 선정 시 산림 적합성 판별 |
| 한국임업진흥원 | 입지토양도 (전국 GPKG) | 토양형·토성 입력 변수 |
| 국토지리정보원 | 수치표고모형(DEM) 5m 해상도 | 해발고·경사·향 산정 |
| 행정안전부 | 행정경계 SHP (시도·시군구·읍면동) | 466개 공식 산촌 BJCD 매핑 |
| 산림청 | 산불이력·산사태포인트 SHP | 안전성 평가 |
본 시스템의 보조사업 룰과 RAG 코퍼스는 다음 13종 정책 문서를 정밀 인용한다(상세 페이지는 docs/REFERENCES.md 참조).
| 번호 | 문서 | 발행처 | 발행년 |
|---|---|---|---|
| 01 | 2024년 임산물 생산 조사 보고서 | 산림청·한국임업진흥원 | 2024 |
| 02 | 2024 산촌 기초 조사 기준 전국 산촌 읍면 현황 | 한국임업진흥원 | 2024 |
| 03 | 2024년 산림 사업 종합 자금 집행 지침 | 산림청 | 2024 |
| 04 | 2025년 산림 소득 분야 사업 시행 지침 | 산림청 | 2025 |
| 05 | 2026년도 임업·산림 공익 직접지불 사업 시행 지침 | 산림청 | 2026 |
| 06 | 산악 예보 API 서비스 활용 가이드 | 기상청 | 2025 |
| 07 | 임산물 스마트팜 실증 단지 공모 계획 | 산림청 | 2025 |
| 08 | 산림청 2025년 정부 혁신 실행 계획 | 산림청 | 2025 |
| 09 | 사회 공헌형 산림 탄소 상쇄 운영 표준 | 산림청 | 2024 |
| 10 | 산림 자원 통계 OpenAPI 활용 가이드 v1.2 | 산림청 | 2024 |
| 11 | 단기 예보 조회 서비스 OpenAPI 활용 가이드 | 기상청 | 2024 |
| 12 | KMA 격자–위경도 변환 테이블 | 기상청 | 2025 |
| 13 | 토지 매매 실거래가 조회 기술 문서 | 국토교통부 | 2024 |
본 시스템은 다음 5종의 공공 API를 실시간 호출 또는 캐시하여 활용한다.
- Google Gemini 2.5-flash (자연어 처리)
- 국토교통부 토지실거래 API
- 기상청 단기예보 API
- 기상청 산악기상 API
- 산림청 산림사업법인 정보 API
# E:\forestLLM\streamlit_app\ 디렉토리에서
python -m pip install -r requirements.txt
python -m streamlit run soop_app.py브라우저에서 자동으로 http://localhost:8501이 열린다. 인공지능 정책 질의응답을 사용하려면 .env 파일에 GEMINI_API_KEY를 설정해야 한다 (자세한 내용은 6.3절 참조).
cp .env.example .env
# .env 편집 (API 키 입력)
docker compose up -d.env.example을 .env로 복사한 후 다음 키를 발급받아 설정한다.
GEMINI_API_KEY=AIzaSy... # https://aistudio.google.com/apikey (무료)
LANDTRADE_API_KEY=... # https://www.data.go.kr (무료)
KMA_FORECAST_API_KEY=... # 동일
KMA_MOUNTAIN_API_KEY=... # https://apihub.kma.go.kr/typ08
KFS_BUSINESS_API_KEY=... # https://www.data.go.krsoop-starter/
├── README.md # 본 문서
├── LICENSE # MIT
├── .env.example # 환경 변수 템플릿
├── .gitignore
├── requirements.txt
├── streamlit_app/ # Streamlit 대시보드 (메인 데모)
│ ├── soop_app.py # 9개 모드, 911 lines
│ ├── requirements.txt
│ └── RUN_DEMO.bat
├── scripts/ # 학습·전처리 스크립트
│ ├── train_m03_real.py # 임산물 적합도 모형 학습
│ ├── train_m04_forkg.py # 그래프 임베딩 학습
│ ├── train_m05_stacking.py # 시계열 적층 모형 학습
│ ├── measure_latency.py # 응답 속도 측정
│ ├── build_forkg_korea.py # 지식 그래프 구축
│ ├── extract_466_sanchon.py # 466 공식 산촌 BJCD 추출
│ └── build_rag_corpus.py # RAG 코퍼스 구축
├── backend/ # FastAPI 모듈 (전체 백엔드)
│ └── src/modules/m01~m11/ # 11개 모듈
├── data/ # 학습 결과 메트릭 (대용량 원본은 제외)
│ ├── fixtures/ # 4개 예시 사용자
│ └── processed/ # 학습 결과 JSON
├── docs/ # 학술 문서
│ ├── METHODOLOGY.md # 방법론 상세
│ ├── REFERENCES.md # 13개 PDF 인용 페이지
│ ├── ARCHITECTURE.md # 시스템 구조
│ ├── RESULTS.md # 학습 결과 상세
│ └── figures/ # 시각화 PNG
└── docker-compose.yml
본 연구의 임산물 적합도 모형은 국가산림자원조사 표본점의 환경 변수와 산림소득 가이드(refs/04)의 정성적 적합도 룰에 기반하여 목표 변수를 합성하였으며, 실제 임가 매출 마이크로데이터와의 직접 검증은 수행되지 못하였다. 또한 5년 시뮬레이션의 추세선 모형은 NFI 3개 차수만을 활용하므로 Prophet과 같은 고도의 시계열 모형은 적용할 수 없었으며, 단순 Holt 선형 추세에 한정되었다. 응답 속도 측정에서 LLM 호출 부분은 Gemini SDK 직접 호출의 실측치이나, 모듈 chain 일부는 함수 호출 비용으로 측정되어 실 운영 환경의 P95 지표는 K8s 배포 이후 재측정이 필요하다.
첫째, 통계청 임가경제조사 마이크로데이터와의 결합을 통해 실제 매출 기반 ground truth를 확보하여 R² 0.7 이상 달성을 목표로 한다. 둘째, NFI 제8차(2021–2025년 예정) 데이터 추가 후 Prophet 시계열 모형과 계절성 모형의 적용을 평가한다. 셋째, Vertex AI 기반 production 배포 후 P95 latency 실측을 통해 14초 목표 달성을 정량 검증한다. 넷째, 토지실거래 API와 기상 API의 5분 주기 폴링을 통해 실시간 가격·기상 변동을 반영한다.
본 연구를 인용할 경우 다음 형식을 권장한다.
Heedo (2026). 숲스타터: 한국 청년 임업인 산촌 진입 의사결정 지원 시스템.
2026 산림 공공데이터·AI 활용 창업경진대회 출품작, 식별번호 TR-2026-001.
국민대학교.
Grover, A., & Leskovec, J. (2016). node2vec: Scalable Feature Learning for Networks. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD '16), 855–864.
Liang, J., et al. (2024). ForPKG-1.0: A Forest Policy Knowledge Graph for Strategic Decision-Making in Forestry Sector. arXiv preprint arXiv:2411.11090.
Lundberg, S. M., & Lee, S.-I. (2017). A Unified Approach to Interpreting Model Predictions. Advances in Neural Information Processing Systems (NIPS 2017), 30, 4765–4774.
Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., & Dean, J. (2013). Distributed Representations of Words and Phrases and their Compositionality. Advances in Neural Information Processing Systems (NIPS 2013), 26, 3111–3119.
산림청 (2025). 2026년도 임업·산림 공익 직접지불 사업 시행 지침. 대한민국 정부.
산림청 (2024). 2024년 산림 사업 종합 자금 집행 지침. 대한민국 정부.
산림기본법 제3조 (2024년 개정). 산촌의 정의.
국립산림과학원 (2006–2020). 국가산림자원조사 제5차·6차·7차 데이터. 대한민국 정부.
Taylor, S. J., & Letham, B. (2018). Forecasting at Scale. The American Statistician, 72(1), 37–45.
개발자: Heedo (zxsa0716@kookmin.ac.kr) 소속: 국민대학교 라이선스: MIT (코드만 해당, 정책 문서는 각 발행처 저작권)