본문 바로가기

업무자동화3

[데이터 요약] 파이썬 Pandas 실전: 합쳐진 엑셀 마스터 데이터를 한눈에 요약하는 Groupby 및 피벗테이블(Pivot Table) 완벽 가이드 지난 포스팅에서는 흩어져 있던 수십 개의 CSV(엑셀) 파일들을 파이썬의 glob과 concat을 이용하여 단 1초 만에 'Master_Dataset.csv'라는 거대한 하나의 파일로 병합하는 자동화 스크립트를 구축했습니다. 하지만 수천, 수만 줄에 달하는 로우 데이터(Raw data) 자체는 우리에게 어떤 정보도 주지 못합니다. 이 방대한 숫자의 바다에서 "어떤 합성 조건이 가장 밴드갭이 좁은가?", "어떤 소재가 가장 높은 수율을 보이는가?"와 같은 핵심 인사이트를 도출하려면 데이터를 의미 있는 기준에 따라 묶고 요약해야 합니다. 엑셀(Excel)에서 마우스를 드래그하여 피벗테이블을 만드는 대신, 파이썬의 강력한 Pandas 라이브러리를 사용하면 이 모든 요약 과정을 단 몇 줄의 코드로 영구적인 자동.. 2026. 4. 28.
[데이터 병합] 파이썬 Pandas 실전: 폴더 내 수십 개의 엑셀(CSV) 파일 1초 만에 하나로 합치기 (Concat) 이전 포스팅에서는 파이썬(Python)의 Pandas 라이브러리를 활용하여 지저분한 엑셀 데이터의 빈칸(결측치)을 채우고 중복을 제거하는 전처리 기초를 알아보았습니다. 하지만 연구나 업무 현장에서는 데이터가 하나의 파일에 예쁘게 모여있는 경우가 거의 없습니다. 앞서 우리가 구축했던 'ArXiv 논문 자동 수집 봇'을 매일 아침 실행했다면, 일주일 뒤 우리 폴더에는 7개의 CSV 파일이, 한 달 뒤에는 30개의 CSV 파일이 흩어져 있게 됩니다. 이 30개의 파일을 열어서 복사하고 하나의 마스터(Master) 파일에 붙여넣는 작업은 생각만 해도 끔찍합니다. 마우스 스크롤을 잘못 내려 데이터가 한 칸 밀리기라도 하면 전체 통계가 망가지는 대참사가 벌어지죠. 이번 글에서는 파이썬의 'glob' 모듈과 Pand.. 2026. 4. 27.
[연구 보고서 자동화] 파이썬(Python) 기반 논문 및 랩미팅용 PDF 결과 보고서 자동 생성 워크플로우 (FPDF 활용) 지난 10편의 시리즈를 통해 우리는 다중 물리 시뮬레이션 로그 파일에서 데이터를 추출하고, 머신러닝 예측을 수행하며, SciPy를 이용해 통계적 유의성(p-value)이 포함된 최종 결과 표(Table)를 생성하는 과정까지 완벽하게 자동화했습니다. 하지만 연구자의 업무는 여기서 끝나지 않습니다. 도출된 그래프와 표를 마이크로소프트 워드(Word)나 파워포인트(PPT)에 일일이 복사해서 붙여넣고, 서식을 맞춰 랩미팅(Lab meeting) 자료나 주간 보고서를 작성하는 데 또다시 막대한 시간이 소모됩니다. 만약 시뮬레이션 파라미터가 수정되어 처음부터 다시 계산해야 한다면, 이 수작업 문서 작업도 처음부터 다시 해야 하는 끔찍한 상황이 발생합니다. 이번 포스팅에서는 파이썬의 FPDF 라이브러리를 활용하여 데.. 2026. 4. 23.