본문 바로가기

파이썬pdf2

[문헌 분석 자동화] 파이썬(Python)과 pdfplumber를 활용한 수십 편의 논문 PDF에서 핵심 수치 및 표(Table) 데이터 자동 추출 지난 포스팅에서는 ArXiv API를 활용하여 전 세계의 최신 논문 리스트를 매일 아침 내 컴퓨터로 자동 배달하는 스크립트를 구축했습니다. 하지만 진정한 문헌 조사(Literature Review)의 고통은 논문을 다운로드한 직후부터 시작됩니다. 수십 편의 논문 PDF를 일일이 열어 스크롤을 내리며, 내가 연구 중인 신소재의 '합성 온도(Synthesis temperature)'나 '최고 수율(Maximum yield)'과 같은 특정 단어가 언급된 부분을 형광펜으로 칠하고 엑셀에 옮겨 적는 과정은 인간의 눈을 극도로 피로하게 만듭니다. 이번 글에서는 파이썬(Python)의 강력한 PDF 파싱 라이브러리인 'pdfplumber'를 활용하여, 폴더 안에 쌓인 수백 편의 논문 PDF에서 내가 지정한 키워드가 .. 2026. 4. 23.
[연구 보고서 자동화] 파이썬(Python) 기반 논문 및 랩미팅용 PDF 결과 보고서 자동 생성 워크플로우 (FPDF 활용) 지난 10편의 시리즈를 통해 우리는 다중 물리 시뮬레이션 로그 파일에서 데이터를 추출하고, 머신러닝 예측을 수행하며, SciPy를 이용해 통계적 유의성(p-value)이 포함된 최종 결과 표(Table)를 생성하는 과정까지 완벽하게 자동화했습니다. 하지만 연구자의 업무는 여기서 끝나지 않습니다. 도출된 그래프와 표를 마이크로소프트 워드(Word)나 파워포인트(PPT)에 일일이 복사해서 붙여넣고, 서식을 맞춰 랩미팅(Lab meeting) 자료나 주간 보고서를 작성하는 데 또다시 막대한 시간이 소모됩니다. 만약 시뮬레이션 파라미터가 수정되어 처음부터 다시 계산해야 한다면, 이 수작업 문서 작업도 처음부터 다시 해야 하는 끔찍한 상황이 발생합니다. 이번 포스팅에서는 파이썬의 FPDF 라이브러리를 활용하여 데.. 2026. 4. 23.