전체 글13 [문헌 분석 자동화] 파이썬(Python)과 pdfplumber를 활용한 수십 편의 논문 PDF에서 핵심 수치 및 표(Table) 데이터 자동 추출 지난 포스팅에서는 ArXiv API를 활용하여 전 세계의 최신 논문 리스트를 매일 아침 내 컴퓨터로 자동 배달하는 스크립트를 구축했습니다. 하지만 진정한 문헌 조사(Literature Review)의 고통은 논문을 다운로드한 직후부터 시작됩니다. 수십 편의 논문 PDF를 일일이 열어 스크롤을 내리며, 내가 연구 중인 신소재의 '합성 온도(Synthesis temperature)'나 '최고 수율(Maximum yield)'과 같은 특정 단어가 언급된 부분을 형광펜으로 칠하고 엑셀에 옮겨 적는 과정은 인간의 눈을 극도로 피로하게 만듭니다. 이번 글에서는 파이썬(Python)의 강력한 PDF 파싱 라이브러리인 'pdfplumber'를 활용하여, 폴더 안에 쌓인 수백 편의 논문 PDF에서 내가 지정한 키워드가 .. 2026. 4. 23. [연구 동향 자동화] 파이썬(Python)과 ArXiv API를 활용한 관심 분야 최신 논문 자동 수집 및 요약 스크립트 만들기 연구자의 하루는 논문으로 시작해서 논문으로 끝납니다. 전 세계에서 쏟아지는 수천 편의 연구 논문 중에서 내 연구 주제(예: 그래핀 바이오센서, MOF 합성, 밀도범함수이론 등)와 정확히 일치하는 최신 동향을 파악하는 것은 연구의 방향성을 설정하는 데 가장 중요한 작업입니다. 하지만 매일 아침 Google Scholar나 Web of Science에 접속하여 동일한 키워드를 검색하고, 초록(Abstract)을 읽고, 필요한 논문을 다운로드하여 엑셀이나 엔드노트(EndNote)에 정리하는 과정은 생각보다 많은 시간과 에너지를 소모하게 만듭니다. 이전 시리즈들에서 시뮬레이션 계산과 데이터 분석을 자동화했다면, 이제는 '지식의 입력' 과정도 코딩으로 해결할 차례입니다. 이번 포스팅에서는 파이썬(Python)과 .. 2026. 4. 23. [연구 보고서 자동화] 파이썬(Python) 기반 논문 및 랩미팅용 PDF 결과 보고서 자동 생성 워크플로우 (FPDF 활용) 지난 10편의 시리즈를 통해 우리는 다중 물리 시뮬레이션 로그 파일에서 데이터를 추출하고, 머신러닝 예측을 수행하며, SciPy를 이용해 통계적 유의성(p-value)이 포함된 최종 결과 표(Table)를 생성하는 과정까지 완벽하게 자동화했습니다. 하지만 연구자의 업무는 여기서 끝나지 않습니다. 도출된 그래프와 표를 마이크로소프트 워드(Word)나 파워포인트(PPT)에 일일이 복사해서 붙여넣고, 서식을 맞춰 랩미팅(Lab meeting) 자료나 주간 보고서를 작성하는 데 또다시 막대한 시간이 소모됩니다. 만약 시뮬레이션 파라미터가 수정되어 처음부터 다시 계산해야 한다면, 이 수작업 문서 작업도 처음부터 다시 해야 하는 끔찍한 상황이 발생합니다. 이번 포스팅에서는 파이썬의 FPDF 라이브러리를 활용하여 데.. 2026. 4. 23. [연구 데이터 분석] 파이썬 Pandas와 SciPy를 활용한 논문용 통계 분석 및 결과 표(Table) 자동 생성 스크립트 지금까지 우리는 시뮬레이션의 병렬 처리, 로그 파일에서의 데이터 파싱, 그리고 웹 대시보드 구축까지 계산 화학 및 신소재 연구의 굵직한 파이프라인을 자동화했습니다. 이제 연구의 대미를 장식할 마지막 단계가 남았습니다. 바로 추출된 수백, 수천 개의 데이터 포인트를 바탕으로 '통계적 유의성(Statistical Significance)'을 검증하고, 논문에 즉시 삽입할 수 있는 깔끔한 '결과 표(Table)'를 만드는 작업입니다. 그래핀(Graphene) 전계효과트랜지스터(GFET)의 민감도 분포나 머신러닝이 예측한 수백 개 금속유기골격체(MOFs)의 오차율을 엑셀(Excel)에서 일일이 수식으로 계산하는 것은 비효율적일 뿐만 아니라 재현성을 해치는 주요 원인입니다. 이번 포스팅에서는 파이썬의 Pandas.. 2026. 4. 22. [연구 플랫폼 구축] 파이썬 Streamlit을 활용한 시뮬레이션 파일 변환 GUI 웹 대시보드 만들기 지난 8편의 시리즈를 통해 우리는 다중 물리 시뮬레이션의 최적화부터 파이썬(Python)과 ASE 라이브러리를 이용한 데이터 전처리 자동화까지 복잡한 공학적 워크플로우를 하나씩 정복해 왔습니다. 하지만 아무리 뛰어난 자동화 스크립트라도 검은 화면의 터미널에서 명령어를 입력해야 한다면, 프로그래밍에 익숙하지 않은 실험실의 동료들이나 외부 협업 연구자들이 이를 활용하기에는 무리가 있습니다. 연구의 효율화는 나 혼자만의 생산성을 높이는 것을 넘어, 누구나 쉽게 내가 만든 도구를 사용할 수 있는 '환경'을 구축할 때 완성됩니다. 이번 글에서는 복잡한 웹 개발 지식(HTML/CSS/JS) 없이도 단 몇십 줄의 파이썬 코드만으로 전문가 수준의 연구용 웹 대시보드를 구축할 수 있게 해주는 **Streamlit(스트림.. 2026. 4. 22. [파이썬 실전] 수백 개의 분자 및 결정 구조 파일 확장자 일괄 변환 자동화 스크립트 (.xyz, .cif, POSCAR) 지난 포스팅에서는 계산 화학과 신소재 연구의 퀄리티를 높여주는 3대 시각화 프로그램(Avogadro, VESTA, PyMOL)의 활용법을 알아보았습니다. 하지만 이 프로그램들을 능수능란하게 다루기 전에 연구자들이 반드시 넘어야 할 산이 있습니다. 바로 '파일 포맷(Format)의 불일치'입니다. 아보가드로는 3차원 좌표만 있는 '.xyz' 파일을 주로 다루지만, VESTA는 주기적 경계 조건(PBC)이 포함된 '.cif' 파일을 선호하며, 실제 슈퍼컴퓨터에서 VASP 시뮬레이션을 돌리기 위해서는 'POSCAR'라는 특수한 텍스트 포맷이 필요합니다. 머신러닝으로 생성해 낸 수천 개의 새로운 분자 구조 파일(.xyz)을 시뮬레이션용 포맷으로 마우스 클릭을 통해 일일이 바꾸는 것은 물리적으로 불가능합니다. 이.. 2026. 4. 22. 이전 1 2 3 다음