본문 바로가기

데이터전처리2

[데이터 전처리] 파이썬 Pandas 기초: 논문 및 실험 데이터의 결측치(빈칸) 처리 및 중복 제거 완벽 가이드 이전 시리즈들을 통해 우리는 파이썬(Python)을 활용하여 ArXiv 논문을 자동으로 수집하고, 수십 편의 PDF에서 핵심 문장과 수치를 엑셀(CSV) 파일로 추출하는 강력한 파이프라인을 구축했습니다. 하지만 이렇게 현실 세계(Real-world)에서 막 수집된 원시 데이터(Raw data)를 열어보면 한 가지 심각한 문제에 직면하게 됩니다. 바로 어떤 행에는 수치가 비어있고(결측치), 어떤 논문은 두 번씩 크롤링되어 똑같은 내용이 반복(중복)되어 있다는 것입니다. 컴퓨터 과학에는 "Garbage In, Garbage Out (쓰레기를 넣으면 쓰레기가 나온다)"이라는 유명한 격언이 있습니다. 아무리 뛰어난 머신러닝 모델이나 통계 기법(SciPy)을 사용하더라도 데이터가 더럽다면 그 결과는 신뢰할 수 없.. 2026. 4. 26.

[파이썬 실전] 수백 개의 분자 및 결정 구조 파일 확장자 일괄 변환 자동화 스크립트 (.xyz, .cif, POSCAR) 지난 포스팅에서는 계산 화학과 신소재 연구의 퀄리티를 높여주는 3대 시각화 프로그램(Avogadro, VESTA, PyMOL)의 활용법을 알아보았습니다. 하지만 이 프로그램들을 능수능란하게 다루기 전에 연구자들이 반드시 넘어야 할 산이 있습니다. 바로 '파일 포맷(Format)의 불일치'입니다. 아보가드로는 3차원 좌표만 있는 '.xyz' 파일을 주로 다루지만, VESTA는 주기적 경계 조건(PBC)이 포함된 '.cif' 파일을 선호하며, 실제 슈퍼컴퓨터에서 VASP 시뮬레이션을 돌리기 위해서는 'POSCAR'라는 특수한 텍스트 포맷이 필요합니다. 머신러닝으로 생성해 낸 수천 개의 새로운 분자 구조 파일(.xyz)을 시뮬레이션용 포맷으로 마우스 클릭을 통해 일일이 바꾸는 것은 물리적으로 불가능합니다. 이.. 2026. 4. 22.

이전 1 다음

티스토리툴바