CSV자동화1 [데이터 전처리] 파이썬 Pandas 기초: 논문 및 실험 데이터의 결측치(빈칸) 처리 및 중복 제거 완벽 가이드 이전 시리즈들을 통해 우리는 파이썬(Python)을 활용하여 ArXiv 논문을 자동으로 수집하고, 수십 편의 PDF에서 핵심 문장과 수치를 엑셀(CSV) 파일로 추출하는 강력한 파이프라인을 구축했습니다. 하지만 이렇게 현실 세계(Real-world)에서 막 수집된 원시 데이터(Raw data)를 열어보면 한 가지 심각한 문제에 직면하게 됩니다. 바로 어떤 행에는 수치가 비어있고(결측치), 어떤 논문은 두 번씩 크롤링되어 똑같은 내용이 반복(중복)되어 있다는 것입니다. 컴퓨터 과학에는 "Garbage In, Garbage Out (쓰레기를 넣으면 쓰레기가 나온다)"이라는 유명한 격언이 있습니다. 아무리 뛰어난 머신러닝 모델이나 통계 기법(SciPy)을 사용하더라도 데이터가 더럽다면 그 결과는 신뢰할 수 없.. 2026. 4. 26. 이전 1 다음