본문 바로가기

텍스트마이닝1

[문헌 분석 자동화] 파이썬(Python)과 pdfplumber를 활용한 수십 편의 논문 PDF에서 핵심 수치 및 표(Table) 데이터 자동 추출 지난 포스팅에서는 ArXiv API를 활용하여 전 세계의 최신 논문 리스트를 매일 아침 내 컴퓨터로 자동 배달하는 스크립트를 구축했습니다. 하지만 진정한 문헌 조사(Literature Review)의 고통은 논문을 다운로드한 직후부터 시작됩니다. 수십 편의 논문 PDF를 일일이 열어 스크롤을 내리며, 내가 연구 중인 신소재의 '합성 온도(Synthesis temperature)'나 '최고 수율(Maximum yield)'과 같은 특정 단어가 언급된 부분을 형광펜으로 칠하고 엑셀에 옮겨 적는 과정은 인간의 눈을 극도로 피로하게 만듭니다. 이번 글에서는 파이썬(Python)의 강력한 PDF 파싱 라이브러리인 'pdfplumber'를 활용하여, 폴더 안에 쌓인 수백 편의 논문 PDF에서 내가 지정한 키워드가 .. 2026. 4. 23.

이전 1 다음

티스토리툴바