[파이썬]문서 프로그램 다루기 - 1

Pandas란?

패널 데이터 (계량 경제 용어)와 Python 데이터 분석의 이름을 따서 불리고 있다.

고수준의 자료구조와 파이썬을 통한 빠르고 데이터 분석 도구를 포함하고 있다.

NumPy기반에서 개발되어 NumPy를 사용하는 애플리케이션에 쉽게 적용한다.

널리 사용되는 오픈 소스 Python프로젝트이다.

그렇다면 이 Pandas를 이용해 보자

Series : 일련의 객체를 담을 수 있는 1차원 배열 같은 자료 구조

이렇게 입력하면

이렇게 출력된다.

이때 왼쪽(0, 1, 2)는 인덱스이고 오른쪽(1, 2, 3)은 값이다.

밑의 dtype은 데이터 타입을 나타낸다.

이렇게 입력하면

다음과 같이 a의 인덱스 값을 수정할 수 있다.

위와 같이 한줄로도 처리 가능하다.

위와 같이 입력하면

a위치에 1이라는 값이 있다는 것을 확인할 수 있다.

이번엔 b의 b위치에 2017이라는 값을 넣었고 b를 출력하였다.

결과는 다음과 같다.

b가 3보다 큰 것만 출력

결과는 다음과 같다.

위와 같이 *2를 하면 기존 파일 썬은 길이가 2배가 되어 버리지만 NumPy는 값에 *2를 한다.

그래서 다음과 같은 결과를 얻을 수 있다.

위와 같이 name에는 choi, age에는 30 같이 넣어주고 dict_data를 Series로 쭉 밀어 넣으면

위와 같이 인덱스가 원하는 대로 입력이 되었고 값도 자동으로 입력되어 예쁘게 세팅된 것을 확인할 수 있다.

위의 코드는 sr_data에 데이터가 있는지 없는지 확인하는 것이다.

그럼 위와 같은 결과를 얻을 수 있다.

Series의 이름과 인덱스의 이름 설정이 가능하다.

위의 코드를 입력하면

위의 결과와 같이 인덱스의 이름과 설정이 된다.