1. Execute o comando do pacote matplotlib necessário para que os gráficos apareçam.

2. Carregue o pacote pandas.

3. Carregue os dados da pnad, criando um objeto pnad.

4. Mostre o tamanho do dataframe (quantas observações e quantas variáveis).

In [3]:
 
Out[3]:
(10000, 24)

5. Mostre as primeiras 7 observações.

In [3]:
 
Out[3]:
uf tipo_area sexo idade cor pessas_dom freq_esc nivel_instrucao ocup_forca trab_procurou ... ocup_cod ocup_grupo ocup_pos ocup_pos2 ativ_cod ativ_grupo prev ocup_horas rendimento rendimento_total
0 22 1 2 11 2 4 1.0 2.0 NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
1 35 4 2 10 1 4 1.0 2.0 NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
2 21 1 1 13 4 4 1.0 2.0 NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
3 26 4 1 13 4 4 1.0 2.0 NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
4 33 1 2 31 4 4 2.0 5.0 2.0 1.0 ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
5 41 4 2 70 1 7 2.0 1.0 2.0 2.0 ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
6 35 4 2 7 4 8 1.0 1.0 NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN

7 rows × 23 columns

6. Mostre as últimas 5 observações.

In [34]:
 
Out[34]:
uf tipo_area sexo idade cor pessas_dom freq_esc nivel_instrucao ocup_forca trab_procurou ... ocup_cod ocup_grupo ocup_pos ocup_pos2 ativ_cod ativ_grupo prev ocup_horas rendimento rendimento_total
9995 51 4 2 46 1 2 2.0 2.0 2.0 2.0 ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
9996 52 4 2 40 4 3 2.0 4.0 1.0 NaN ... 4120.0 4.0 1.0 1.0 10091.0 2.0 1.0 3.0 937.0 937.0
9997 24 1 1 22 4 4 2.0 2.0 1.0 NaN ... 7112.0 7.0 5.0 9.0 41000.0 3.0 2.0 3.0 400.0 450.0
9998 51 4 1 37 1 4 2.0 5.0 1.0 NaN ... 7223.0 7.0 1.0 1.0 1105.0 1.0 1.0 3.0 2000.0 2000.0
9999 31 4 1 38 4 5 2.0 2.0 1.0 1.0 ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN

5 rows × 23 columns

7. Mostre o nome de todas as variáveis.

In [6]:
 
Out[6]:
Index(['uf', 'tipo_area', 'sexo', 'idade', 'cor', 'pessas_dom', 'freq_esc',
       'nivel_instrucao', 'ocup_forca', 'trab_procurou', 'motivo_ntrab',
       'serv_pub', 'ocup_cond', 'ocup_cod', 'ocup_grupo', 'ocup_pos',
       'ocup_pos2', 'ativ_cod', 'ativ_grupo', 'prev', 'ocup_horas',
       'rendimento', 'rendimento_total'],
      dtype='object')

8. Mostre as observações 100 a 125, incluindo a 125.

In [7]:
 
Out[7]:
uf tipo_area sexo idade cor pessas_dom freq_esc nivel_instrucao ocup_forca trab_procurou ... ocup_cod ocup_grupo ocup_pos ocup_pos2 ativ_cod ativ_grupo prev ocup_horas rendimento rendimento_total
100 26 4 1 49 1 3 2.0 7.0 1.0 NaN ... 2265.0 2.0 3.0 7.0 86001.0 9.0 1.0 2.0 5000.0 5000.0
101 31 4 1 11 4 3 1.0 2.0 NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
102 42 4 1 53 1 4 2.0 4.0 1.0 NaN ... 4110.0 4.0 3.0 7.0 84013.0 8.0 1.0 3.0 1750.0 1600.0
103 33 1 2 30 4 6 1.0 6.0 1.0 NaN ... 4110.0 4.0 1.0 1.0 32009.0 2.0 1.0 3.0 1280.0 1280.0
104 26 4 1 69 4 2 2.0 1.0 2.0 2.0 ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
105 22 4 1 67 4 2 2.0 2.0 2.0 2.0 ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
106 51 4 1 37 2 3 2.0 2.0 1.0 NaN ... 8332.0 8.0 1.0 1.0 49040.0 5.0 1.0 5.0 4000.0 4000.0
107 41 2 2 25 4 5 1.0 5.0 1.0 NaN ... 4110.0 4.0 1.0 1.0 49040.0 5.0 1.0 4.0 1100.0 1100.0
108 35 4 2 66 4 5 2.0 2.0 2.0 2.0 ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
109 53 1 2 26 4 5 1.0 5.0 1.0 1.0 ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
110 50 1 2 35 4 5 2.0 7.0 1.0 NaN ... 4110.0 4.0 1.0 1.0 64000.0 7.0 1.0 3.0 937.0 937.0
111 13 1 2 13 4 7 1.0 2.0 NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
112 15 4 1 46 4 6 2.0 2.0 2.0 2.0 ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
113 32 4 1 6 1 3 1.0 1.0 NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
114 50 4 1 5 4 6 2.0 1.0 NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
115 43 4 2 73 1 5 2.0 2.0 2.0 2.0 ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
116 27 4 1 40 4 4 2.0 2.0 2.0 2.0 ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
117 21 4 2 13 2 8 1.0 2.0 NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
118 21 4 1 40 4 5 2.0 1.0 1.0 NaN ... 6225.0 6.0 5.0 9.0 3001.0 1.0 2.0 2.0 150.0 0.0
119 33 2 2 83 4 4 2.0 1.0 2.0 2.0 ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
120 29 1 2 33 1 2 2.0 5.0 2.0 2.0 ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
121 31 1 1 6 4 6 1.0 1.0 NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
122 35 2 1 21 4 2 2.0 5.0 1.0 1.0 ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
123 32 4 1 14 1 2 1.0 2.0 1.0 NaN ... 6111.0 6.0 6.0 10.0 1113.0 1.0 2.0 2.0 NaN NaN
124 21 4 1 27 4 4 2.0 5.0 1.0 NaN ... 6111.0 6.0 5.0 9.0 1102.0 1.0 2.0 5.0 220.0 300.0
125 42 4 2 41 1 4 2.0 2.0 1.0 NaN ... 9111.0 9.0 2.0 4.0 97000.0 11.0 2.0 1.0 200.0 200.0

26 rows × 23 columns

9. Mostre apenas a variável idade.

In [32]:
 
Out[32]:
0       11
1       10
2       13
3       13
4       31
5       70
6        7
7       52
8       17
9       49
10      25
11      31
12      42
13      17
14      13
15      19
16      15
17      47
18      38
19      15
20      60
21      54
22      42
23      56
24      27
25      67
26      19
27      68
28      43
29      14
        ..
9970    22
9971    53
9972    44
9973    70
9974    32
9975    18
9976    56
9977    28
9978    65
9979    38
9980    66
9981    44
9982    47
9983    28
9984    30
9985    48
9986    44
9987    77
9988    50
9989    14
9990    33
9991     3
9992    21
9993    27
9994    54
9995    46
9996    40
9997    22
9998    37
9999    38
Name: idade, Length: 10000, dtype: int64

10. Qual é a idade média?

In [11]:
 
Out[11]:
34.6597

11. Mostre o resumo estatístico da idade.

In [12]:
 
Out[12]:
count    10000.000000
mean        34.659700
std         21.286954
min          0.000000
25%         17.000000
50%         33.000000
75%         50.000000
max        105.000000
Name: idade, dtype: float64

12. Mostre apenas as últimas 10 observações da variável sexo.

In [35]:
 
Out[35]:
9990    2
9991    1
9992    2
9993    1
9994    2
9995    2
9996    2
9997    1
9998    1
9999    1
Name: sexo, dtype: int64

13. Qual é o rendimento médio?

In [14]:
 
Out[14]:
1913.4299457326097

14. Qual é o rendimento máximo?

In [15]:
 
Out[15]:
45000.0

15. Qual é o desvio padrão do rendimento?

In [30]:
 
Out[30]:
2652.5021465039567

16. Crie um histograma do rendimento.

In [23]:
 

17. Crie um diagrama de dispersão apresentando a relação entre idade e rendimento.

In [26]:
 



Questões avançadas (opcionais)



18. Calcule a média de rendimentos para cada um dos sexos.

Dica: use o comando groupby().

In [28]:
 
Out[28]:
sexo
1    2103.33013
2    1639.84106
Name: rendimento, dtype: float64

19. Calcule a média de rendimentos para cada uma das cores/raças em cada um dos sexos.

Dica: use uma lista dentro do comando groupby().

In [29]:
 
Out[29]:
sexo  cor
1     1      2764.546890
      2      1771.355191
      3      3751.285714
      4      1570.706882
      5      1230.833333
2     1      2116.228612
      2      1280.433071
      3      2292.857143
      4      1259.390875
      5      4958.000000
Name: rendimento, dtype: float64

20. Crie um histograma apenas dos rendimentos menores do que R\$10.000.

Dica: use o comando query().

In [24]:
 

21. Mostre as 5 ocupações com os maiores rendimentos médios.

Dica: um dos comandos necessários nesse caso é sort_values().

In [20]:
 
Out[20]:
ocup_cod
2654.0    20000.0
2432.0    15000.0
2146.0    15000.0
2413.0    13000.0
2511.0    10167.0
Name: rendimento, dtype: float64