18910140161

pandas数据分析使用技巧

顺晟科技

2021-06-16 10:39:41

337

1、被下单数最多商品(项目)是什么

c=chipo[['item_name ',' quantity']].groupby(['item_name'],as_index=False).agg({'quantity':sum})

c.sort_values(['quantity'],升序=False,就地=真)

c.head()

groupby()和agg()

2、在项目名称这一列中,一共有多少种商品被下单?

(1)

chipo['item_name'].nunique()

(2)

len(chipo。项目名称。value _ counts())

nunique()

3、将项目价格(_ p)转换为浮点数

chipo[' item _ price ']=chipo。项目_价格。应用(x :浮点(x[1:])

apply() lambda

4、在该数据集对应的时期内,收入(收入)是多少

收入=(chipo['数量] * chipo['item_price']).总和()

总和()

5、对数据框纪律,学科按照先红牌再黄牌进行排序

纪律。sort_values(['红牌','黄牌'],升序=False)

sort_values(),sort_index()

6、选取以字母G开头的球队数据

12欧元Team.str.startswith('G')]

str.startswith()

7、找到英格兰(英国)、意大利(意大利)和俄罗斯(俄罗斯)的射正率(拍摄精度)

euro 12 . loc[euro 12 . Team . isin([' England ',' Italy ',' Russia']),['Team ','投篮准确性']]

loc(),isin()

8、打印出每个大陆对精神饮品消耗的平均值,更大值和最小值

饮料。groupby(')大陆')。spirit_servings.agg(['mean ',' min ',' max'])

9、将年的数据类型转换为datetime64

犯罪Year=pd.to_datetime(犯罪.年份,格式=“% Y”)

pd.to_datetime()

10、将列年设置为数据框的索引

犯罪=犯罪set_index('Year ',drop=True)

set_index()

11、del df['temp']是正确的,而del df.temp是错误的

12、按照年对数据框进行分组并求和

temp=crime.resample('10AS ').sum() #每十年对时间序列重新采样一次

# 用重新取样去得到"人口"列的更大值

人口=犯罪['人口']。重新取样(' 10AS ').更大值()

# 更新"人口"

临时[人口]=人口

重新取样()

13、何时是美国历史上生存最危险的年代?

crime.idxmax(0)

签名环: df。idxmax(轴=0,skipna=真)

Docstring:

返回请求轴上更大值次出现的索引。

不包括空值。

轴: {0或索引',1或列' },默认为0

0或“索引”代表行,1或"列"代表列

14、构建数据帧标准数据格式:

raw_data_1={

subject_id': ['1 ',' 2 ',' 3 ',' 4 ',' 5'],

first_name': ['Alex ',' Amy ',' Allen ',' Alice ',' Ayoung'],

last_name': ['Anderson ',' Ackerman ',' Ali ',' Aoni ',' Atiches']}

raw_data_2={

subject_id': ['4 ',' 5 ',' 6 ',' 7 ',' 8'],

first_name': ['Billy ',' Brian ',' Bran ',' Bryce ',' Betty'],

last_name': ['Bonder ',' Black ',' Balwner ',' Brice ',' Btisan']}

raw_data_3={

subject_id': ['1 ',' 2 ',' 3 ',' 4 ',' 5 ',' 7 ',' 8 ',' 9 ',' 10 ',' 11'],

test_id': [51,15,15,61,16,14,15,1,61,16]}

注意构造数据帧的数据格式是字典

15、按照主题编号的值对所有数据(_ d)和数据3作合并

pd.merge(all_data,data3,on='subject_id ')

合并(on=)

16、".数据"数据的读取方式

data=pd.read_table('wind.data ',sep='\s ',parse _ date=[[0,1,2]])

17、2061年?我们真的有这一年的数据?创建一个函数并用它去修复这个臭虫。

"年_月_日"日期时间64

def fix_century(x):

year=x.year - 100如果1989年

返回datetime.date(年、月、日)

#对列应用函数固定世纪,并将值替换为正确的值

数据['Yr_Mo_Dy']=数据['Yr_Mo_Dy'].应用(修复世纪)

注意这里对日期时间类型数据的使用方法e: x.year

18、对于每一个位置,计算一月份的平均风速

熊猫。查询()相当于结构化查询语言的查询语句

data['date']=data.index

#为每个起始日期值创建一列

数据['月']=数据['日期'].apply(lambda date : date。月份)

数据['年份']=数据['日期'].应用(lambda date: date.year)

数据['日']=数据['日期'].apply(lambda date: date.day)

#获取个月的所有值并分配给janyary_winds

1月_风=数据。查询('月==1 ')

#从一月风获取平均值,使用。锁定不打印月、年、日的平均值

january_winds.loc[:' RPT':'MAL'].平均值()

查询()

19、有重复的日期吗?

apple.index.is_unique

index.is_unique

20、数据集中最早的日期和最晚的日期相差多少天?

苹果。索引。max()-苹果。索引。min()).天

21、在数据中一共有多少个月?

(太神奇了,这是个神奇的组合键孤立性纤维性肿瘤选项k)

apple _ months=apple。重采样(' BM ').平均值()

len(apple_months.index)

重新取样是一个非常重要的函数,抽样函数

22、 删除有缺失值的行

iris=iris.dropna(how='any ')

dropna(how=)

23、重新设置索引

iris=iris。重置_索引(丢弃=真)

重置_索引(丢弃=真)

我们已经准备好了,你呢?
2024我们与您携手共赢,为您的企业形象保驾护航