顺晟科技
2021-06-16 10:39:41
337
1、被下单数最多商品(项目)是什么
c=chipo[['item_name ',' quantity']].groupby(['item_name'],as_index=False).agg({'quantity':sum})
c.sort_values(['quantity'],升序=False,就地=真)
c.head()
groupby()和agg()
2、在项目名称这一列中,一共有多少种商品被下单?
(1)
chipo['item_name'].nunique()
(2)
len(chipo。项目名称。value _ counts())
nunique()
3、将项目价格(_ p)转换为浮点数
chipo[' item _ price ']=chipo。项目_价格。应用(x :浮点(x[1:])
apply() lambda
4、在该数据集对应的时期内,收入(收入)是多少
收入=(chipo['数量] * chipo['item_price']).总和()
总和()
5、对数据框纪律,学科按照先红牌再黄牌进行排序
纪律。sort_values(['红牌','黄牌'],升序=False)
sort_values(),sort_index()
6、选取以字母G开头的球队数据
12欧元Team.str.startswith('G')]
str.startswith()
7、找到英格兰(英国)、意大利(意大利)和俄罗斯(俄罗斯)的射正率(拍摄精度)
euro 12 . loc[euro 12 . Team . isin([' England ',' Italy ',' Russia']),['Team ','投篮准确性']]
loc(),isin()
8、打印出每个大陆对精神饮品消耗的平均值,更大值和最小值
饮料。groupby(')大陆')。spirit_servings.agg(['mean ',' min ',' max'])
9、将年的数据类型转换为datetime64
犯罪Year=pd.to_datetime(犯罪.年份,格式=“% Y”)
pd.to_datetime()
10、将列年设置为数据框的索引
犯罪=犯罪set_index('Year ',drop=True)
set_index()
11、del df['temp']是正确的,而del df.temp是错误的
12、按照年对数据框进行分组并求和
temp=crime.resample('10AS ').sum() #每十年对时间序列重新采样一次
# 用重新取样去得到"人口"列的更大值
人口=犯罪['人口']。重新取样(' 10AS ').更大值()
# 更新"人口"
临时[人口]=人口
重新取样()
13、何时是美国历史上生存最危险的年代?
crime.idxmax(0)
签名环: df。idxmax(轴=0,skipna=真)
Docstring:
返回请求轴上更大值次出现的索引。
不包括空值。
轴: {0或索引',1或列' },默认为0
0或“索引”代表行,1或"列"代表列
14、构建数据帧标准数据格式:
raw_data_1={
subject_id': ['1 ',' 2 ',' 3 ',' 4 ',' 5'],
first_name': ['Alex ',' Amy ',' Allen ',' Alice ',' Ayoung'],
last_name': ['Anderson ',' Ackerman ',' Ali ',' Aoni ',' Atiches']}
raw_data_2={
subject_id': ['4 ',' 5 ',' 6 ',' 7 ',' 8'],
first_name': ['Billy ',' Brian ',' Bran ',' Bryce ',' Betty'],
last_name': ['Bonder ',' Black ',' Balwner ',' Brice ',' Btisan']}
raw_data_3={
subject_id': ['1 ',' 2 ',' 3 ',' 4 ',' 5 ',' 7 ',' 8 ',' 9 ',' 10 ',' 11'],
test_id': [51,15,15,61,16,14,15,1,61,16]}
注意构造数据帧的数据格式是字典
15、按照主题编号的值对所有数据(_ d)和数据3作合并
pd.merge(all_data,data3,on='subject_id ')
合并(on=)
16、".数据"数据的读取方式
data=pd.read_table('wind.data ',sep='\s ',parse _ date=[[0,1,2]])
17、2061年?我们真的有这一年的数据?创建一个函数并用它去修复这个臭虫。
"年_月_日"日期时间64
def fix_century(x):
year=x.year - 100如果1989年
返回datetime.date(年、月、日)
#对列应用函数固定世纪,并将值替换为正确的值
数据['Yr_Mo_Dy']=数据['Yr_Mo_Dy'].应用(修复世纪)
注意这里对日期时间类型数据的使用方法e: x.year
18、对于每一个位置,计算一月份的平均风速
熊猫。查询()相当于结构化查询语言的查询语句
data['date']=data.index
#为每个起始日期值创建一列
数据['月']=数据['日期'].apply(lambda date : date。月份)
数据['年份']=数据['日期'].应用(lambda date: date.year)
数据['日']=数据['日期'].apply(lambda date: date.day)
#获取个月的所有值并分配给janyary_winds
1月_风=数据。查询('月==1 ')
#从一月风获取平均值,使用。锁定不打印月、年、日的平均值
january_winds.loc[:' RPT':'MAL'].平均值()
查询()
19、有重复的日期吗?
apple.index.is_unique
index.is_unique
20、数据集中最早的日期和最晚的日期相差多少天?
苹果。索引。max()-苹果。索引。min()).天
21、在数据中一共有多少个月?
(太神奇了,这是个神奇的组合键孤立性纤维性肿瘤选项k)
apple _ months=apple。重采样(' BM ').平均值()
len(apple_months.index)
重新取样是一个非常重要的函数,抽样函数
22、 删除有缺失值的行
iris=iris.dropna(how='any ')
dropna(how=)
23、重新设置索引
iris=iris。重置_索引(丢弃=真)
重置_索引(丢弃=真)
12
2022-05
28
2021-08
17
2021-07
16
2021-06
16
2021-06
16
2021-06