
- datetime
datetime是Python处理日期和时间的标准库。
datetime是模块,datetime模块还包含一个datetime类,
通过from datetime import datetime导入的才是datetime这个类。
如果仅导入import datetime,则必须引用全名datetime.datetime。
datetime.now()返回当前日期和时间,其类型是datetime。from datetime import datetime
now = datetime.now() # 获取当前datetime
print(now)2015-05-18 16:28:07.198690print(type(now))
<class 'datetime.datetime'>
指定某个日期和时间,直接用参数构造一个datetime:
from datetime import datetime
dt = datetime(2015, 4, 19, 12, 20) # 用指定日期时间创建datetime
print(dt)
2015-04-19 12:20:00
扫盲:在计算机中,时间实际上是用数字表示的。我们把1970年1月1日 00:00:00 UTC+00:00时区的时
刻称为epoch time,记为0(1970年以前的时间timestamp为负数),当前时间就是相对于epoch time
的秒数,称为timestamp。
把一个datetime类型转换为timestamp:timestamp():
from datetime import datetime
dt = datetime(2015, 4, 19, 12, 20) # 用指定日期时间创建datetime
dt.timestamp() # 把datetime转换为timestamp
1429417200.0
注:Python的timestamp是一个浮点数。如果有小数位,小数位表示毫秒数。
某些编程语言(如Java和JavaScript)的timestamp使用整数表示毫秒数,
这种情况下只需要把timestamp除以1000就得到Python的浮点表示方法。
把timestamp转换为datetime,使用datetime提供的fromtimestamp()方法:
>>> from datetime import datetime
>>> t = 1429417200.0
>>> print(datetime.fromtimestamp(t))
2015-04-19 12:20:00
注意到timestamp是一个浮点数,它没有时区的概念,而datetime是有时区的。
上述转换是在timestamp和本地时间做转换。时区为电脑设置的时区。
str转换为datetime:转换方法是通过datetime.strptime()实现,需要一个日期和时间的格式化字符串
>>> from datetime import datetime
>>> cday = datetime.strptime('2015-6-1 18:19:59', '%Y-%m-%d %H:%M:%S')
>>> print(cday)
2015-06-01 18:19:59
字符串’%Y-%m-%d %H:%M:%S’规定了日期和时间部分的格式。
datetime转换为str:要转换为str,转换方法是通过strftime()实现的,同样需要一个日期和时间的格式化字符串
from datetime import datetime
now = datetime.now()
print(now.strftime(‘%a, %b %d %H:%M’))
Mon, May 05 16:28
datetime加减:加减可以直接用+和-运算符,不过需要导入timedelta这个类
>>> from datetime import datetime, timedelta
>>> now = datetime.now()
>>> now
datetime.datetime(2015, 5, 18, 16, 57, 3, 540997)
>>> now + timedelta(hours=10)
datetime.datetime(2015, 5, 19, 2, 57, 3, 540997)
>>> now - timedelta(days=1)
datetime.datetime(2015, 5, 17, 16, 57, 3, 540997)
>>> now + timedelta(days=2, hours=12)
datetime.datetime(2015, 5, 21, 4, 57, 3, 540997)
本地时间转换为UTC时间:一个datetime类型有一个时区属性tzinfo,但是默认为None,
所以无法区分这个datetime到底是哪个时区,除非强行给datetime设置一个时区
from datetime import datetime, timedelta, timezone
tz_utc_8 = timezone(timedelta(hours=8)) # 创建时区UTC+8:00
now = datetime.now()
now
datetime.datetime(2015, 5, 18, 17, 2, 10, 871012)
dt = now.replace(tzinfo=tz_utc_8) # 强制设置为UTC+8:00
dt
datetime.datetime(2015, 5, 18, 17, 2, 10, 871012, tzinfo=datetime.timezone(datetime.timedelta(0, 28800)))
时区转换:通过utcnow()拿到当前的UTC时间,再转换为任意时区的时间
>>> utc_dt = datetime.utcnow().replace(tzinfo=timezone.utc)
>>> print(utc_dt)
2015-05-18 09:05:12.377316+00:00
# astimezone()将转换时区为北京时间:
>>> bj_dt = utc_dt.astimezone(timezone(timedelta(hours=8)))
>>> print(bj_dt)
2015-05-18 17:05:12.377316+08:00
# astimezone()将转换时区为东京时间:
>>> tokyo_dt = utc_dt.astimezone(timezone(timedelta(hours=9)))
>>> print(tokyo_dt)
2015-05-18 18:05:12.377316+09:00
时区转换的关键在于,拿到一个datetime时,要获知其正确的时区,然后强制设置时区,作为基准时间。
利用带时区的datetime,通过astimezone()方法,可以转换到任意时区。
- collections
collections是Python内建的一个集合模块,提供了许多有用的集合类。
a.namedtuple:namedtuple是一个函数,它用来创建一个自定义的tuple对象,
并且规定了tuple元素的个数,并可以用属性而不是索引来引用tuple的某个元素。
>>> from collections import namedtuple
>>> Point = namedtuple('Point', ['x', 'y'])
>>> p = Point(1, 2)
>>> p.x
1
>>> p.y
2
b.deque:使用list存储数据时,按索引访问元素很快,但是插入和删除元素就很慢了,
因为list是线性存储,数据量大的时候,插入和删除效率很低。
deque是为了高效实现插入和删除操作的双向列表,适合用于队列和栈
>>> from collections import deque
>>> q = deque(['a', 'b', 'c'])
>>> q.append('x')
>>> q.appendleft('y')
>>> q
deque(['y', 'a', 'b', 'c', 'x'])
deque除了实现list的append()和pop()外,还支持appendleft()和popleft(),
这样就可以非常高效地往头部添加或删除元素。
c.defaultdict:使用dict时,如果引用的Key不存在,就会抛出KeyError。
如果希望key不存在时,返回一个默认值,就可以用defaultdict
>>> from collections import defaultdict
>>> dd = defaultdict(lambda: 'N/A')
>>> dd['key1'] = 'abc'
>>> dd['key1'] # key1存在
'abc'
>>> dd['key2'] # key2不存在,返回默认值
'N/A'
注意默认值是调用函数返回的,而函数在创建defaultdict对象时传入。
除了在Key不存在时返回默认值,defaultdict的其他行为跟dict是完全一样的。
d.OrderedDict:使用dict时,Key是无序的。如果要保持Key的顺序,可以用OrderedDict
>>> from collections import OrderedDict
>>> d = dict([('a', 1), ('b', 2), ('c', 3)])
>>> d # dict的Key是无序的
{'a': 1, 'c': 3, 'b': 2}
>>> od = OrderedDict([('a', 1), ('b', 2), ('c', 3)])
>>> od # OrderedDict的Key是有序的
OrderedDict([('a', 1), ('b', 2), ('c', 3)])
注意,OrderedDict的Key会按照插入的顺序排列,不是Key本身排序
OrderedDict可以实现一个FIFO(先进先出)的dict,当容量超出限制时,先删除最早添加的Key
e.Count:Counter是一个简单的计数器,例如,统计字符出现的个数
>>> from collections import Counter
>>> c = Counter()
>>> for ch in 'programming':
c[ch] = c[ch] + 1
c
Counter({'g': 2, 'm': 2, 'r': 2, 'a': 1, 'i': 1, 'o': 1, 'n': 1, 'p': 1})
- base64
Python内置的base64可以直接进行base64的编解码:
import base64
base64.b64encode(b’binaryx00string’)b'YmluYXJ5AHN0cmluZw=='base64.b64decode(b’YmluYXJ5AHN0cmluZw==’)
b'binaryx00string'
url safe编码方式:把字符+和/分别变成-和_
base64.b64encode(b’ixb7x1dxfbxefxff’)
b’abcd++//‘
base64.urlsafe_b64encode(b’ixb7x1dxfbxefxff’)
b’abcd–‘
base64.urlsafe_b64decode(‘abcd–‘)
b’ixb7x1dxfbxefxff’
Base64是一种任意二进制到文本字符串的编码方法,常用于在URL、Cookie、网页中传输少量二进制数据
- struct
Python提供了一个struct模块来解决bytes和其他二进制数据类型的转换。
struct的pack函数把任意数据类型变成bytes:
import struct
struct.pack(‘>I’, 10240099)
b’[email protected]’
pack的第一个参数是处理指令,’>I’的意思是:
表示字节顺序是big-endian,也就是网络序,I表示4字节无符号整数。
unpack把bytes变成相应的数据类型:
struct.unpack(‘>IH’, b’xf0xf0xf0xf0x80x80’)
(4042322160, 32896)
- hashlib
hashlib提供了常见的摘要算法。MD5、SHA1等~
摘要函数:通过一个函数,把任意长度的数据转换为一个长度固定的数据串。
摘要算法就是通过摘要函数f()对任意长度的数据data计算出固定长度的摘要digest,
目的是为了发现原始数据是否被人篡改过。
import hashlib
md5 = haslib.md5()
md5.update(‘我的兄弟叫顺溜~’.encode(‘utf-8’))
print(md5.hexdigest())
#ddad3b4588cb4d1cef40b30715313bb6
拆开来update()也可以:
md5.update(‘我的兄弟’.encode(‘utf-8’))
md5.update(‘叫顺溜~’.encode(‘utf-8’))
print(md5.hexdigest())
#ddad3b4588cb4d1cef40b30715313bb6
#打印出来的结果一样
MD5算法是最常见的摘要算法,速度快,生成128bit字节,以32位的16进制字符串表示
比MD5更安全的算法是 SHA1,速度慢,生成150bit字节,以40位的16进制字符串表示
比SHA1更安全的有SHA256和SHA512。
应用:数据库储存用户的密码,一般是经过摘要算法处理的,把用户的密码经过摘要算法
转换后再和数据库的匹配。即使数据库泄露了别人也不会知道密码。
- hmac
通过一个标准算法,在计算哈希的过程中,把key混入计算过程中。
Python自带的hmac模块实现了标准的Hmac算法。
import hmac
message = b’Hello, world!’
key = b’secret’
h = hmac.new(key, message, digestmod=’MD5’)如果消息很长,可以多次调用h.update(msg)
h.hexdigest()
'fa4ee7d173f2d97ee79022d1a7355bcf'
- itertools
Python的内建模块itertools提供了非常有用的用于操作迭代对象的函数。
itertools提供了几个无限迭代器:count()、cycle()、repeat()
count:
import itertools
natuals = itertools.count(1)
for n in natuals:... print(n) ... 1 2 3 ...cycle:
import itertools
cs = itertools.cycle(‘ABC’) # 注意字符串也是序列的一种
for c in cs:... print(c) ... 'A' 'B' 'C' 'A' 'B' 'C' ...repeat:
ns = itertools.repeat(‘A’, 3)
for n in ns:... print(n) ... A A A
通过takewhile()等函数根据条件判断来截取出一个有限的序列:
natuals = itertools.count(1)
ns = itertools.takewhile(lambda x: x <= 10, natuals)
list(ns)
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
chain():把一组迭代对象串联起来,形成一个更大的迭代器
for c in itertools.chain(‘ABC’, ‘XYZ’):
… print(c)# 迭代效果:'A' 'B' 'C' 'X' 'Y' 'Z'
groupby():把迭代器中相邻的重复元素挑出来放在一起
for key, group in itertools.groupby(‘AaaBBbcCAAa’, lambda c: c.upper()):
… print(key, list(group))
…
A [‘A’, ‘a’, ‘a’]
B [‘B’, ‘B’, ‘b’]
C [‘c’, ‘C’]
A [‘A’, ‘A’, ‘a’]
- contextlib
读写文件之后,需要close关闭该文件释放内存。可以通过with来简化该操作。
with 其实是 类中定义的方法,enter、exit。只要在类中定义这两个
方法就可以实现with。例如:
class Query(object):def __init__(self, name): self.name = name def __enter__(self): print('Begin') return self def __exit__(self, exc_type, exc_value, traceback): if exc_type: print('Error') else: print('End') def query(self): print('Query info about %s...' % self.name)with Query(‘Bob’) as q:
q.query()#Begin
#Query info about Bob…
#End
Python的标准库contextlib提供了更简单的写法
@contextmanager这个decorator接受一个generator,
用yield语句把with … as var把变量输出出去,然后,with语句就可以正常地工作了:
@contextmanager
def tag(name):
print(“<%s>” % name)
yield
print(“</%s>” % name)
with tag(“h1”):
print(“hello”)
print(“world”)
#
hello
world
closing:,假如该对象没有实现上下文,用closing()来把该对象变为上下文对象
from contextlib import closing
from urllib.request import urlopen
with closing(urlopen(‘https://www.python.org‘)) as page:
for line in page:
print(line)
closing也是一个经过@contextmanager装饰的generator:
@contextmanager
def closing(thing):
try:
yield thing
finally:
thing.close()
- urllib
urllib提供了一系列用于操作URL的功能。
GET:urllib的request模块可以非常方便地抓取URL内容,也就是发送一个GET请求到指定的页面,
然后返回HTTP的响应。
from urllib import requestwith request.urlopen('https://api.douban.com/v2/book/2129650') as f: data = f.read() print('Status:', f.status, f.reason) for k, v in f.getheaders(): print('%s: %s' % (k, v)) print('Data:', data.decode('utf-8'))
- XML
pass - HTMLParser
pass




近期评论