常用内建模块 如果消息很长,可以多次调用h.update(msg) hello world

  1. datetime
    datetime是Python处理日期和时间的标准库。
    datetime是模块,datetime模块还包含一个datetime类,
    通过from datetime import datetime导入的才是datetime这个类。
    如果仅导入import datetime,则必须引用全名datetime.datetime。
    datetime.now()返回当前日期和时间,其类型是datetime。

    from datetime import datetime
    now = datetime.now() # 获取当前datetime
    print(now)

    2015-05-18 16:28:07.198690
    

    print(type(now))

    <class 'datetime.datetime'>
    

指定某个日期和时间,直接用参数构造一个datetime:

from datetime import datetime
dt = datetime(2015, 4, 19, 12, 20) # 用指定日期时间创建datetime
print(dt)
2015-04-19 12:20:00

扫盲:在计算机中,时间实际上是用数字表示的。我们把1970年1月1日 00:00:00 UTC+00:00时区的时
刻称为epoch time,记为0(1970年以前的时间timestamp为负数),当前时间就是相对于epoch time
的秒数,称为timestamp。

把一个datetime类型转换为timestamp:timestamp():

from datetime import datetime
dt = datetime(2015, 4, 19, 12, 20) # 用指定日期时间创建datetime
dt.timestamp() # 把datetime转换为timestamp
1429417200.0

注:Python的timestamp是一个浮点数。如果有小数位,小数位表示毫秒数。
某些编程语言(如Java和JavaScript)的timestamp使用整数表示毫秒数,
这种情况下只需要把timestamp除以1000就得到Python的浮点表示方法。

把timestamp转换为datetime,使用datetime提供的fromtimestamp()方法:

>>> from datetime import datetime
   >>> t = 1429417200.0
   >>> print(datetime.fromtimestamp(t))
   2015-04-19 12:20:00

注意到timestamp是一个浮点数,它没有时区的概念,而datetime是有时区的。
上述转换是在timestamp和本地时间做转换。时区为电脑设置的时区。

str转换为datetime:转换方法是通过datetime.strptime()实现,需要一个日期和时间的格式化字符串

>>> from datetime import datetime
  >>> cday = datetime.strptime('2015-6-1 18:19:59', '%Y-%m-%d %H:%M:%S')
  >>> print(cday)
  2015-06-01 18:19:59

字符串’%Y-%m-%d %H:%M:%S’规定了日期和时间部分的格式。

datetime转换为str:要转换为str,转换方法是通过strftime()实现的,同样需要一个日期和时间的格式化字符串

from datetime import datetime
now = datetime.now()
print(now.strftime(‘%a, %b %d %H:%M’))
Mon, May 05 16:28

datetime加减:加减可以直接用+和-运算符,不过需要导入timedelta这个类

>>> from datetime import datetime, timedelta
  >>> now = datetime.now()
  >>> now
  datetime.datetime(2015, 5, 18, 16, 57, 3, 540997)
  >>> now + timedelta(hours=10)
  datetime.datetime(2015, 5, 19, 2, 57, 3, 540997)
  >>> now - timedelta(days=1)
  datetime.datetime(2015, 5, 17, 16, 57, 3, 540997)
  >>> now + timedelta(days=2, hours=12)
  datetime.datetime(2015, 5, 21, 4, 57, 3, 540997)

本地时间转换为UTC时间:一个datetime类型有一个时区属性tzinfo,但是默认为None,
所以无法区分这个datetime到底是哪个时区,除非强行给datetime设置一个时区

from datetime import datetime, timedelta, timezone
tz_utc_8 = timezone(timedelta(hours=8)) # 创建时区UTC+8:00
now = datetime.now()
now
datetime.datetime(2015, 5, 18, 17, 2, 10, 871012)
dt = now.replace(tzinfo=tz_utc_8) # 强制设置为UTC+8:00
dt
datetime.datetime(2015, 5, 18, 17, 2, 10, 871012, tzinfo=datetime.timezone(datetime.timedelta(0, 28800)))

时区转换:通过utcnow()拿到当前的UTC时间,再转换为任意时区的时间

>>> utc_dt = datetime.utcnow().replace(tzinfo=timezone.utc)
>>> print(utc_dt)
2015-05-18 09:05:12.377316+00:00
# astimezone()将转换时区为北京时间:
>>> bj_dt = utc_dt.astimezone(timezone(timedelta(hours=8)))
>>> print(bj_dt)
2015-05-18 17:05:12.377316+08:00
# astimezone()将转换时区为东京时间:
>>> tokyo_dt = utc_dt.astimezone(timezone(timedelta(hours=9)))
>>> print(tokyo_dt)
2015-05-18 18:05:12.377316+09:00

时区转换的关键在于,拿到一个datetime时,要获知其正确的时区,然后强制设置时区,作为基准时间。
利用带时区的datetime,通过astimezone()方法,可以转换到任意时区。

  1. collections
    collections是Python内建的一个集合模块,提供了许多有用的集合类。

a.namedtuple:namedtuple是一个函数,它用来创建一个自定义的tuple对象,
并且规定了tuple元素的个数,并可以用属性而不是索引来引用tuple的某个元素。

>>> from collections import namedtuple
            >>> Point = namedtuple('Point', ['x', 'y'])
            >>> p = Point(1, 2)
            >>> p.x
            1
            >>> p.y
            2

b.deque:使用list存储数据时,按索引访问元素很快,但是插入和删除元素就很慢了,
因为list是线性存储,数据量大的时候,插入和删除效率很低。
deque是为了高效实现插入和删除操作的双向列表,适合用于队列和栈

>>> from collections import deque
            >>> q = deque(['a', 'b', 'c'])
            >>> q.append('x')
            >>> q.appendleft('y')
            >>> q
            deque(['y', 'a', 'b', 'c', 'x'])

deque除了实现list的append()和pop()外,还支持appendleft()和popleft(),
这样就可以非常高效地往头部添加或删除元素。

c.defaultdict:使用dict时,如果引用的Key不存在,就会抛出KeyError。
如果希望key不存在时,返回一个默认值,就可以用defaultdict

>>> from collections import defaultdict
               >>> dd = defaultdict(lambda: 'N/A')
               >>> dd['key1'] = 'abc'
               >>> dd['key1'] # key1存在
               'abc'
               >>> dd['key2'] # key2不存在,返回默认值
       'N/A'

注意默认值是调用函数返回的,而函数在创建defaultdict对象时传入。
除了在Key不存在时返回默认值,defaultdict的其他行为跟dict是完全一样的。

d.OrderedDict:使用dict时,Key是无序的。如果要保持Key的顺序,可以用OrderedDict

        >>> from collections import OrderedDict
            >>> d = dict([('a', 1), ('b', 2), ('c', 3)])
            >>> d # dict的Key是无序的
            {'a': 1, 'c': 3, 'b': 2}
            >>> od = OrderedDict([('a', 1), ('b', 2), ('c', 3)])
            >>> od # OrderedDict的Key是有序的
            OrderedDict([('a', 1), ('b', 2), ('c', 3)])
注意,OrderedDict的Key会按照插入的顺序排列,不是Key本身排序

OrderedDict可以实现一个FIFO(先进先出)的dict,当容量超出限制时,先删除最早添加的Key

e.Count:Counter是一个简单的计数器,例如,统计字符出现的个数

>>> from collections import Counter
            >>> c = Counter()
            >>> for ch in 'programming':
                    c[ch] = c[ch] + 1
c
            Counter({'g': 2, 'm': 2, 'r': 2, 'a': 1, 'i': 1, 'o': 1, 'n': 1, 'p': 1})
  1. base64
    Python内置的base64可以直接进行base64的编解码:

    import base64
    base64.b64encode(b’binaryx00string’)

    b'YmluYXJ5AHN0cmluZw=='
    

    base64.b64decode(b’YmluYXJ5AHN0cmluZw==’)

    b'binaryx00string'
    

url safe编码方式:把字符+和/分别变成-和_

base64.b64encode(b’ixb7x1dxfbxefxff’)
b’abcd++//‘
base64.urlsafe_b64encode(b’ixb7x1dxfbxefxff’)
b’abcd–
base64.urlsafe_b64decode(‘abcd–
‘)
b’ixb7x1dxfbxefxff’

Base64是一种任意二进制到文本字符串的编码方法,常用于在URL、Cookie、网页中传输少量二进制数据

  1. struct
    Python提供了一个struct模块来解决bytes和其他二进制数据类型的转换。
    struct的pack函数把任意数据类型变成bytes:

    import struct
    struct.pack(‘>I’, 10240099)
    b’[email protected]

pack的第一个参数是处理指令,’>I’的意思是:

表示字节顺序是big-endian,也就是网络序,I表示4字节无符号整数。

unpack把bytes变成相应的数据类型:

struct.unpack(‘>IH’, b’xf0xf0xf0xf0x80x80’)
(4042322160, 32896)

  1. hashlib
    hashlib提供了常见的摘要算法。MD5、SHA1等~
    摘要函数:通过一个函数,把任意长度的数据转换为一个长度固定的数据串。
    摘要算法就是通过摘要函数f()对任意长度的数据data计算出固定长度的摘要digest,
    目的是为了发现原始数据是否被人篡改过。
    import hashlib
    md5 = haslib.md5()
    md5.update(‘我的兄弟叫顺溜~’.encode(‘utf-8’))
    print(md5.hexdigest())
    #ddad3b4588cb4d1cef40b30715313bb6

拆开来update()也可以:
md5.update(‘我的兄弟’.encode(‘utf-8’))
md5.update(‘叫顺溜~’.encode(‘utf-8’))
print(md5.hexdigest())

#ddad3b4588cb4d1cef40b30715313bb6

#打印出来的结果一样

MD5算法是最常见的摘要算法,速度快,生成128bit字节,以32位的16进制字符串表示
比MD5更安全的算法是 SHA1,速度慢,生成150bit字节,以40位的16进制字符串表示
比SHA1更安全的有SHA256和SHA512。

应用:数据库储存用户的密码,一般是经过摘要算法处理的,把用户的密码经过摘要算法
转换后再和数据库的匹配。即使数据库泄露了别人也不会知道密码。

  1. hmac
    通过一个标准算法,在计算哈希的过程中,把key混入计算过程中。
    Python自带的hmac模块实现了标准的Hmac算法。

    import hmac
    message = b’Hello, world!’
    key = b’secret’
    h = hmac.new(key, message, digestmod=’MD5’)

    如果消息很长,可以多次调用h.update(msg)

    h.hexdigest()

    'fa4ee7d173f2d97ee79022d1a7355bcf'
    
  1. itertools
    Python的内建模块itertools提供了非常有用的用于操作迭代对象的函数。
    itertools提供了几个无限迭代器:count()、cycle()、repeat()
    count:

    import itertools
    natuals = itertools.count(1)
    for n in natuals:

    ...     print(n)
    ...
    1
    2
    3
    ...
    

    cycle:
    import itertools
    cs = itertools.cycle(‘ABC’) # 注意字符串也是序列的一种
    for c in cs:

    ...     print(c)
    ...
    'A'
    'B'
    'C'
    'A'
    'B'
    'C'
    ...
    

    repeat:
    ns = itertools.repeat(‘A’, 3)
    for n in ns:

    ...     print(n)
    ...
    A
    A
    A
    

通过takewhile()等函数根据条件判断来截取出一个有限的序列:

natuals = itertools.count(1)
ns = itertools.takewhile(lambda x: x <= 10, natuals)
list(ns)
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

chain():把一组迭代对象串联起来,形成一个更大的迭代器

for c in itertools.chain(‘ABC’, ‘XYZ’):
… print(c)

# 迭代效果:'A' 'B' 'C' 'X' 'Y' 'Z'

groupby():把迭代器中相邻的重复元素挑出来放在一起

for key, group in itertools.groupby(‘AaaBBbcCAAa’, lambda c: c.upper()):
… print(key, list(group))

A [‘A’, ‘a’, ‘a’]
B [‘B’, ‘B’, ‘b’]
C [‘c’, ‘C’]
A [‘A’, ‘A’, ‘a’]

  1. contextlib
    读写文件之后,需要close关闭该文件释放内存。可以通过with来简化该操作。
    with 其实是 类中定义的方法,enterexit。只要在类中定义这两个
    方法就可以实现with。例如:
    class Query(object):
    def __init__(self, name):
        self.name = name
    def __enter__(self):
        print('Begin')
        return self
    def __exit__(self, exc_type, exc_value, traceback):
            if exc_type:
                print('Error')
        else:
               print('End')
    def query(self):
            print('Query info about %s...' % self.name)
    

    with Query(‘Bob’) as q:

    q.query()
    

    #Begin
    #Query info about Bob…
    #End

Python的标准库contextlib提供了更简单的写法
@contextmanager这个decorator接受一个generator,
用yield语句把with … as var把变量输出出去,然后,with语句就可以正常地工作了:
@contextmanager
def tag(name):
print(“<%s>” % name)
yield
print(“</%s>” % name)
with tag(“h1”):
print(“hello”)
print(“world”)

#

hello
world

closing:,假如该对象没有实现上下文,用closing()来把该对象变为上下文对象
from contextlib import closing
from urllib.request import urlopen
with closing(urlopen(‘
https://www.python.org‘)) as page:
for line in page:
print(line)

closing也是一个经过@contextmanager装饰的generator:
@contextmanager
def closing(thing):
try:
yield thing
finally:
thing.close()

  1. urllib
    urllib提供了一系列用于操作URL的功能。
    GET:urllib的request模块可以非常方便地抓取URL内容,也就是发送一个GET请求到指定的页面,
    然后返回HTTP的响应。
    from urllib import request
    with request.urlopen('https://api.douban.com/v2/book/2129650') as f:
            data = f.read()
            print('Status:', f.status, f.reason)
            for k, v in f.getheaders():
                print('%s: %s' % (k, v))
           print('Data:', data.decode('utf-8'))
    
  1. XML
    pass
  2. HTMLParser
    pass