Swift 与C语言交互 /posts/swift_interacts_with_c_language/ 与C语言交互发生在使用一些C语言编写的API上。C语言的语法会桥接到Swift中对应的语法中。Swift能很好地与C语言交互。

类型

C语言的基础类型、枚举、结构体、联合体在Swift中都有对应。

其中基础类型是一一对等的。其命名方式对C中的类型采取驼峰式命名之后，加上前缀字母C。

例如：

int 变成 CInt；
unsigned char 变成 CUnsignedChar；
unsigned long long 变成 CUnsignedLongLong；

其中，只有有三个表示宽字符的类型是特殊的：

wchat_t 变成 CWideChar；
char16_t 变成 CChar16；
char32_t 变成 CChar32；

这些在Swift对应的基础类型都是typealias，在Swift应应使用typealias类型而不直接使用原生类型。

变量

全局变量/常量也同样映射到Swift的全局变量/常量中。

枚举、结构体、联合体

C中的枚举只是一个普通的基础常量，除非使用NS_×_ENUM、NS_OPTIONS关键字修饰来定义枚举才会映射到Swift中的结构体，但基本使用跟Swift的枚举无异。

结构体则可以直接映射到Swift的结构体。

联合体则是映射到一个结构体中。

函数

C语言的函数基本能映射到Swift的函数中，除了不支持不固定参数函数，作为替代方案，Swift支持映射va_list表示的可变参数列表。

使用CF_SWIFT_NAME还能把C函数重命名甚至并入extension中。

指针

Swift的指针都带有Unsafe关键字，表示其使用在编译期可能是不可预测的。

Apple Developer 文档里有 C 指针和 Swift 指针的对应表：

C Syntax	Swift Syntax
`const Type *`	UnsafePointer
`Type *`	UnsafeMutablePointer
`Type * const *`	UnsafePointer
`Type * __strong *`	UnsafeMutablePointer
`Type **`	AutoreleasingUnsafeMutablePointer
`const void *`	UnsafeRawPointer
`void *`	UnsafeMutableRawPointer

除此以外，Swift还有几种指针表达方式：

UnsafeBufferPointer、UnsafeMutableBufferPointer、UnsafeRawBufferPointer、UnsafeMutableRawBufferPointer
OpaquePointer

Buffer

它相当于在原始内存空间上添加一个view，以步幅（MemoryLayout<T>.stride）单位，以集合的方式访问底层内存。对应C语言的就是数组的访问。

OpaquePointer

对于在C回调函数中要传递Swift的对象时，这些对象可能无法桥接到C的类型，这时就要用到OpaquePointer。

转换Swift对象为指针需要用到Unmanaged。

var fooObj = Foo()
// 创建Unmanaged<Foo>实例
let unmanagedFoo = Unmanaged.passRetained(fooObj)
// 转换成OpaquePointer，该指针可直接传递到void *的C指针中
let unmanagedPtr = unmanagedFoo.toOpaque()

// 传递到C函数
aFuncWithCallback(unmanagedPtr) {
    (ptr: UnsafeMutableRawPointer?) -> Void in
    // 创建Unmanaged<Foo>，并转换为Foo类型
    let fooObj =
        Unmanaged<Foo>.fromOpaque(ptr!).takeUnretainedValue()
    print(fooObj.foo)
}

Unmanaged创建和转换都有Retained和Unretained版本，对应的是指是否引用计数操作。Pass方法是否+1引用计数；take方法是否-1引用计数。

字符串指针

C中表示字符串的 char *，桥接到Swift会变成 UnsafeMutablePointer<Int8>，可以通过相应的构造方法创建String类型。

指针转换

方法参数是指针

调用将指针作为参数的函数时，可以使用隐式转换来传递兼容的指针类型或使用隐式桥接来传递指向变量或数组内容的指针。

若是常量指针参数（UnsafePointer<Type>），可以直接传递：字符串、指定类型数组、指定类型的inout表达式。

若是可变指针参数（UnsafeMutablePointer<Type>），可以直接传递：指定类型数组的inout表达式、指定类型的inout表达式。

向下隐式转换

指针在作为函数参数传递时，可以隐式转换：

不可变指针 -> 可变指针
类型指针 -> 原始指针

Raw可以直接兼容没有Raw的类型指针。如：需要UnsafeRawPointer类型参数时，可以直接传递UnsafePointer<Type>。

隐式桥接

类型变量/常量、数组、字符串，在传递给指针参数时会进行隐式桥接。

Swift基本类型 -> 指针

即用指针访问Swift变量/常量。

使用withUnsafexxxPointer函数，在闭包中用指针临时访问指向的变量/常量。

注意：在闭包中得到的指针不要返回出去。因为这是随外部变量/常量的生命周期影响，会因为其变量/常量销毁而变成野指针。

顶级函数：

// 指向具体类型变量的类型指针
func withUnsafePointer<T, Result>(to value: inout T, _ body: (UnsafePointer<T>) throws -> Result) rethrows -> Result
func withUnsafeMutablePointer<T, Result>(to value: inout T, _ body: (UnsafeMutablePointer<T>) throws -> Result) rethrows -> Result

// 以字节为单位访问，注意闭包中的参数是Buffer类型
func withUnsafeBytes<T, Result>(of value: inout T, _ body: (UnsafeRawBufferPointer) throws -> Result) rethrows -> Result
func withUnsafeMutableBytes<T, Result>(of value: inout T, _ body: (UnsafeMutableRawBufferPointer) throws -> Result) rethrows -> Result

数组中的应用

withUnsafeBytes、withUnsafeMutableBytes
withUnsafeBufferPointer、withUnsafeMutableBufferPointer

// withUnsafeMutableBytes应用
var numbers: [Int32] = [0, 0]
var byteValues: [UInt8] = [0x01, 0x00, 0x00, 0x00, 0x02, 0x00, 0x00, 0x00]

numbers.withUnsafeMutableBytes { destBytes in
    byteValues.withUnsafeBytes { srcBytes in
        destBytes.copyBytes(from: srcBytes)
    }
}
// numbers == [1, 2]

// withUnsafeBytes应用
var numbers = [1, 2, 3]
var byteBuffer: [UInt8] = []
numbers.withUnsafeBytes {
    byteBuffer.append(contentsOf: $0)
}
// byteBuffer == [1, 0, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 0, ...]

// withUnsafeBufferPointer应用
let numbers = [1, 2, 3, 4, 5]
let sum = numbers.withUnsafeBufferPointer { buffer -> Int in
    var result = 0
    for i in stride(from: buffer.startIndex, to: buffer.endIndex, by: 2) {
        result += buffer[i]
    }
    return result
}
// 'sum' == 9

// withUnsafeMutableBufferPointer应用
var numbers = [1, 2, 3, 4, 5]
numbers.withUnsafeMutableBufferPointer { buffer in
    for i in stride(from: buffer.startIndex, to: buffer.endIndex - 1, by: 2) {
        buffer.swapAt(i, i + 1)
    }
}
print(numbers)
// Prints "[2, 1, 4, 3, 5]"

字符串中的应用

withCString
withUTF8

Data中的应用

withUnsafeBytes
withUnsafeMutableBytes

指针类型转换

注意Swift中的指针类型不存在继承关系。

类型指针 -> 原始指针

直接用原始指针的构造方法进行转换，如果是作为入参，则无需转换直接传递即可。

原始指针 -> 类型指针

永久绑定：bindMemory、assumingMemoryBound，两者操作的类型必须一致。

这种方式需要从原始指针调用，如果是类型指针要转换类型，则须转换为原始指针，再调用绑定类型方法。bindMemory会导致原来的类型指针是未定义的，如果修改后兼容原来。

临时转换访问：withMemoryRebound，该方法的访问发生在闭包参数中。

访问指向的值

若是类型指针（UnsafePointer<Type>），可直接访问pointee，可读写。

若是原始指针（UnsafeRawPointer），使用load方法，返回指定偏移的具体类型。只读。

当然对于可变原始指针（UnsafeMutableRawPointer），有对应的写入方法：

copyMemory：从其他原始指针拷贝字节数据
storeBytes：写入具体类型

C指针使用注意

在 Core Foundation 里，几乎所有用 Create 和 Copy 开头的函数，只要它们返回一个非托管的对象，我们几乎总是应该使用 takeRetainedValue() 方法来读取。

Unmanaged - NSHipster

参考

]]> iOS Apple Swift Swift 字节序操作 /posts/swift_byte_order_operation/ 整型提供不同字节序的视图：

littleEndian
bigEndian
byteSwapped：字节序翻转，即大端->小端，或小端->大端

若是整数值等于小端序的结果，则说明该平台是小端序的。

当然字节序是在该类型大小是大于1字节的才有效果。

Core Fundation也提供了一系列字节序的操作，如较常用的把原本数据的大端序、小端序转换为主机序：

CFSwapInt32BigToHost
CFSwapInt32LittleToHost

一般我们都是事先知道数据是用哪种字节序编码的，这是编码时约定的，而解码时则需要把某些数据还原成可读的值，这就涉及不同平台字节序的转换。

参考

Byte-Order Utilities | Apple Developer Documentation

]]> iOS Apple Swift Swift 底层 /posts/swift_underlying/ OC的Runtime机制使得它可以被认为是一种动态语言。

Swift则取消了Runtime这个能力，让Swift称为一门静态语言。Swift语言的对象方法调用基本在编译期间就被确定，可以看做是一种硬编码形式的调用实现。这种机制加快了程序的运行速度、减少程序包体积，但在编译连接优化功能开启时反而又会出现增大包提及的情况。Swift在编译连接期间采用的是空间换时间的优化策略，以提高运算行速度为主要优化考虑点。

OC类对象方法调用

OC对象调用方法都通过消息发送的objc_msgSend完成，并至少传入调用对象和对象方法名称作为参数，方法根据对象找到类结构信息，通过方法名来找到最终调用的方法函数地址，并最终完成函数的调用。这是OC Runtime的实现机制，同时也是OC对多态的实现。

Swift类对象

Swift类对象按其基类可分为：

从NSObject及其子类派生的类。
SwiftObject派生的类（SwiftObject是隐藏的类，不会在源代码中体现）。

Swift类对象内存布局和OC类内存布局相似。都是在最开始部分有一个isa指针，指向类的描述信息。Swift类的描述信息结构继承自OC类的描述信息，但没有完全使用其中的属性，对于方法的调用主要是使用其中扩展的序函数表的区域。

Swift对象实例都是在堆内存中创建，与OC一致。Swift类在实例化时，会生成堆内存分配和初始化函数，形式为：

模块名.类名.__allocating_init(类名,初始化参数)

与OC一致，Swift类实例也是通过引用计数管理生命周期，所以也会在编译时插入swift_retain、swift_release函数，当前引用计数为0后，就调用生成的西沟和销毁函数，形式为：

模块名.类名.__deallocating_deinit(对象)

Swift方法调用

Swift类定义的方法可分为：

OC类派生类并重写的方法
扩展中定义的方法
类中定义的一般方法

对于这三种方法，系统采用的处理和调用机制是完全不一样的。

OC类派生类并重写的方法

这些方法还是与OC类原本方法的调用机制一致，即也是使用objc_msgSend调用。

扩展中定义的方法

这里的扩展中定义的方法是不包含重写OC基类的方法。这种方法调用时在编译期就决定的，即在调用方法时，直接使用硬编码的函数地址。这也决定了扩展中的方法无法在运行时做替换和改变。

同时这类方法的符号信息不保存到类的描述信息中，也决定了派生类中不能重写扩展中的定义的方法，即不支持多态。

类中定义的一般方法

Swift在未开启编译链接优化时，对象的方法调用实现机制和C++的虚函数调用机制类似。Swift为每个类都建立一个虚函数表的数组结构，保存着所以定义的常规成员方法的地址。

在方法调用时，不再想使用objc_msgSend调用传入调用对象和方法名，而是直接调用函数地址，而调用对象则存在x20寄存器中，让代码更加安全。

虽然类中方法在虚函数表中的索引值是在编译期确定的，但基类和派生类虚函数表中相同索引处的函数地址可以不一样，即当子类重写了父类某个方法时，会分别生成两个类的虚函数表，在相同的索引位置保存不同的函数地址实现多态。

另外，为了实现方法重载和运算符重载，函数名字会进行修饰重命名，规则如下：

_$s<模块名长度><模块名><类名长度><类名>C<方法名长度><方法名>yy<参数类型1>_<参数类型2>_<参数类型N>F

Swift的成员变量

OC类的成员变量根据定义顺序排在isa后面，另外还会生成一张变量偏移表，通过偏移来访问成员变量。

Swift简化了对成员变量的访问。直接在编译链接时确定成员变量在对象的偏移位置。且不生成变量编译信息表。

结构体

初始化器与属性默认值在汇编上是一样的。

Swift结构体与C结构体的内存结构是一样的，成员变量内存都是紧挨在一起。

Swift结构体内存结构中没有保存isa，即没有保存结构体信息，因此不支持多态与派生，同时结构体中的所有方法都是通过在编译期硬编码实现的。

类方法和全局函数

Swift类方法和全局函数不存在对象作为参数，即不需要把对象保存到x20寄存器中，所以它就是个简单的C语言普通函数，只是方法名需要进行修饰重命名，所有对类方法和全局函数的调用都是在编译期硬编码为函数地址来调用的。

开启编译链接优化后

开启编译链接优化后，Swift对象方法的调用机制做了很大的优化，最主要是弱化了通过虚函数表来间接调用方法的实现，而是大量改用一些内联的方式来处理方法函数的调用。

对于多态的支持，可能不是通过虚函数来处理，而是通过类型判断，然后用条件语句分支执行方法。

Swift其他特性底层

引用类型与值类型

值类型存在栈中，引用类型存在堆中。若值类型中包含引用类型，则存储的只是引用类型的指针。

延迟存储属性

多线程同时第一次访问lazy属性，是无法保证属性只被初始化一次。

当结构体包含一个延迟存储属性时，只有var才能访问延迟存储属性。因为延迟属性初始化时要改变结构体的内存，而let修饰的结构体要求里面的所以成员都完成初始化，两者相悖。

延迟属性也不能添加属性观察器。

类存储属性

类存储属性默认就是lazy修饰，且能有let修饰成常量，会在第一次使用的时候才初始化。类存储属性时多线程安全的（系统底层会有加锁处理）。这其中调用了swift_once函数，内部调用了dispatch_once函数。

类存储属性实际上是全局变量。

输入输出参数

inout参数本质是地址传递（引用传递）。在汇编使用leaq传递地址，而一般参数则是使用movq传递值。

限制：

不能有默认值
需要时左值。

对于有属性观察器以及计算属性，在get/set输入输出参数时，也会触发相关的方法调用。

所以，如果实参有物理内存地址，且有设置属性观察器，则直接把实参的内存地址传入参数（实参进行引用传递）。

如果实参是计算属性或设置了属性观察器，则采取Copy In Copy Out的做法：在调用该函数时，先复制实参的值，产生副本（可以理解成getter操作），将副本的内存地址传入参数（副本进行引用传递），在函数内部修改副本的值，函数返回后，再将副本的值覆盖实参的值（可以理解为setter操作）。

函数重载

返回值不参与函数重载。

内联函数

开启编译器优化后，编译器会将某些函数转为内联函数，即把函数展开成函数体。但以下情况不会被自动内联：

函数体较长
包含递归调用的函数
包含动态派发的函数

闭包

闭包的定义：一个函数和它所捕获的变量/常量环境组合起来。

闭包函数会把捕获的变量存储到堆中动态申请的内存空间上。存储的信号包含类型描述信息、引用计数信息、具体值。每次闭包函数调用，都会动态申请一段新的堆内存在存放新的捕获变量。若没有捕获变量，则不回分配堆空间。

内存布局如下：

所以闭包的内存布局与实例对象很相似：共享方法、各自管理自己的成员变量。

空合并运算符??默认值是个自动闭包，这可以在可以解包的情况下不调用默认值的逻辑。

public func ?? <T>(optional: T?, defaultValue: @autoclosure () throws -> T?) rethrows -> T?

参考

]]> iOS Apple Swift APNs /posts/apns/ 基本原理：

后端把要发送的消息、目标设备标识打包，发送给APNS。
APNS在已注册推送服务的设备列表中，查找符合标识的设备，把消息发送到设备。
设备把发送来的消息传递给相应的App，按照设定弹出推送通知。

细节

注册过程：

设备链接APNs并携带设备UUID；
连接成功后，APNs经过打包和处理产生deviceToken返回到注册的设备。
设备把deviceToken发送到自己服务器。

推送过程：

设备装有App，且有网络的情况下，APNs会验证deviceToken，成功后会处于一个长连接。
后端发送消息时，后端按照指定格式进行打包，结合deviceToken一起发送到APNs。
APNs把新消息发送到设备，然后根据设定弹出推送通知。

]]> iOS Apple KVC /posts/kvc/ KVC，Key Value Coding，是一种通过字符串key来访问类属性的机制。不是通过调用setter、getter方法访问。

KVC和KVO都属于键值编程，而且底层实现机制都是isa-swizzing。

设值流程

按顺序查找setKey:、_setKey:方法，找到方法则传递参数，调用方法。否则继续。
调用accessInstanceVariablesDirectly方法。
- YES：默认，查找成员变量：
  1. 按照_key、_isKey、key、isKey 的顺序查找，找到了就直接赋值。
- NO：进入下一步。
调用setValue:forUndefinedKey:方法，并抛出NSUnknownKeyException异常。

setValue:forUndefinedKey:方法的默认实现就是抛出异常，所以可以通过重写该方法避免抛出异常。

取值流程

基本与设值流程一致，只是把set关键字改成get。

按顺序查找getKey、key、isKey、_key方法，找到方法则直接调用。否则继续。
调用accessInstanceVariablesDirectly方法。
- YES：默认，查找成员变量：
  1. 按照_key、_isKey、key、isKey 的顺序查找，找到了就直接取值。
- NO：进入下一步。
调用valueForUndefinedKey:方法，并抛出NSUnknownKeyException异常。

参考

KVC那点儿事 | 殷永振

]]> iOS Apple KVO /posts/kvo/ KVO用于逻辑隔离对象之间的监听，支持一对一和一对多的属性监听。这里的一对一和一对多是针对监听的属性的，即既可以监听单个属性，也可以监听集合属性。

在OC中，所有NSObject子类的所有属性（包括计算属性）都支持KVO；而在Swift中，只有在@objc dynamic修饰的属性（包括计算属性）才支持KVO，即使用@objc dynamic修饰的属性与OC行为一致。

KVC和KVO都属于键值编程，而且底层实现机制都是isa-swizzing。

KVO和NSNotificationCenter都是iOS观察着模式的一种实现。KVO对被监听对象无侵入性，即无需修改代码即可支持监听。

使用

注册监听：

[bankInstance addObserver:personInstance forKeyPath:@"accountBalance" options:NSKeyValueObservingOptionNew | NSKeyValueObservingOptionOld context:NULL];

bankInstance是变更发出的对象。personInstance是响应变更的对象。@"accountBalance"是bankInstance的key path。

选项是多选的，影响change字典内容和生成通知的方式。

new：change字典包含新值
old：change字典包含旧值
initial：注册监听时即发送变更通知
prior：在变更通知前发送一次变更前的通知，即每个变更两次通知，一个willChange，一个didChange

change字典的键：

kind：改变类型
- setting：对象或集合赋值替换
- insertion：对象插入到集合属性中
- removal：对象从集合中移除
- replacement：对象从集合中替换
new：新值
old：旧值
indexes：插入/移除/替换对象的索引
prior：标识该通知是willChange的，否则是didChange的

new、old可以时单个对象，也可以时对象集合，表示集合时表示移除/替换的对象。

移除监听可在这两个时机完成：

不需要监听时。
被观察对象、观察者对象销毁时。被观察对象与观察者对象常常具有相同的生命周期。

使用注意：

移除监听的调用角色与注册监听保持一致。
多次注册监听导致多次响应。didChnage变更通知的顺序与注册顺序相反，即以先进后出的顺序调用。
注册监听与移除监听必须保持配对，多了少了都会导致异常崩溃。但iOS 11以上不会崩溃。

手动处理变更通知

在被观察对象（如上面的BankObject）重写+automaticallyNotifiesObserversForKey:方法（默认返回YES，即默认所有键值都会通知变更），定义需要手动控制的属性。记得在不需要修改的key上返回super方法。
在需要发送通知的地方调用：
- 一对一：willChangeValueForKey:、didChangeValueForKey:
- 有序一对多：willChange:valuesAtIndexes:forKey:、didChange:valuesAtIndexes:forKey:
- 无序一对多：willChangeValueForKey:withSetMutation:usingObjects:、didChangeValueForKey:withSetMutation:usingObjects:

如果没有重写相关通知方法，则只会在initial选项生效。

手动处理变更通知的应用场景：

筛选通知，如去重、控制通知发送时机。
多个键的通知一起发送。

注册依赖键

需要在被观察对象（如上面的BankObject）重写+keyPathsForValuesAffectingValueForKey:方法或+keyPathsForValuesAffecting<Key>方法，返回给定key依赖的key path集合。记得在不需要修改的key上返回super方法。

注意：+keyPathsForValuesAffecting<Key>方法在Swift中要声明为@objc。否则不会识别。这种方法还可以用于在分类添加依赖键。

注册集合监听

对不可变集合采用一对一的对象赋值方式更新，对于可变集合，访问集合时，不能直接访问对应属性，需要使用mutableArrayValueForKey:类似的方法取出集合，对取出的集合进行增删改都会出发变更通知。

集合注册依赖键比较麻烦，需要使用KVC的方式。

新特性与坑

Swift重新封装了注册和移除监听的方式：

// 注册与取消
func observe<Value>(_ keyPath: KeyPath<_KeyValueCodingAndObserving, Value>, options: NSKeyValueObservingOptions = [], changeHandler: @escaping (_KeyValueCodingAndObserving, NSKeyValueObservedChange<Value>) -> Void) -> NSKeyValueObservation
func invalidate()

// 使用
weather.observe(\.text, options: [.initial, .new, .old, .prior], changeHandler: printSwiftKVOReponse)

iOS 11以下使用时，需要主动置空NSKeyValueObservation或调用invalidate方法。

Swift的KVO方式弱化了observer的存在，而是使用block接收变更通知。并返回一个token，用token进行取消注册。进而替代原有的注册与取消监听的方式。而其他方法observing对象的方法基本不变。

另外@objc dynamic只支持与OC共用的类型，像Swift的枚举、结构体、元组都不支持。

监听OC的枚举类型还会出问题，导致change的所有值都为空，而使用传统的注册监听方式是正常的。

即使测试中监听可选类型的属性也会导致上述问题。

KVO实现原理

使用runtime创建被观察对象的子类，重写sttter，附加KVO通知逻辑，然后把isa指针指向创建的子类并重写相关方法，实现对原本对象的替换。

在运行时根据原类创建一个中间类，这个中间类是原类的子类，并动态修改当前对象的isa指向中间类，并将class方法重写，返回原类的Class。当修改实例对象属性时，会调用Foundation的_NSSetXXXValueAndNotify函数，函数先调用willChangeValueForKey:，然后调用父类原来的setter方法修改值，最后是didChangeValueForKey:，这些方法触发Observer的监听方法。

触发机制

所以，基于原理得知，所有调用属性setter的都会触发KVO通知，所以KVC也会触发KVO，但直接修改成员变量则不会。

注意：使用KVC能对没有setter的属性，甚至成员变量修改值，这都会触发相同keyPath的KVO通知。

参考

在Swift中使用KVO：Using Key-Value Observing in Swift
关于KVO看这篇就够了 | 殷永振

]]> iOS Apple Objective-C：Block /posts/block/ 变量捕获机制

全局变量：不会捕获到block内部，直接访问。
auto基本类型的局部变量，捕获到block内部，生成成员变量来存储，以值传递的方式访问。
static类型的局部变量：捕获到block内部，生成成员变量来存储，以指针方式访问。
对象类型的局部变量：连同它的所有权修饰符一起捕获。

变量捕获修饰符

__weak是为了防止循环引用。在block中访问weak指针，当对象被释放时，指针置空，变成nil调用相关方法。
__strong是为了延长生命周期。这里用在block和目标对象存在相互引用的关系才有效，且赋值的是weak指针，作用是使其引用计数+1。相当于声明了个局部变量。
__block是为了在block内部可以修改外部的变量。
- 如果想用__block解决循环引用，必须要在block中将其修饰的变量置空。

- (void)touchesBegan:(NSSet<UITouch *> *)touches withEvent:(UIEvent *)event {
    [self dismissViewControllerAnimated:true completion:nil];
    
    __weak typeof(self) _self = self;
    TestViewController *tmp = self;
    self.block = ^{
        // 1⃣️
        // 注意声明是发生在这里，即weak self指向的对象还没被销毁的时候
        __strong typeof(_self) s_self = _self; // 同下
        // TestViewController *s_self = _self;
        // TestViewController *s_self = tmp; // 还是导致循环引用
        dispatch_after(dispatch_time(DISPATCH_TIME_NOW, (int64_t)(1 * NSEC_PER_SEC)), dispatch_get_main_queue(), ^{
            // 2⃣️
            NSLog(@"block属性延时weak: %@, strong: %@", _self, s_self);
            // weak == strong != nil
        });
    };
    self.block();
}

注意，给__strong变量赋值的弱引用必须在弱引用指向的对象还没被销毁的时候完成赋值，否则拿到的弱引用是个nil。

另外，如果只是在1⃣️处定义并赋值了强引用对象，而在2⃣️处没有使用，则2⃣️处访问的弱引用也是空的。

底层数据结构

block本质也是一个OC对象，内部也有个isa指针。封装了函数调用以及调用环境。

参考

OC 底层探索 - Block 详解 - 掘金

]]> iOS Apple Objective-C Objective-C：内省 /posts/introspection/

isMemberOfClass：对象是否是某类型对象。

isKindOfClass：对象时否是某类型或类型子类的对象。

isSubclassOfClass、isAncestorOfObject：类对象是否是另一个类型的子类、父类。

respondsToSelector：是否能响应某方法。

conformsToProtocol：是否遵循某协议。

class与object_getClass：

实例class = object_getClass(self)
类class返回自身；object_getClass(类对象)返回元类。

实现：

// 判断当前对象、类的isa指向是不是类、原类
+ (BOOL)isMemberOfClass:(Class)cls {
    return object_getClass((id)self) == cls;
}
- (BOOL)isMemberOfClass:(Class)cls {
    return [self class] == cls;
}

// 判断当前对象、类的isa是不是类、元类或者其子类类型
+ (BOOL)isKindOfClass:(Class)cls {
    for (Class tcls = object_getClass((id)self); tcls; tcls = tcls->superclass) {
        if (tcls == cls) return YES;
    }
    return NO;
}
- (BOOL)isKindOfClass:(Class)cls {
    for (Class tcls = [self class]; tcls; tcls = tcls->superclass) {
        if (tcls == cls) return YES;
    }
    return NO;
}

Class object_getClass(id obj)
{
    if (obj) return obj->getIsa();
    else return Nil;
}

显然isKindOfClass范围更大，当调用对象和参数都是类时，类对象的isa指向元类对象，而其元类的superclass指向class对象，所以满足条件返回YES。所以[instance/class isKindOfClass:[NSObject class]];都返回 1。

@interface Person : NSObject
@end
......
    BOOL res1 = [[NSObject class] isKindOfClass:[NSObject class]];
    BOOL res2 = [[NSObject class] isMemberOfClass:[NSObject class]];
    BOOL res3 = [[Person class] isKindOfClass:[Person class]];
    BOOL res4 = [[Person class] isMemberOfClass:[Person class]];

    NSLog(@"%d,%d,%d,%d", res1, res2, res3, res4);
......

    // 1,0,0,0

]]> iOS Apple Objective-C Objective-C：Tagged Pointer /posts/tagged_pointer/ 介绍：

TaggedPointer专门用来存储小的对象，如NSNumber、NSDate、NSString。其存储的不是地址，而是真正的值，所以它直接存储到栈中。

引入：

对于指针类型，其长度足够存储一些短小的值，而不必操作堆分配与管理内存。对于大的值，即超过指针类型长度的，则还是在堆中分配内存。所以对于小的值指针内容就包含值，而大的值才是堆内存地址。

存储内容：值+标记

面试题

执行以下两段代码，有什么区别？

dispatch_queue_t queue = dispatch_get_global_queue(0, 0);
for (int i = 0; i < 1000; i++) {
    dispatch_async(queue, ^{
        self.name = [NSString stringWithFormat:@"abcdefghij"];
    });
}

会崩溃，因为该name为__NSCFString类型，存储在堆上，是个常规对象，需要维护引用计数。通过setter赋值，异步并发调用会有多条线程执行[_name release]，连续release两次就会造成对象的过度释放。

dispatch_queue_t queue = dispatch_get_global_queue(0, 0);
for (int i = 0; i < 1000; i++) {
    dispatch_async(queue, ^{
        self.name = [NSString stringWithFormat:@"abcdefghi"];
    });
}

正常，该name为NSTaggedPointerString类型，在objc_release函数中会判断指针是不是TaggedPointer类型，是的话就不对对象进行release操作，也就避免了过度释放对象。

参考

]]> iOS Apple Objective-C Runtime：方法调用与对象本质 /posts/runtime_method_call_and_object_essence/ 方法调用的流程：

objc_msgSend调用方法的本质是通过isa指针找到该类，然后寻找方法，找到后调用。如果没有找到则通过superClass找到父类，继续查找方法。

对象结构体中的isa指向类对象。类对象的isa指向元类。元类的isa指向NSObject的元类。

对象方法是保存在类对象的结构体中，所以调用实例方法时，要去类对象中查找。以此类推，类方法也是如此。

实例对象存放isa指针以及示例变量，通过isa指针可以找到实例对象所属的类对象。类中存放着方法列表。方法列表中SEL作为key，IMP作为value。在编译期间，根据方法名字会生成唯一的标识SEL。IMP是指向最终函数实现的函数指针。整个Runtime的核心是objc_msgSend函数，通过给类发送SEL传递消息，找到匹配的IMP再获得最终的实现，并执行方法。

消息发送阶段：

判断receiver是否为空，是则直接返回，否则继续。
从receiverClass的缓存中，查找方法找到则调用方法，否则继续。
从receiverClass的class_rw_t中查找方法，如果找到了则缓存下来，调用方法，否则继续。
去父类的缓存和class_rw_t中查找，步骤同上，找到了则缓存下来，没有则继续往上找父类，都没有则消息发送阶段结束，进入第二阶段：动态方法解析。

动态方法解析阶段：

调用-/+resolveClassMethod:，在方法中调用class_addMethod函数添加SEL对应的方法实现IMP。以上方法中没有处理，则进入第三阶段：消息转发。

消息转发阶段：

判断-/+forwardingTargetForSelector:的返回值，非空则调用objc_msgSend(返回值, SEL)，向返回值发送消息。返回空则继续。
调用-/+methodSignatureForSelector:方法，如果返回不为空，则调用-/+forwardInvocation:方法中处理。若本类无法处理则继续往父类查询。如果返回空，则继续。
调用-doesNotRecognizeSelector:方法。

注意：只能对运行时动态创建的类添加成员变量（ivars），不能向已存在的类添加成员变量。因为在编译时只读的class_ro_t结构体就被确定下来，其包含了分配对象的空间大小，在运行时不可改变。

NSProxy

NSProxy和NSObject是同一层级的，可以理解为NSProxy是一个基类，都遵循了NSObject协议。NSProxy就是专门用来解决重点对象转发的问题。

与NSObject接收消息流程不一样，NSProxy简化了其中的流程：

[proxyObj message]
到proxyObj类对象寻找对应的方法，找到调用。否则继续。
尝试调用resolveClassMethod进行动态方法解析
~~尝试进入父类对象递归查找方法，找到调用。否则继续。~~
~~尝试调用forwardingTargetForSelector进行消息转发。返回空则继续。~~
尝试调用methodSignatureForSelector+forwardInvocation进行消息转发。

所以对于处理消息转发，它比NSObject更高效。也阐明了该类的使用方式就是实现消息转发的两个方法即可。

注意，无需调用init方法。

#import "CLProxy2.h"

@implementation CLProxy2

+(instancetype)proxyWithTarget: (id)target {
	// NSProxy对象不需要调用init，因为它本来就没有init方法，直接alloc之后就可以使用
    CLProxy2 *proxy = [CLProxy2 alloc];
    proxy.target = target;
    return proxy;
}


-(NSMethodSignature *)methodSignatureForSelector:(SEL)sel {
    return [self.target methodSignatureForSelector:sel];
}

-(void)forwardInvocation:(NSInvocation *)invocation {
    invocation.target = self.target;
    [invocation invoke];
}

@end

isa

从arm64架构开始，isa变成了一个共用体（union）结果，使用位域来存储更多信息。

union isa_t {
    isa_t() { }
    isa_t(uintptr_t value) : bits(value) { }

    Class cls;
    uintptr_t bits;
    struct {
        ISA_BITFIELD;  // defined in isa.h
    };
};

define ISA_BITFIELD                                                      \
      uintptr_t nonpointer        : 1;   //指针是否优化过                                   \
      uintptr_t has_assoc         : 1;   //是否有设置过关联对象，如果没有，释放时会更快                                   \
      uintptr_t has_cxx_dtor      : 1; 	 //是否有C++的析构函数（.cxx_destruct），如果没有，释放时会更快                                     \
      uintptr_t shiftcls          : 33; //存储着Class、Meta-Class对象的内存地址信息 \
      uintptr_t magic             : 6;  //用于在调试时分辨对象是否未完成初始化                                     \
      uintptr_t weakly_referenced : 1;  //是否有被弱引用指向过，如果没有，释放时会更快                                     \
      uintptr_t deallocating      : 1;  //对象是否正在释放                                     \
      uintptr_t has_sidetable_rc  : 1;  //引用计数器是否过大无法存储在isa中                                     \
      uintptr_t extra_rc          : 19 //里面存储的值是引用计数器减1
#   	define RC_ONE   (1ULL<<45)
#   	define RC_HALF  (1ULL<<18)

nonpointer：0：普通指针，存储着Class、Meta-Class对象的内存地址；1：优化过，使用位域存储更多的信息。
has_assoc：是否有关联过对象。否：释放更快。
has_cxx_dtor：是否有C++析构函数（.cxx_destruct）。否：释放更快。
shiftcls：存储着Class、Meta-Class对象的内存地址信息。
magic：调试时分辨是否完成初始化。
weakly_referenced：是否被弱引用指向过。否：释放更快。
deallocating：对象是否正在释放。
extra_rc：引用计数器-1。
has_sidetable_rc：引用计数器是否过大无法存储在isa中。1：引用计数器会存储在SideTable类的属性中。

void *objc_destructInstance(id obj) 
{
    if (obj) {
        //是否有C++的析构函数
        bool cxx = obj->hasCxxDtor();
        //是否有设置过关联对象
        bool assoc = obj->hasAssociatedObjects();
        //有C++的析构函数，就去销毁
        if (cxx) object_cxxDestruct(obj);
         //有设置过关联对象，就去移除管理对象
        if (assoc) _object_remove_assocations(obj);
        
        obj->clearDeallocating();
    }

    return obj;
}

class

struct objc_object {
    Class _Nonnull isa  OBJC_ISA_AVAILABILITY;
};

struct objc_class : objc_object {
    // Class ISA;
    Class superclass;
    cache_t cache;    //方法缓存
    class_data_bits_t bits;    // 用于获取具体的类的信息
}

method_array_t、property_array_t、protocol_array_t是可读写的二维数组，包含了类的初始内容、分类内容。

如：method_array_t包含多个一位数组method_list_t，method_list_t里面存放多个method_t，method_t存放在方法imp指针、名称、类型等信息。

method_t

方法、函数的封装。

struct method_t {
    SEL name; // 函数名
    const char *types; // Type Encoding 编码(返回值类型，参数类型)
    MethodListIMP imp; // 指向函数的指针(函数地址)

    struct SortBySELAddress :
        public std::binary_function<const method_t&,
                                    const method_t&, bool>
    {
        bool operator() (const method_t& lhs,
                         const method_t& rhs)
        { return lhs.name < rhs.name; }
    };
};

IMP：函数的具体实现。

SEL：方法、函数名，底层结构与char *类似。可以通过@selector()和sel_registerName()获得。可以通过sel_getName()和NSStringFromSelector()转成字符串。名字相同的方法，SEL也是相同的。

class_ro_t

描述的是类的初始内容，其中的baseMethodList、baseProtocols、ivars、baseProperties是只读的一维数组。

cache_t

方法缓存。用哈希表缓存调用过的方法，可以提高方法查找速度。

当方法缓存太多的时候，超过了表容量的3/4的时候，就要扩容为原来的2倍。

类的本质

一个NSObject的本质是包含一个isa指针的结构体：

struct NSObject_IMPL {
	Class isa;
};

而其子类是在isa指针的基础上再加上自身的成员变量：

struct Student_IMPL {
    struct NSObject_IMPL NSObject_IVARS;
    int _age;
    int _no;  
};

所以一个子类的底层结构体是其父类结构体里的所有成员变量 + 子类自身定义的成员变量所组成的结构体。

class_getInstanceSize：获取OC类实例对象的实际大小。这个大小可以理解为该实例对象至少需要的空间大小，实际分配大小需要使用malloc_size。

malloc_size：得到一个指针指向的内存空间大小，这是系统为这个对象最终分配的内存大小。

所以回到问题：一个NSObject对象占用多少内存？

系统分配了16字节（通过malloc_size获取）；
NSObject内部只使用了8个字节来存放isa指针变量。

对象的种类

OC对象主要分为3类：

实例对象（instance）
类对象（class）
元类对象（meta-class）

实例对象通过类alloc方法创建出来。存放的信息：

isa指针（指向类）。
成员变量。

类对象在内存中是唯一。的类对象用来描述一个实例对象，存放信息：

isa指针（指向元类）和superclass指针
属性
对象方法
协议
成员变量

元类对象在内存中也是唯一的。元类对象用来描述一个类对象，存放信息：

isa指针和superclass指针（指向该类父类的元类）
类方法

类和元类都是objc_class（继承自objc_object），也有isa指针，也是对象。

元类的superclass指向基类的类对象，者决定了：

当我们调用一个类方法时，会通过类的isa指针找到元类，在元类中查找有无该类方法，如果没有则通过superclass逐级查询父元类，一直找到基类的元类，如果还没有，则去找基类中的同名的实例方法实现。

super

class Person: NSObject {}
class Student: Person {
    override init() {
        super.init()
        print("className: \(self.className), super.className: \(super.className)")
        // FoundationSwift.Student, FoundationSwift.Student
        print("superclass: \(self.superclass!), super.superclass: \(super.superclass!)")
        // superclass: Person, super.superclass: Person
    }
}

从上面发现， super和self调用的结构都是相同的。

super调用方法实际上是调用了objc_msgSendSuper(arg, SEL)函数。重点是第一个参数，其类型是__rw_objc_super：

//♥️♥️♥️C++中间代码里的定义
struct __rw_objc_super { 
	struct objc_object *object; 
	struct objc_object *superClass; 
	__rw_objc_super(struct objc_object *o, struct objc_object *s) : object(o), superClass(s) {} 
};

//⚠️⚠️⚠️objc源码中的定义
/// Specifies the superclass of an instance. 
struct objc_super {
    /// Specifies an instance of a class.
    __unsafe_unretained _Nonnull id receiver;

    /// Specifies the particular superclass of the instance to message. 
#if !defined(__cplusplus)  &&  !__OBJC2__
    /* For compatibility with old objc-runtime.h header */
    __unsafe_unretained _Nonnull Class class;
#else
    __unsafe_unretained _Nonnull Class super_class;
#endif
    /* super_class is the first class to search */
};

objc_super结构体成员：

id receiver：消息接收者，实参传递的就是self，即Student对象。
Class super_class：父类。

id objc_msgSendSuper(struct objc_super *super, SEL op, ...)

struct objc_super *super：结构体指针，内容是{消息接收者（recv），消息接收者的父类类对象（[[recv superclass] class]）}。objc_msgSendSuper会将消息接收者的父类对象作为消息查找的起点。
SEL op：要查找的方法。

所以说，调用super与调用self的不同只是super把查找方法的起点改为从父类开始而已，所以像一些父类没有实现，而NSObject基类实现的方法，两者调用结果无异，因为最终的消息接收者还是self，即当前对象。

若要想super和self调用方法结果不一致，必须是当前类和父类都实现了相同的方法，若只有父类实现了，就都是父类的结果。这与一般方法查找父类实现的逻辑一致。

参考

]]> iOS Apple Objective-C Runtime Runtime：综合面试题 /posts/runtime_interview_question/ Runtime综合面试题

isa指针

//***********♦️♦️CLPerson♦️♦️************
@interface CLPerson : NSObject
@property (nonatomic, copy) NSString *name;
-(void)print;
@end

@implementation CLPerson
-(void)print {
    NSLog(@"My name's %@", self.name);
}
@end

//***********🥝🥝ViewController.m🥝🥝************ 

@implementation ViewController
- (void)viewDidLoad {
    [super viewDidLoad];
    
    id cls = [CLPerson class];
    void *obj = &cls;
    [(__bridge id)obj print]; 
}
@end

最终输出结果：

My name's <ViewController: 0x7fce43e08aa0>

为什么`print`可以被调用

因为：

实例对象 = 指向类的指针
cls指向类，obj指向cls，相当于obj是指向类的指针。

所以(__bridge id)obj就相当于实例变量的效果。

为什么打印是`<ViewController: 0x7fce43e08aa0>`

首先self.name就是通过指针调用的self->_name。

实例对象底层是一个结构体，存放isa指针和成员变量列表，因为指针在arm64位上占8位，name又是CLPerson的第一个成员，所以self->_name就是基于对象地址往高地址偏移8位读取的内存。

栈空间是存放被调用函数内部所定义的局部变量的。先定义的局部变量在栈底高地址。所以上述代码的局部变量布局为：

这里隐藏了个细节：[super viewDidLoad];。该代码的底层调用是：

objc_msgSendSuper(
    (__rw_objc_super){
        (id)self, 
        (id)class_getSuperclass(objc_getClass("ViewController"))},
    @selector(viewDidLoad));

相当于cls的高地址方向还有一个self局部变量，就ViewController实例对象，所以self->_name指向的就是cls的上一个局部变量，即高地址方向偏移8位——ViewController实例对象。

扩展：类似的，如果没有[super viewDidLoad];就会出现BAD_ACCESS错误。如果cls前面多了个OC对象局部变量，则打印该局部变量。注意还是需要前面有个OC对象，否则还是会BAD_ACCESS。

更多扩展：iOS探索 isa面试题分析 - 掘金

autoreleasepool

@interface ViewController ()
{
    __weak NSString *string_weak;
}

@end

@implementation ViewController

- (void)viewDidLoad {
    [super viewDidLoad];
    
    // 各场景
    
    NSLog(@"string: %@ %s", string_weak,__func__);
}
- (void)viewWillAppear:(BOOL)animated{
    [super viewWillAppear:animated];
    NSLog(@"string: %@ %s", string_weak,__func__);
}

- (void)viewDidAppear:(BOOL)animated{
    [super viewDidAppear:animated];
    NSLog(@"string: %@ %s", string_weak,__func__);
}

场景一

NSString *str =  [NSString stringWithFormat:@"https://ityongzhen.github.io/"];
string_weak = str;

// 输出
string: https://ityongzhen.github.io/ -[ViewController viewDidLoad]
string: https://ityongzhen.github.io/ -[ViewController viewWillAppear:]
string: (null) -[ViewController viewDidAppear:]

创建对象，ref=1，并添加到当前的autoreleasepool中；
赋值到局部变量，ref+1=2；
viewDidLoad方法返回，局部变量被回收，ref-1=1；
viewDidLoad和viewWillAppear在同一个RunLoop中，所以还能访问；viewDidLoad已经是下一个RunLoop，已经被释放。

场景二

@autoreleasepool {
    NSString *str =  [NSString stringWithFormat:@"https://ityongzhen.github.io/"];
    string_weak = str;
}

// 输出
string: (null) -[ViewController viewDidLoad]
string: (null) -[ViewController viewWillAppear:]
string: (null) -[ViewController viewDidAppear:]

创建对象，ref=1；
赋值到局部变量，ref+1=2；
离开作用域域，ref-1=1；
离开autoreleasepool，调用release，ref-1=0，对象释放。

所以后序在viewDidLoad方法中访问的对象已经被释放。

场景三

NSString *str = nil;
@autoreleasepool {
    str =  [NSString stringWithFormat:@"https://ityongzhen.github.io/"];
    string_weak = str;
}

// 输出
string: https://ityongzhen.github.io/ -[ViewController viewDidLoad]
string: (null) -[ViewController viewWillAppear:]
string: (null) -[ViewController viewDidAppear:]

创建对象，ref=1；
赋值到局部变量，ref+1=2；
离开autoreleasepool，调用release，ref-1=1，对象释放。
viewDidLoad方法返回时，ref-1=0，对象被释放。

所以在viewDidLoad方法中访问对象时，还能访问，离开方法后就无法访问。

注意

如果字符串过短，会变成存储在栈的TaggedPointer，无需引用计数管理，在所有方法中都可以访问。
类似的，如果字符串位@"..."形式，则存储到常量区，也无需引用计数管理，在所有方法中也都可以访问。

对于栈上的内存，会在离开作用域后被回收。

深入浅出 Runtime（五）：相关面试题 - 掘金

]]> iOS Apple Objective-C Runtime Runtime：Category /posts/runtime_category/ 如果原来的类和分类中有相同的方法，那么最终执行的是分类方法。

编译完，每个分类都会生成一个category_t结构体，里面存储名称、对象方法列表、类方法列表、协议方法列表、属性列表。

struct category_t {
    const char *name;
    classref_t cls;
    struct method_list_t *instanceMethods;
    struct method_list_t *classMethods;
    struct protocol_list_t *protocols;
    struct property_list_t *instanceProperties;
    // Fields below this point are not always present on disk.
    struct property_list_t *_classProperties;

    method_list_t *methodsForMeta(bool isMeta) {
        if (isMeta) return classMethods;
        else return instanceMethods;
    }

    property_list_t *propertiesForMeta(bool isMeta, struct header_info *hi);
};

在合并分类的时候，其方法列表等不会覆盖原来类中的方法，是共存的。但分类的方法在前面，原来类的方法在后面，调用的时候，就会调用分类中的方法，如果多个分类的相同方法，后编译的分类会被调用。

如果想要执行被“覆盖”的类定义方法，可以逆序遍历方法列表，第一次取得的就是类定义的方法：

- (void)foo{   
  [类 invokeOriginalMethod:self selector:_cmd];
}

+ (void)invokeOriginalMethod:(id)target selector:(SEL)selector {
    uint count;
    Method *list = class_copyMethodList([target class], &count);
    for ( int i = count - 1 ; i >= 0; i--) {
        Method method = list[i];
        SEL name = method_getName(method);
        IMP imp = method_getImplementation(method);
        if (name == selector) {
            ((void (*)(id, SEL))imp)(target, name);
            break;
        }
    }
    free(list);
}

类对象/元类对象才是最终存储分类实例/类方法、属性、协议的地方。

扩展问题

Category的原本使用场景

区分不同的功能模块，使用分类单独实现。

Category的实现原理

分类编译后是category_t结构体，里面存储着分类的对象方法、类方法、属性、协议信息，在程序运行时，Runtime会把分类的数据合并到类信息（类对象、元类对象）中。

Category与Extension的区别

Extension在编译的时候，其数据已经包含在类信息中。Category在运行时才会把数据合并到类信息中。

Category为什么不能添加成员变量

category_t结构体只能存储属性，但没有存储objc_ivar_list结构体，没有用存储成员变量的地方，所以不能添加成员变量。

`+load`方法的执行

Runtime在加载类和分类的时候，会调用所有的+load方法，即使没有该类还没使用。

调用方式：函数地址直接调用。

调用时机：加载类和分类时调用一次，只会调用一次。

+load方法调用顺序：

调用类的+load
- 按照编译顺序进行；
- 先调父类，再调子类；
按照编译顺序调用分类的+load方法。

先去调用类的+load方法，若有父类则先调用父类的+load方法，再去调用分类的+load方法。

`+initialize`方法的执行

+initialize需要在使用（调用方法）类的时候才会调用。其调用顺序跟普通方法一致，即若有分类实现的+initialize方法，则调用分类的方法。

调用方式：objc_msgSend调用。

调用时机：在类第一次接收到消息时调用，所以父类可能会执行多次（只有父类实现了+initialize方法，而子类没有实现）。

参考

]]> iOS Apple Objective-C Runtime Runtime：关联对象 /posts/runtime_associative/ Associative运行时特性可以给两个对象建立关联关系，这是一种从属关系。

实现原理

组成部分：

AssociationsManager：管理一个AssociationsHashMap。
AssociationsHashMap：用objc_setAssociatedObject传入的object为基础，进行一些其他操作后作为Key，ObjectAssociationMap为Value。
ObjectAssociationMap：用objc_setAssociatedObject传入的key作为Key，ObjcAssociation为Value。

对象关联的对象在-dealloc调用的object_dispose函数中释放。

参考

iOS 底层原理03: Category, 关联对象 - 掘金

]]> iOS Apple Objective-C Runtime Runtime：weak /posts/runtime_weak/ 当一个对象被weak指针指向时，这个weak指针会以对象作为key，存储到SideTable的weak_table哈希表中。

Key：对象
Value：weak指针数组

当该对象dealloc方法被调用时，Runtime会以该对象为key，从SideTable的weak_table哈希表中，找到对应的weak指针列表，然后吧其中的weak指针逐个置为nil。

底层细节

使用weak修饰的对象，底层调用了objc_initWeak函数。里面获取weak指针地址和对象地址传递到下一层函数存储。最终存储到SideTable中的weak_table哈希表。

struct SideTable {
    spinlock_t slock; // 锁
    RefcountMap refcnts; // 指向对象引用计数的哈希表（仅在未开启isa优化或在isa优化下isa_t引用计数溢出时才会用到）
    weak_table_t weak_table; // 存储对象若引用指针的哈希表
}

struct weak_table_t {
    weak_entry_t *weak_entries; // 用于存储哈希数组
    size_t    num_entries;
    uintptr_t mask;
    uintptr_t max_hash_displacement;
};

参考

iOS底层原理：weak的实现原理 - 掘金

]]> iOS Apple Objective-C Runtime iOS 配置认证证书 /posts/ios_configuring_the_authentication_certificate/

不支持 .crt

解决：转换成 .cer 格式。

openssl x509 -in xxx.crt -inform PEM -out xxx.cer -outform DER

只支持二进制证书，不支持 base64 证书。

若用文本编辑器打开的证书是长这样的：

-----BEGIN CERTIFICATE-----
MIIGCDCCA/CgAw……
-----END CERTIFICATE-----

iOS 不支持 PEM 格式的证书，需要转换成 DER 二进制格式。

原理：将文本中的 base64 String 解 base64，得出的 data 再转 string。

最保险方法：

使用系统的钥匙串访问，导入证书，再导出即可。

使用代码支持 PEM 证书

安卓是直接支持 PEM 格式证书，为了兼容 iOS 以及减少证书文件的维护成本，在 iOS 端，可以通过代码从解密后的 PEM 证书中抽取格式支持的证书二进制数据。

PEM，Privacy Enhanced Mail，一般为文本格式，以 -----BEGIN... 开头，以 -----END... 结尾。中间的内容是 BASE64 编码。这种格式可以保存证书和私钥，有时我们也把PEM 格式的私钥的后缀改为 .key 以区别证书与私钥。

可见 PEM 证书是个文本，且既然有 BEGIN END 包裹，那么可能会有多个证书。所以可以给 NSData 增加一个扩展：

@property (nonatomic, strong, readonly) NSArray<NSData *> *tool_pemBins;

实现也很简单，使用正则表达式析出 BEGIN END 包裹的内容，去除换行，然后 BASE64 解码。

// NSData+Tool
- (NSArray<NSData *> *)tool_pemBins {
    NSMutableArray *array = NSMutableArray.array;
    
    NSString *string = [[NSString alloc] initWithData:self encoding:NSUTF8StringEncoding];
    for (NSString *substring in [string tool_substringsMatchedRx:@"^-*BEGIN \\w*-*$([\\s\\S]*)^-*END \\w*-*$"]) {
        NSString *content = substring;
        content = [content stringByReplacingOccurrencesOfString:@"\n" withString:@""];
        NSData *data = [[NSData alloc] initWithBase64EncodedString:content options:0];
        [array addObject:data];
    }
    
    return array.copy;
}

// NSString+Tool
- (NSRegularExpression *)tool_rx {
    NSRegularExpressionOptions options = NSRegularExpressionCaseInsensitive | NSRegularExpressionAnchorsMatchLines;
    return [NSRegularExpression regularExpressionWithPattern:self options:options error:NULL];
}
- (NSArray<NSString *> *)tool_substringsMatchedRx:(NSString *)rx {
    NSMutableArray *array = NSMutableArray.array;
    NSArray *results = [rx.tool_rx matchesInString:self options:0 range:NSMakeRange(0, self.length)];
    for (NSTextCheckingResult *result in results) {
        for (int i = 1; i < result.numberOfRanges; i++) {
            NSRange range = [result rangeAtIndex:i];
            if (range.location == NSNotFound || range.length == 0) continue;
            [array addObject:[self substringWithRange:range]];
        }
    }
    return array.copy;
}

做这个的时候，时间都花在正则表达式的匹配上了，因为 iOS 的正则表达式跟 sublime text 编辑器的正则表达式搜索有细微的差别，语法似乎也支持得不够全面，因此需要在 iOS 上做不断修整。

参考资料

]]> iOS Apple 使用对象包装实现多代理 /posts/implement_multiple_proxies_using_object_wrappers/ 多代理的实现方式有很多，如：

使用 NSPointerArray 存储 weak delegate；
使用 NSHashTable 存储 weak delegate；
使用 NSProxy 进行转发；
使用 NSObject 封装 target 和 selector，进行遍历调用。

本文讨论的是最后一种，但可以结合 NSProxy 进行高效的转发。

实现原理

对象封装 weak target，和 selector，使用数组存储这个封装对象，在回调的地方，遍历数组调用各个代理方法。

封装对象命名

Delegator

结合 NSProxy 便捷消息转发

NSProxy 可以实现消息的转发，具体可见 YYWeakProxy 的实现，其可以实现消息转发以达到，调用 proxy 的方法，直接就是调用 target 的方法。

如果结合了 NSProxy，则可以少一层存储和调用 selector 的逻辑。

QMUI 的多代理

QMUI 的多代理实现有点巧妙，其使用方法注入，对 delegate 的 setter 和 getter 属性进行修改，变成调用其容器中的多代理方法。

而其容器也进行了封装，具体看 QMUIMultipleDelegates 的实现。

]]> iOS Apple 扩展名类型判断 /posts/extension_type_determination/ 在我们使用操作系统，系统通常可以根据文件扩展名/后缀，来判断文件类型，并显示相应图标。那么，iOS 中可以怎样实现呢？

iOS 可以通过 UTI 来进行转换。UTI 是什么呢，用过 Media 相关的框架的同学可能不会陌生。需要了解的同学，可浏览以下资料： - Uniform Type Identifier Concepts - Uniform Type Identifier

具体实现代码如下：

/// extension -> UTI
NSString *UTIForExtension(NSString *extension) {
    //Request the UTI via the file extension
    NSString *theUTI = (__bridge_transfer NSString *)UTTypeCreatePreferredIdentifierForTag(kUTTagClassFilenameExtension, (__bridge CFStringRef)(extension), NULL);
    return theUTI;
}

/// 匹配 UTI
BOOL extensionConformToUTI(NSString *extension, CFStringRef theUTI) {
    NSString *preferredUTI = UTIForExtension(extension);
    return (UTTypeConformsTo((__bridge CFStringRef) preferredUTI, theUTI));
}

BOOL extensionLikelyImage(NSString *extension) {
    return extensionConformToUTI(extension, CFSTR("public.image"));
}
BOOL extensionLikelyAudio(NSString *extension) {
    return extensionConformToUTI(extension, CFSTR("public.audio"));
}
BOOL extensionLikelyMovie(NSString *extension) {
    return extensionConformToUTI(extension, CFSTR("public.movie"));
}

🎁彩蛋

顺便的，给出 UTI 与 mimeType 的转换，以及相关的实用函数。

/// UTI -> mimeType
NSString *mimeTypeForUTI(NSString *aUTI) {
    CFStringRef theUTI = (__bridge CFStringRef) aUTI;
    CFStringRef mimeType = UTTypeCopyPreferredTagWithClass(theUTI, kUTTagClassMIMEType);
    return (__bridge_transfer NSString *)mimeType;
}

/// 元素唯一字典
NSArray *uniqueArray(NSArray *anArray) {
    NSMutableArray *copiedArray = [NSMutableArray arrayWithArray:anArray];
    for (id object in anArray)     {
        [copiedArray removeObjectIdenticalTo:object];
        [copiedArray addObject:object];
    }
    return copiedArray;
}

NSArray *conformanceArray(NSString *aUTI) {
    NSMutableArray *results = [NSMutableArray arrayWithObject:aUTI];
    NSDictionary *dictionary = utiDictionary(aUTI);
    id conforms = dictionary[(__bridge NSString *)kUTTypeConformsToKey];
    
    // No conformance
    if (!conforms) return results;
    
    // Single conformance
    if ([conforms isKindOfClass:[NSString class]]) {
        [results addObjectsFromArray:conformanceArray(conforms)];
        return uniqueArray(results);
    }
    
    // Iterate through multiple conformance
    if ([conforms isKindOfClass:[NSArray class]]) {
        for (NSString *eachUTI in (NSArray *) conforms)
            [results addObjectsFromArray:conformanceArray(eachUTI)];
        return uniqueArray(results);
    }
    
    // Just return the one-item array
    return results;
}

NSArray *allExtensions(NSString *aUTI) {
    NSMutableArray *results = [NSMutableArray array];
    NSArray *conformance = conformanceArray(aUTI);
    for (NSString *eachUTI in conformance)     {
        NSDictionary *dictionary = utiDictionary(eachUTI);
        NSDictionary *extensions = dictionary[(__bridge NSString *)kUTTypeTagSpecificationKey];
        id fileTypes = extensions[(__bridge NSString *)kUTTagClassFilenameExtension];
        
        if ([fileTypes isKindOfClass:[NSArray class]])
            [results addObjectsFromArray:(NSArray *) fileTypes];
        else if ([fileTypes isKindOfClass:[NSString class]])
            [results addObject:(NSString *) fileTypes];
    }
    
    return uniqueArray(results);
}

NSArray *allMIMETypes(NSString *aUTI) {
    NSMutableArray *results = [NSMutableArray array];
    NSArray *conformance = conformanceArray(aUTI);
    for (NSString *eachUTI in conformance) {
        NSDictionary *dictionary = utiDictionary(eachUTI);
        NSDictionary *extensions = dictionary[(__bridge NSString *)kUTTypeTagSpecificationKey];
        id fileTypes = extensions[(__bridge NSString *)kUTTagClassMIMEType];
        
        if ([fileTypes isKindOfClass:[NSArray class]])
            [results addObjectsFromArray:(NSArray *) fileTypes];
        else if ([fileTypes isKindOfClass:[NSString class]])
            [results addObject:(NSString *) fileTypes];
    }
    
    return uniqueArray(results);
}

NSDictionary *utiDictionary(NSString *aUTI) {
    NSDictionary *dictionary = (__bridge_transfer NSDictionary *)UTTypeCopyDeclaration((__bridge CFStringRef) aUTI);
    return dictionary;
}

]]> iOS Apple 获取时间接口对比 /posts/get_the_time_api/ NSDate 、CFAbsoluteTimeGetCurrent、CACurrentMediaTime 的区别

框架层：

NSDate 属于Foundation
CFAbsoluteTimeGetCurrent() 属于 CoreFoundatio
CACurrentMediaTime() 属于 QuartzCore

本质区别：

NSDate 或 CFAbsoluteTimeGetCurrent() 返回的时钟时间将会会网络时间同步，从时钟偏移量的角度。

mach_absolute_time() 和 CACurrentMediaTime() 是基于内建时钟的，能够更精确更原子化地测量，并且不会因为外部时间变化而变化（例如时区变化、夏时制、秒突变等），但它和系统的 uptime 有关，系统重启后其值会被重置。CACurrentMediaTime 方法获取到的时间，是手机从开机一直到当前所经过的秒数。类似的，CADisplayLink 的时间戳也是使用该概念的时间（HostTime）。

常见用法：

NSDate、CFAbsoluteTimeGetCurrent()常用于日常时间、时间戳的表示，与服务器之间的数据交互其中 CFAbsoluteTimeGetCurrent() 相当于 [[NSDate data] timeIntervalSinceReferenceDate];

CFAbsoluteTimeGetCurrent() 常用于测试代码的效率。

]]> iOS Apple 静态库与动态库 /posts/static_lib_vs_and_dynamic_lib/ Object File

object file是个有结构的位元块。这些位元块包含程序代码】准备给Linker和Loader使用的相关信息。

查看object file：

objdump -macho -section-headers /bin/ls

object file的形式：

Relocatable：包含可以在编译时被其他Relocatable链接的代码和数据，以生成Executable。多个Relocatable可被封装成.a（archive）静态库（static library、static archive）。
Executable：可以载入内存的执行的指令集合。链接器会把静态库中的代码给定一个固定的load地址，并包含（copies and relocates）进Executable中。且每个Executable使用静态库都要拷贝一份静态库。
Shared：一种特殊形式的Relocatable，类似动态库。不并入任何Executable，可在多个Executable之间共享。
Bundle：在macOS中长作为插件使用。

macOS支持的可执行格式

可执行格式	magic	用途
脚本	`\x7FELF`	主要用于 shell 脚本，但是也常用语其他解释器，如 Perl, AWK 等。也就是我们常见的脚本文件中在 `#!` 标记后的字符串，即为执行命令的指令方式，以文件的 stdin 来传递命令
通用二进制格式	`0xcafebabe` `0xbebafeca`	包含多种架构支持的二进制格式，只在 macOS 上支持
Mach-O	`0xfeedface`（32 位） `0xfeedfacf`（64 位）	macOS 的原生二进制格式

通用二进制格式

通用二进制格式（Universal Binary、Fat Binary）。Apple提出这个是为了解决一些历史问题。macOS，更确切地说是OS X，最早是基于PPC架构的，后来才移植到Intel架构（OSX Tiger 10.4.7开始），通用二进制格式可以在PPC和x86两种处理器上执行。即，对多架构二进制文件的打包集合文件。

macOS的多架构二进制文件就是适配不同架构的Mach-O文件。

Mach-O

Mach-O（Mach Object File Format）是苹果平台OS上的可执行文件格式，类似于Linux和大部分UNIX的原声格式ELF（Extensible Firmware Interface）。

文件格式

Mach-O格式主要由以下3部分组成：

Mach-O头（Mach-O Header）：描述了Mach-O的CPU架构、文件类型、加载命令等信息。
加载命令（Load Command）：描述了文件中数据的具体组织结构，不同的数据类型使用不同的加载命令表示。
数据（Data）：存储每个段（Segment）的数据。段拥有一个或多个Section，存储数据和代码，与ELF文件中的段类似。

参考

静态库

静态库（Static Libraries），多个目标文件（object file）的打包集合。

特点：

静态库会直接嵌入到App的Mach-O中。
编译时已经链接，启动时不需要二次查找。因此App启动更快。
每个Executable使用都要拷贝一份静态库。

构建设置

Linking-Math-O Type: Static Library
Dead Code Stripping: No

动态库

动态库（动态链接库、Dynamic Libraries、Shared Library、Shared Object），同样也是目标文件的集合，与静态库区别的是嵌入App的方式和在App加载的方式。

特点：

以独立文件嵌入App包中。
App的Mach-O中只包含其引用信息，使用的时候才进行动态链接和加载。可在两个时机载入，并动态分配一段地址：
- App载入时（load time）：启动时加载，称为动态链接库。
- App运行时（run time）：启动后加载，称为动态加载库。
多个Executable使用都不会进行拷贝。可独立更新。

只有系统库或在macOS上的动态库才有以上自由选择载入时机的特性，在iOS中，只能通过Embedding Frameworks的方式使用动态库，并在启动时载入与链接动态库。而其链接动态库也是造成启动时间长的原因。

在iOS的多个Executable可以是App和Extension，他们可以共用包中的framework。

列出所有动态链接的库：

otool -L <PathToArchive>/Products/Applications/<AppName>.app/<AppBinary>

区分

使用file命令输出对应的Mach-O信息：

静态库：current ar archive random library

动态库：dynamically linked shared library

性能差异

待定。

framework

framework时一个有着特定结构的文件夹，里面包含各种共享的资源。如：静态库/动态库、头文件、模块信息和资源（例如storyboard、xib、图像文件和本地化字符串）。

其中framework里面的object file类型决定了其可用的资源：

静态库：只能使用其中的头文件、模块信息。

动态库：可全部使用，即除了头文件、模块信息，还能嵌入资源。

集成方式

集成到App时有以下两个选项：

Linked：仅链接。启动时链接则勾选，否则要运行时才链接则不勾选。
Embedded：拷贝到App包中的framework目录。

对于静态库和动态库framework有不同的选择：

静态库：Linked。因为静态库已经拷贝到App的Executable Mach-O文件中，Embed是没意义的，虽然Xcode允许这样做。

动态库：Linked（iOS可选，macOS必选） + Embedded

动态更新动态库

这里的动态更新是针对于已编译的包的动态更新，不是运行时的动态更新。

首先对于iOS，上App Store的App是不允许动态更新动态库的，因为在iOS中使用动态库只能通过framework形式，而上App Store会进行签名，其中就包含对framework的哈希，即上架后，就不允许改变其framework。而动态更新framework的方式可以在in house和develop模式下使用。

iOS 利用 Framework 进行动态更新.md

CocoaPods中的使用

Podfile：

use_frameworks!：当前范围使用framework。可以指定动态库、静态库。
- use_frameworks! :linkage => :dynamic
- use_frameworks! :linkage => :static

Podspec：

spec.static_framework = true：当使用use_frameworks!标记时，使用静态库framework。
引用系统库：
- spec.frameworks = 'QuartzCore', 'CoreData'
- spec.libraries = 'xml2', 'z'
引用外部库：
- spec.vendored_frameworks = 'MyFramework.framework', 'TheirFramework.framework'
- spec.vendored_libraries = 'libProj4.a', 'libJavaScriptCore.a'

动态库巧用

减少静态库的依赖拷贝

通过前面我们知道可执文件（主程序或者动态库）在构建的链接阶段，遇到静态库，吸附进来；遇到动态库，打标记，彼此保持独立。

正因为动态库是保持独立的，那么可以自定义一个动态库把依赖的静态库吸附进来。对外整体呈现的是动态库特性。其他的组件依赖我们自定义的动态库，由于隔离性的存在，不会出现问题。

这个思路在处理项目组件化的时候非常有用，尤其是在使用Swift的项目中。

处理静态库之间的符号冲突

背景：需要知道，在打包IPA的时候，最终静态库会被连接到最终的那个可执行文件中。所以如果多个静态库拥有了相同的符号必定会产生符号冲突。

静态库的符号和动态库库符号可以隔离，进而避免了链接时产生的符号冲突。

这一点在处理一些由于底层三方库源码不能手动修改（比如boringssl与openssl）的时候，非常有用。

参考

]]> iOS Apple Audio Queue Services Programming Guide /posts/audio_queue_services_pg_introduction/ 介绍

本文档介绍了如何使用音频队列服务（Audio Queue Services），这是Core Audio的Audio Toolbox框架中的一个C语言编程接口。

什么是音频队列服务

在iOS和Mac OS X中，音频队列服务提供了一种直接、低开销的的方式来录制和播放音频。这也是向iOS和Mac OS X程序中添加录制和播放功能所推荐使用的技术。

音频队列服务允许你录制和播放以下格式的音频：

Linear PCM（线性PCM）。
任何你正在进行开发的苹果平台所原生支持的压缩格式。
任何用户已经安装相应编码器的其他格式。

音频队列服务是高级的。它让程序使用录音和播放设备（比如麦克风和扬声器）而不需要了解硬件接口的知识。也可以让你使用复杂的编码器而不用了解编码器的工作机制。

同时，音频队列服务也支持一些高级功能。提供了高精度的时间控制来支持播放进度和同步。你可以使用它来同步多个音频队列以及让视频和音频同步。

注意：音频队列服务提供了一些类似于之前在Mac OS X中Sound Manager提供的功能，它附加了例如同步的功能，Sound Manager在Mac OS X10.5中已经废弃了，并且不能和64位程序一起工作，苹果建议新的Mac OS X程序使用音频队列服务并将旧的程序用音频队列服务来替换Sound Manager。

音频队列服务是纯C接口的，你可以把它使用在Cocoa和Mac OS X命令行工具中，为了使你更加专注于音频队列服务，本文档中的示例代码通过使用Core Audio SDK中的C++类进行了简化，然而，无论是这个SDK还是C++语言都不是使用音频队列服务所必需的。

]]> 翻译 Apple Audio Queue Services Programming Guide 音视频 Audio Queue Services Programming Guide：关于音频队列 /posts/audio_queue_services_pg_about_audio_queues/ 本章将学习到音频队列的功能、架构和内部工作原理。本文介绍音频队列用来播放或录制所用的音频队列（audio queues）、音频队列缓冲区（audio queue buffers）和回调函数，你还可以找到关于音频队列状态和参数的信息，截至到本章的结尾，你将会获得有效使用该技术的概念性理解。

什么是音频队列？

在iOS和Mac OS X中，音频队列是一个用来录制和播放音频的软件对象，使用AudioQueueRef不透明数据类型来表示（在AudioQueue.h头文件中声明）。

音频队列完成以下工作：

连接音频硬件
内存管理
根据需要为已压缩的音频格式引入编码器
媒体的录制或播放

你可以将音频队列配合其他Core Audio的接口使用，再加上相对少量的自定义代码就可以在程序中创建一套完整的数字音频录制或播放解决方案。

音频队列架构

所有的音频队列都含有相同的基础结构，包含以下几部分：

一组音频队列缓冲区（audio queue buffers），每个音频队列缓冲区都是一个存储音频数据的临时仓库。
一个缓冲区队列（buffer queue），一个包含音频队列缓冲区的有序列表。
一个你自己编写的音频队列回调函数（audio queue callback）。

架构很大程度上依赖于这个音频队列是用来录制还是用来播放的。不同之处在于音频队列如何连接到它的输入和输入，还有它的回调函数所扮演的角色。

用来录制的音频队列

用于录制的的音频队列，使用AudioQueueNewInput函数创建，如图1-1的结构。

图1-1 用于录制的的音频队列

Architecture for a recording audio queue

用于录制的音频队列的输入端一般连接到外部的音频硬件上，比如说麦克风。在iOS中，音频来自于由用户连接的设备：内置的麦克风或者耳机麦克风，如在Mac OS X下，音频来自于由用户在系统首选项中设置的系统默认音频输入设备。

用于录制的音频队列的输入端利用了你自己写的回调函数，当录制音频到磁盘上的时候，回调函数将存有从音频队列中接收到的新的音频数据的缓冲区写入到音频文件中。然而，用于录制的音频队列也可以用其他方法来使用。你也可以使用其中一种，比如说，在一个实时的分析仪中，在这种情况下，你的回调函数会直接向程序提供音频数据，而不是将它写入磁盘。

更多关于该回调的知识，参阅The Recording Audio Queue Callback Function。

每一个音频队列，无论是用于录制还是用于播放，都有一个或多个音频队列缓冲区。这些缓冲区排列在一个特殊的被称为缓冲区队列（buffer queue）的序列中。如图所示，音频队列缓冲区是按照他们被填充的顺序编号的——这也是和把他们交付给回调函数的顺序是相同的。有关音频队列是如何使用缓冲区，参阅The Buffer Queue and Enqueuing。

用于播放的音频队列

用于播放的音频队列，使用AudioQueueNewOutput函数创建，如图1-2结构。

图1-2 用于播放的音频队列

在用于播放的音频队列中，回调函数是在输入端的，这个回调函数的职责就是从磁盘（或其他来源）中获取音频数据，然后将它交付给音频队列。当没有更多音频数据需要播放的时候告诉音频队列停止。更多关于这个回调函数的知识，参阅The Playback Audio Queue Callback Function。

用于播放的音频队列的输出端一般都是连接到外部的音频设备的，比如说扬声器。在iOS中，音频通过用户选择的设备播放，如接收者是耳机。在Mac OS X中，默认情况下，音频会通过用户在系统首选项中设置的默认音频输出设备中输出。

音频队列缓冲区

音频队列缓冲区（audio queue buffer）是一个AudioQueueBuffer类型的数据结构（在AudioQueue.h头文件中声明）：

typedef struct AudioQueueBuffer {
    const UInt32   mAudioDataBytesCapacity;
    void *const    mAudioData;
    UInt32         mAudioDataByteSize;
    void           *mUserData;
} AudioQueueBuffer;
typedef AudioQueueBuffer *AudioQueueBufferRef;

上述代码中的mAudioData字段，指向了缓冲区本身：一个用来当作暂时存放录制或播放音频数据的容器的内存，其他字段中的数据用来辅助音频队列管理这个缓冲区。

音频队列可以使用任意数量的缓冲区。一般情况下设置为3，这样就可以让一个缓冲区忙于将数据写入磁盘，同时另一个缓冲区在填充新的音频数据，第三个缓冲区在需要做磁盘I/O延迟补偿的时候使用。图1-3展示了这个过程。

音频队列负责对它的缓冲区进行内存管理：

当调用AudioQueueAllocateBuffer函数的时，音频队列创建一个缓冲区。
当通过调用AudioQueueDispose函数释放一个音频队列的时，这个音频队列释放掉它拥有的缓冲区。

这提高了添加到程序中录制和播放功能的健壮性。同时它也帮助你优化资源的使用。

关于AudioQueueBuffer数据结构的完整描述，参阅_Audio Queue Services Reference。_

缓冲区队列和入队

传递给音频队列的缓冲区队列，顾名思义就是音频队列服务（Audio Queue Services），在Audio Queue Architecture中，将提及缓冲区队列，一个缓冲区的有序列表，其中描述了音频队列对象如何配合回调函数在录制或播放的过程中管理缓冲区队列。尤其是入队音频队列，即缓冲区队列对音频队列缓冲区的附加操作。无论是在实现录制或者播放，入队都是你在回调函数中需要执行的任务。

录制过程

当进行录制时，一个音频队列缓冲区填充了从输入设备（如麦克风）中获取的音频数据。缓冲区队列中的其他缓冲区将在当前缓冲区的末尾依次排队等待填充音频数据。

音频队列将按照缓冲区填充的顺序把已填充过音频数据的缓冲区交付给你的回调函数。图1-3展示了当使用音频队列录制时的过程。

图1-3 录制过程

Illustration of the recording process when using an audio queue

录制开始，音频队列用获取的数据填充缓冲区。
第一个缓冲区填充完毕，音频队列调用回调函数来处理这个被填充满的缓冲区（缓冲区一）。
回调函数将缓冲区的内容写到音频文件中。同时，音频队列将另一个缓冲区（缓冲区二）填充新获取的数据。
回调函数将刚刚写入磁盘的缓冲区（缓冲区一）入队，使它重新重新回到被填充的队列。
音频队列再一次调用回调函数，处理下一个填充完毕的缓冲区（缓冲区二）。
回调函数将这个缓冲区的内容写入到音频文件。

这种稳定状态会一直持续到用户停止录制。

播放过程

当进行播放的时候，音频队列缓冲区将被传送到输出设备（如扬声器）。缓冲区队列中其他的缓冲区讲按顺序排在当前缓冲区末尾等待播放。

音频队列将已经播放过的音频数据按照他们播放的顺序交付给你的回调函数，回调函数将新的音频数据读取到一个缓冲区中，然后将它入队。图1-4展示了当使用音频队列播放时的过程。

图1-4 播放过程

Illustration of the playback process when using an audio queue

程序启动用于播放的音频队列，程序对每一个音频队列缓冲区调用回调函数，填充这些缓冲区并且将它们加入缓冲区队列。
启动操作会确保当程序调用AudioQueueStart函数之后，播放可以立即执行。
音频队列将第一个缓冲区（缓冲区一）交付给输出设备。当第一个缓冲区被播放完毕之后，用于播放的音频队列就进入了一个稳定的循环状态。
音频队列开始播放下一个缓冲区（缓冲区二）。
调用回调函数，处理刚刚播放完的那个缓冲区（缓冲区一）。
这个回调函数从音频文件中读取数据填充缓冲区然后入队播放。

控制播放过程

音频队列缓冲区总是按照他们入队的顺序进行播放，然而，在播放过程中，音频队列服务提供了AudioQueueEnqueueBufferWithParameters函数来进行一些控制，这个函数有以下功能：

设置缓冲区的精确播放时间，这可以实现音频同步。
截断音频队列缓冲区开头或结尾的帧，这可以让你去除开头或结尾的静音。
在缓冲区的粒度上设置播放增益。

关于更多播放增益的信息，参阅Audio Queue Parameters，如果要了解对AudioQueueEnqueueBufferWithParameters函数的完整描述，参阅_Audio Queue Services Reference_。

音频队列回调函数

一般来说，使用音频队列服务的大部分编程任务都在编程音频队列回调函数上。

在录制或播放过程中，音频队列将反复调用它所拥有的音频队列回调函数。调用的时间间隔取决于音频队列缓冲区的容量，一般来一说这个时间在半秒到几秒。

无论对于录制或者播放，音频队列回调的一个职责就是返回一个缓冲区队列的音频队列缓冲区。回调函数使用AudioQueueEnqueueBuffer函数将一个缓冲区加入到缓冲区队列的末尾。对于播放来说，你也可以使用AudioQueueEnqueueBufferWithParameters函数来获得更多的控制。

用于录制的音频队列的回调函数

本节介绍了一般情况下（将音频录制到磁盘上）的回调函数。以下是用于录制的回调函数的原型（在AudioQueue.h头文件中声明）：

AudioQueueInputCallback (
    void                               *inUserData,
    AudioQueueRef                      inAQ,
    AudioQueueBufferRef                inBuffer,
    const AudioTimeStamp               *inStartTime,
    UInt32                             inNumberPacketDescriptions,
    const AudioStreamPacketDescription *inPacketDescs
);

用于录制的音频队列，在调用回调函数的时候，提供了把下一组音频数据写入到文件的一切信息：

inUserData：通常是一个用来保存音频队列和它的缓冲区状态信息的自定义结构，或者一个音频文件对象（AudioFileID类型）表示正在写入的文件，或者该文件的音频格式信息。
inAQ：是调用回调函数的音频队列。
inBuffer：是一个被音频队列填充新的音频数据的音频队列缓冲区，它包含了回调函数写入文件所需要的新数据。数据已经根据你在自己指定的自定义结构（由inUserData参数传入）中指定的格式格式化。更多信息，可参阅Using Codecs and Audio Data Formats。
inStartTime：是缓冲区中的首个采样的参考时间，对于基本的录制，你的回调函数不会使用这个参数。
inNumberPacketDescriptions：是inPacketDescs参数中包描述符（packet descriptions）的数量，如果你正在录制一个VBR（可变比特率（variable bitrate））格式，音频队列将回调该参数给你，这个参数可以让你传递给AudioFileWritePackets函数。CBR（常量比特率（constant bitrate））格式不使用包描述。对于CBR录制，音频队列会设置这个参数并且将inPacketDescs这个参数设置为NULL。
inPacketDescs：是一组对应于缓冲区中采样的包描述符，音频队列提供了这个参数的值，如果音频文件是VBR格式的，回调函数可以将这个值传递给AudioFileWritePackets函数（在AudioFile.h头文件中声明）。

如果要了解更多关于用于录制的回调函数的信息，参阅Recording Audio和Audio Queue Services Reference。

用于播放的音频队列的回调函数

本节介绍了一般情况下（从磁盘文件播放音频的回调函数。下面是用于播放的回调函数的原型（在AudioQueue.h头文件中声明）：

AudioQueueOutputCallback (
    void                  *inUserData,
    AudioQueueRef         inAQ,
    AudioQueueBufferRef   inBuffer
);

用于播放的音频队列，在调用回调函数的时候，提供了从文件读取下一组音频数据所需的信息：

inUserData：一般来说是一个你创建的包含音频队列和它的缓冲区的的状态信息的自定义结构；或者一个音频文件对象（AudioFileID类型）表示要写入的文件；或者文件的音频数据格式信息。在播放音频队列的情况下，回调函数会在这个结构体中用一个字段保持对当前包的索引。
inAQ：调用这个回调函数的音频队列。
inBuffer：一个音频队列缓冲区，由音频队列提供，回调将填充从正在播放的文件中读取的下一组数据。

如果程序在播放VBR数据，回调函数需要得到正在播放的音频数据的包数据，它通过调用AudioFileReadPackets函数来实现，这个函数声明于AudioFile.h头文件，回调函数随后把包信息放到自定义的数据结构中，以供音频队列使用。

关于播放回调的更多信息，参阅Playing Audio和Audio Queue Services Reference。

使用编码和音频数据格式

音频队列服务根据采用的编解码器在音频格式之间进行转换。录制或播放程序可以使用任意已经安装过相应编码器的格式，不需要写自定义的代码来处理各种音频格式。尤其是你的回调函数不需要知道其数据格式。

每个音频队列在AudioStreamBasicDescription结构体中都有一个字段表示音频数据格式。当你在mFormatID字段中指定格式时，音频队列会使用相应的解码器。然后指定采样率和声道数，这些就是所有你需要做的。设置音频数据格式的示例，参阅Recording Audio和Playing Audio。

用于录制的音频队列按照图1-5中的流程使用已安装的编码器。

图1-5 在录制音频的时候进行音频格式转换

Using a code when recording with an audio queue

程序告诉音频队列开始录制，同时也告诉它所要使用的音频格式。
音频队列获取新的音频数据，并且根据你指定的格式使用相应的编码器转换音频数据。然后音频队列调用回调函数，将适当的格式化过的音频数据放进缓冲区中。
回调函数将格式化后的音频数据写入磁盘。回调函数不需要知道数据格式。

用于播放的音频队列按照图1-6的流程使用已安装的编码器。

图1-6 在播放过程中进行音频格式转换

Using a codec when playing a file with an audio queue

程序告诉音频队列开始播放，同时也告诉了它将要播放放的音频文件的数据格式。
音频队列调用回调函数来从音频文件中读取音频数据。回调函数按照它的原始格式将音频数据交付给音频队列。
音频队列使用对应的解码器将音频交付给目标输出设备。

音频队列可以使用任意已安装的编码器，无论是Mac OS X原生的还是第三方的。你可以通过指定音频队列的AudioStreamBasicDescription结构体中四字节编码ID来指定将要使用的编码器。该字段的使用示例，参阅Recording Audio。

Mac OS X包含大量的编码器，在CoreAudioTypes.h头文件中的format IDs枚举值中列出，并且记录在_Core Audio Data Types Reference_中。你可以使用Audio Toolbox框架中AudioFormat.h头文件中的接口来查询当前系统可用的编码器。你可以使用Fiendishthngs程序来显示系统的编码器，该示例代码可以从http://developer.apple.com/samplecode/Fiendishthngs/获得。

音频队列控制和状态

音频队列的生命周期从创建到废弃。程序管理器生命周期，且控制音频队列的状态，通过使用AudioQueue.h头文件中的六个函数：

Start（AudioQueueStart）：初始化录制或者播放。
Prime （AudioQueuePrime）：对于播放, 在调用AudioQueueStart之前调用这个函数，以确保有数据可立即用于音频队列的播放。这个函数不在录制中使用。
Stop（AudioQueueStop）：调用这个函数来重置音频队列（参考下面对AudioQueueReset的描述），然后停止录制或播放。当没有更多的数据要播放时，播放音频队列回调调用该函数。
Pause（AudioQueuePause）：调用这个函数可以在不影响缓冲区和不重置音频队列的情况下停止录制或播放。如果需要恢复，调用AudioQueueStart函数。
Flush （AudioQueueFlush）：在对最后一个音频队列缓冲区进行排队后调用，以确保所有缓冲的数据以及所有正在处理的音频数据被记录或播放。
Reset （AudioQueueReset）：调用这个函数可以立即让音频队列静音。移除之前调度过的缓冲区，并且重置所有解码器和DSP状态。

你可以在同步或异步模式下使用AudioQueueStop函数：

同步：立刻停止，不考虑之前缓冲的音频数据。
异步：在所有已入队的缓冲区播放或录制完毕之后再停止。

所有这些函数的完整描述和同步异步停止音频队列的更多信息，参阅_Audio Queue Services Reference_。

音频队列参数

音频队列通过参数（parameters）调整配置。每个参数都使用枚举值作为键，浮点数作为值。参数一般于播放，不用于录制。

在Mac OS X v10.5中，只有播放增益参数。可以通过使用kAudioQueueParam_Volume常量来获取或设置它的值，它的有效范围在0.0（静音）到1.0（单位增益）。

程序可以通过以下两种方法来设置音频队列参数：

对于每一个音频队列，使用AudioQueueSetParameter函数，这可以让你直接改变音频队列的设置，这个改变是立刻生效的。
对于每一个音频队列缓冲区，调用AudioQueueEnqueueBufferWithParameters函数。这可以让你在将音频队列缓冲区入队的时候设置音频队列设置。这种修改只会在播放音频队列缓冲区的时候生效。

这两种情况下，音频队列的参数设置会一直保留到你改变它们为止。

可以通过调用AudioQueueGetParameter函数来获取音频队列当前的参数。该函数的完整描述和获取和设置参数值的方法，参阅_Audio Queue Services Reference_。

总结

音频队列工作：
- 连接音频硬件
- 内存管理
- 根据需要为已压缩的音频格式引入编码器
- 媒体的录制或播放
使用音频队列的基本组成：
- 一组音频队列缓冲区，每个缓冲区临时存储音频数据。
- 缓冲区队列。
- 音频队列回调函数。
音频队列按用途分类：
- 录制
  - 输入端：音频输入硬件。
  - 输出/回调：音频数据
- 播放
  - 输入/回调：获取音频数据并交付给音频队列。且当没有更多音频数据要播放时停止音频队列。
  - 输出：音频输出设备。
音频队列缓冲区数量一般设置为3，对应录制：一个用于写入磁盘，一个填充新音频数据，一个在需要磁盘I/O延迟补偿时使用。
音频队列管理了音频队列缓冲区的生命周期/内存：AudioQueueAllocateBuffer创建，AudioQueueDispose释放音频队列时也一起释放其缓冲区。
播放过程通过AudioQueueEnqueueBufferWithParameters来实现播放控制：
- 设置缓冲区的精确播放时间，这可以实现音频同步。
- 截断音频队列缓冲区开头或结尾的帧，这可以让你去除开头或结尾的静音。
- 在缓冲区的粒度上设置播放增益。
音频队列服务的编码大部分都在其回调函数上。录制使用AudioQueueInputCallback函数原型，播放使用AudioQueueOutputCallback函数原型。
回调函数调用的间隔取决于缓冲区的容量。
音频队列回调的任务是返回队列缓冲区。使用AudioQueueEnqueueBuffer入队缓冲区。
音频队列在录制和播放过程中都可以进行格式转换。回调函数不需要知道音频格式，因为音频编码器都是提前给音频队列配置的。
音频队列的状态控制：
- Start（AudioQueueStart）：初始化录制或者播放。
- Prime （AudioQueuePrime）：仅用于播放, 在调用AudioQueueStart之前调用这个函数，以确保有数据可立即用于音频队列的播放。
- Stop（AudioQueueStop）：调用这个函数来重置音频队列（参考下面对AudioQueueReset的描述），然后停止录制或播放。当没有更多的数据要播放时，回调中调用该函数。
- Pause（AudioQueuePause）：调用这个函数可以在不影响缓冲区和不重置音频队列的情况下停止录制或播放。如果需要恢复，调用AudioQueueStart函数。
- Flush （AudioQueueFlush）：在对最后一个音频队列缓冲区进行排队后调用，以确保所有缓冲的数据以及所有正在处理的音频数据被记录或播放。
- Reset （AudioQueueReset）：调用这个函数可以立即让音频队列静音。移除之前调度过的缓冲区，并且重置所有解码器和DSP状态。

]]> 翻译 Apple Audio Queue Services Programming Guide 音视频 Audio Queue Services Programming Guide：播放音频 /posts/audio_queue_services_pg_playing_audio/ 当你使用音频队列服务播放音频时，源几乎可以是任意的——磁盘文件、基于软件音频合成器、内存中的对象等。本章介绍最常见的情况：播放磁盘上的文件。

注意：本章介绍了基于ANSI-C的播放实现，并使用了Mac OS X Core Audio SDK的C++类。有关Objective-C的示例，参阅iOS Dev Center中的_SpeakHere_示例代码。

要把播放功能添加到程序中，通常需要执行以下步骤：

定义一个自定义结构体来管理状态、格式和路径信息。
编写音频队列回调函数来执行实际的播放。
编写代码以确定音频队列缓冲区的合适大小。
打开音频文件进行播放，然后确定其音频数据格式。
创建一个播放音频队列并进行相关配置。
分配和排队音频队列缓冲区。告诉音频队列开始播放。完成后，播放回调函数告诉音频队列停止。
处理音频队列，释放资源。

本章的剩余部分详细介绍了每个步骤。

定义结构体管理状态

首先，定义一个结构体，将用它来管理音频格式和音频队列状态信息，如清单3-1所示：

清单3-1 播放音频队列的自定义结构体

static const int kNumberBuffers = 3;                              // 1
struct AQPlayerState {
    AudioStreamBasicDescription   mDataFormat;                    // 2
    AudioQueueRef                 mQueue;                         // 3
    AudioQueueBufferRef           mBuffers[kNumberBuffers];       // 4
    AudioFileID                   mAudioFile;                     // 5
    UInt32                        bufferByteSize;                 // 6
    SInt64                        mCurrentPacket;                 // 7
    UInt32                        mNumPacketsToRead;              // 8
    AudioStreamPacketDescription  *mPacketDescs;                  // 9
    bool                          mIsRunning;                     // 10
};

结构体中大多数字段与用于录制的自定义结构体几乎相同，如Define a Custom Structure to Manage State所述。例如，mDataFormat字段保存正在播放的文件格式。录制时，类似的字段保存了写入磁盘的文件格式。

以下是该结构体各字段介绍：

设置要使用的音频队列缓冲区数量。如Audio Queue Buffers所述，3个通常是不错的选择。
AudioStreamBasicDescription结构体（来自CoreAudioTypes.h）表示正在播放的文件的音频数据格式。该格式由mQueue字段指定的音频队列使用。 mDataFormat字段通过查询音频文件的kAudioFilePropertyDataFormat属性来填充该字段，如Obtaining a File’s Audio Data Format所述。有关AudioStreamBasicDescription结构体的详细信息，参阅_Core Audio Data Types Reference_。
程序创建的播放音频队列。
一个数组，包含指向音频队列管理的音频队列缓冲区的指针。
代表程序播放的音频文件的对象。
每个音频队列缓冲区的大小（以字节为单位）。该值在音频队列创建之后和开始之前，由DeriveBufferSize函数计算。参阅Write a Function to Derive Playback Audio Queue Buffer Size。
音频文件中下一个要播放的数据包索引。
每次调用音频队列的播放回调函数时，要读取的数据包数量。就像bufferByteSize字段一样，在音频队列创建之后和开始之前，由DeriveBufferSize函数计算该值。
对于VBR音频数据，该字段是正在播放的文件的数据包描述数组。对于CBR数据，该字段为NULL。
一个布尔值，表示音频队列是否正在运行。

编写播放音频队列回调函数

下面，编写一个播放音频队列回调函数。该回调函数执行三项主要任务：

从音频文件中读取指定数量的数据，并将其放入音频队列缓冲区中。
把音频队列缓冲区排队到缓冲区队列中。
当没有更多数据要从音频文件中读取时，告诉音频队列停止。

本节展示来一个回调声明示例，分别描述各个任务，最后给出完整的播放回调函数。有关播放回调函数的作用，参阅图1-4。

播放音频队列回调声明

清单3-2展示了一个播放音频回调函数的示例声明，AudioQueueOutputCallback在AudioQueue.h声明为：

清单3-2 播放音频队列回调声明

static void HandleOutputBuffer (
    void                 *aqData,                 // 1
    AudioQueueRef        inAQ,                    // 2
    AudioQueueBufferRef  inBuffer                 // 3
)

下面是该代码的工作方式：

通常，aqData是包含定义音频队列状态信息的自定义结构体。如Define a Custom Structure to Manage State所述。
持有该回调函数的音频队列。
音频队列缓冲区，回调函数通过从音频文件中读取，来填充数据。

从文件读取到音频队列缓冲区

播放音频队列回调函数的第一个操作是从音频文件中读取数据并将其放在音频队列缓冲区中，如清单3-3所示。

清单3-3 从音频文件读取到音频队列缓冲区

AudioFileReadPackets (                        // 1
    pAqData->mAudioFile,                      // 2
    false,                                    // 3
    &numBytesReadFromFile,                    // 4
    pAqData->mPacketDescs,                    // 5
    pAqData->mCurrentPacket,                  // 6
    &numPackets,                              // 7
    inBuffer->mAudioData                      // 8
);

下面是该代码的工作方式：

AudioFileReadPackets函数（在AudioFile.h中声明），从音频文件读取数据并将其放入缓冲区中。
要读取的音频文件。
用false表示该函数在读取时不应缓存数据。
输出时，是从音频文件读取的音频数据字节数。
输出时，是从音频文件中读取的数据包描述数组。对于CBR数据，该参数输入NULL。
从音频文件中读取第一个数据包的索引。
输入时，是要从音频文件读取的数据包数量。输出时，是实际读取的包数量。
在输出时，填充的音频队列缓冲区包含从音频文件读取的数据。

排队音频队列缓冲区

现在已经从音频文件中读取数据并将其放在音频队列缓冲区中，回调函数让缓冲区入队，如清单3-4所示。进入缓冲区队列后，缓冲区的音频数据可用于音频队列发送到输出设备。

清单3-4 从磁盘中读取后排队音频队列缓冲区

AudioQueueEnqueueBuffer (                      // 1
    pAqData->mQueue,                           // 2
    inBuffer,                                  // 3
    (pAqData->mPacketDescs ? numPackets : 0),  // 4
    pAqData->mPacketDescs                      // 5
);

下面是该代码的工作方式：

AudioQueueEnqueueBuffer函数把音频队列缓冲区添加到缓冲区队列。
持有缓冲区队列的音频队列。
要排队的音频队列缓冲区。
音频队列缓冲区数据中的数据包数量。对于不使用数据包描述的CBR数据，设为0。
对于使用数据描述的压缩音频数据格式，数据包描述在缓冲区中。

停止音频队列

回调函数最后一个操作是检查是否有更多的数据，要从正在播放的音频文件中读取。在发现文件结尾后，回调函数告诉音频队列停止，如清单3-5所示。

清单3-5 Stopping an audio queue

if (numPackets == 0) {                          // 1
    AudioQueueStop (                            // 2
        pAqData->mQueue,                        // 3
        false                                   // 4
    );
    pAqData->mIsRunning = false;                // 5
}

下面是该代码的工作方式：

检查AudioFileReadPackets函数（由之前的回调函数调用）读取的数据包数量是否为0。
AudioQueueStop函数停止音频队列。
要停止的音频队列。
播放所有排队的缓冲区后，异步停止音频队列。参阅Audio Queue Control and State。
设置结构体标志，表示播放已完成。

完整播放音频队列回调函数

清单3-6展示了完整播放音频队列回调的基本代码。和本文档的其他示例代码一样，该清单代码不包含错误处理。

清单3-6 一个播放音频队列回调函数

static void HandleOutputBuffer (
    void                *aqData,
    AudioQueueRef       inAQ,
    AudioQueueBufferRef inBuffer
) {
    AQPlayerState *pAqData = (AQPlayerState *) aqData;        // 1
    if (pAqData->mIsRunning == 0) return;                     // 2
    UInt32 numBytesReadFromFile;                              // 3
    UInt32 numPackets = pAqData->mNumPacketsToRead;           // 4
    AudioFileReadPackets (
        pAqData->mAudioFile,
        false,
        &numBytesReadFromFile,
        pAqData->mPacketDescs, 
        pAqData->mCurrentPacket,
        &numPackets,
        inBuffer->mAudioData 
    );
    if (numPackets > 0) {                                     // 5
        inBuffer->mAudioDataByteSize = numBytesReadFromFile;  // 6
       AudioQueueEnqueueBuffer ( 
            pAqData->mQueue,
            inBuffer,
            (pAqData->mPacketDescs ? numPackets : 0),
            pAqData->mPacketDescs
        );
        pAqData->mCurrentPacket += numPackets;                // 7 
    } else {
        AudioQueueStop (
            pAqData->mQueue,
            false
        );
        pAqData->mIsRunning = false; 
    }
}

下面是该代码的工作方式：

实例化后提供给音频队列的自定义结构体，包含要播放的音频文件对象（类型为AudioFileID），以及各种状态数据。参阅Define a Custom Structure to Manage State。
如果音频队列已停止，则立即返回。
一个变量，用于保存从正在播放的文件中读取的音频数据字节数。
使用要从正播放的文件中读取的数据包来初始化numPackets变量。
测试是否从文件中检索了一些音频数据。如果是，则让新填充的缓冲区入队；否则停止音频队列。
告诉音频队列缓冲区结构体已读取数据的字节数。
根据读取的数据包数量增加数据包索引。

编写函数计算播放音频队列缓冲区大小

音频队列服务希望你的程序为使用的音频队列缓冲区指定大小，如清单3-7所示。它得出的缓冲区大小足以容纳给定的音频时长。

创建播放音频队列后，你将在程序中调用DeriveBufferSize函数，作为后续音频队列分配缓冲区的先决条件。参阅Write a Function to Derive Recording Audio Queue Buffer Size。为了播放，还需要：

在每次回调函数调用AudioFileReadPackets函数，得出要读取的数据包数量。
设置缓冲区大小的下限，以避免过多的磁盘访问。

这里的计算考虑了从磁盘读取的音频数据格式。该格式包括了可能影响缓冲区大小的所有因素，例如音频通道数量。

清单3-7 得出播放音频队列缓冲区大小

void DeriveBufferSize (
    AudioStreamBasicDescription &ASBDesc,                            // 1
    UInt32                      maxPacketSize,                       // 2
    Float64                     seconds,                             // 3
    UInt32                      *outBufferSize,                      // 4
    UInt32                      *outNumPacketsToRead                 // 5
) {
    static const int maxBufferSize = 0x50000;                        // 6
    static const int minBufferSize = 0x4000;                         // 7
 
    if (ASBDesc.mFramesPerPacket != 0) {                             // 8
        Float64 numPacketsForTime =
            ASBDesc.mSampleRate / ASBDesc.mFramesPerPacket * seconds;
        *outBufferSize = numPacketsForTime * maxPacketSize;
    } else {                                                         // 9
        *outBufferSize =
            maxBufferSize > maxPacketSize ?
                maxBufferSize : maxPacketSize;
    }
 
    if (                                                             // 10
        *outBufferSize > maxBufferSize &&
        *outBufferSize > maxPacketSize
    )
        *outBufferSize = maxBufferSize;
    else {                                                           // 11
        if (*outBufferSize < minBufferSize)
            *outBufferSize = minBufferSize;
    }
 
    *outNumPacketsToRead = *outBufferSize / maxPacketSize;           // 12
}

下面是该代码的工作方式：

音频队列的AudioStreamBasicDescription结构体。
正在播放的音频文件中最大数据包的预估大小。你可以通过kAudioFilePropertyPacketSizeUpperBound属性ID，使用AudioFileGetProperty函数（在AudioFile.h中声明）得出该值。参阅Set Sizes for a Playback Audio Queue。
为每个音频缓冲区指定大小（以秒为单位）。
在输出时，是每个音频队列缓冲区的大小（以字节为单位）。
在输出时，是在每次播放音频队列回调时，从文件读取的音频数据包的数量。
音频队列缓冲区大小的上限（以字节为单位）。在该示例中，上限设为320 KB。这相等于以96 kHz采样率，大约持续5秒的24位立体声音频。
音频队列缓冲区大小的下限（以字节为单位）。在该示例中，下限设为16 KB。
对于定义每个数据包固定帧数的音频数据格式，需要得出音频队列缓冲区大小。
对于没定义每个数据包固定帧数的音频格式，需要根据最大数据包大小和设置的上限得出合理的音频队列缓冲区大小。
如果得出的缓冲区大小大于设置的上限，则考虑预估的最大数据包大小，并将其调整为边界值。
如果得出的缓冲区大小低于设置的下限，则将其调整为下限。
计算每次调用回调时从音频文件读取的数据包数量。

打开音频文件进行播放

现在，使用以下步骤打开音频文件进行播放：

获取一个表示要播放的音频文件的CFURL对象。
打开文件。
获取文件的音频数据格式。

获取音频文件的CFURL对象

清单3-8展示了如何为要播放的音频文件获取CFURL对象。在下一步中使用CFURL对象，打开文件。

清单3-8 获取音频文件的CFURL对象

CFURLRef audioFileURL =
    CFURLCreateFromFileSystemRepresentation (           // 1
        NULL,                                           // 2
        (const UInt8 *) filePath,                       // 3
        strlen (filePath),                              // 4
        false                                           // 5
    );

下面是该代码的工作方式：

CFURLCreateFromFileSystemRepresentation函数（在CFURL.h中声明），创建一个CFURL对象，该对象表示要播放的文件。
用NULL或kCFAllocatorDefault，表示使用当前默认的内存分配器。
想要转换为CFURL的文件系统路径。在生产代码中，通常会从用户获取filePath值。
文件系统路径中的字节数。
false值表示filePath代表文件，而不是目录。

打开音频文件

清单3-9展示了如何打开音频文件进行播放。

清单3-9 打开音频文件进行播放

AQPlayerState aqData;                                   // 1
 
OSStatus result =
    AudioFileOpenURL (                                  // 2
        audioFileURL,                                   // 3
        fsRdPerm,                                       // 4
        0,                                              // 5
        &aqData.mAudioFile                              // 6
    );
 
CFRelease (audioFileURL);                               // 7

下面是该代码的工作方式：

创建AQPlayerState自定义结构体实例（参阅Define a Custom Structure to Manage State）。打开音频文件进行播放时，可以使用该实例存放音频文件对象（类型为AudioFileID）。
AudioFileOpenURL函数（在AudioFile.h中声明），打开要播放的文件。
要播放文件的引用。
与正在播放文件一起使用的文件权限。可用权限在文件管理器的File Access Permission Constants枚举中定义。在该示例中，请求读取文件的权限。
可选文件类型hint。这里的0表示该示例未使用该功能。
在输出时，对音频文件的引用将放在自定义结构体的mAudioFile字段。
释放在第一步创建的CFURL对象。

获取文件的音频数据格式

清单3-10展示了如何获取文件的音频数据格式。

清单3-10 获取文件的音频数据格式

UInt32 dataFormatSize = sizeof (aqData.mDataFormat);    // 1
 
AudioFileGetProperty (                                  // 2
    aqData.mAudioFile,                                  // 3
    kAudioFilePropertyDataFormat,                       // 4
    &dataFormatSize,                                    // 5
    &aqData.mDataFormat                                 // 6
);

下面是该代码的工作方式：

获取在查询音频文件有关音频数据格式时要使用的预期属性值大小。
AudioFileGetProperty函数（在AudioFile.h中声明），获取音频文件中指定属性的值。
音频文件对象（类型为AudioFileID），表示要获取其音频数据格式的文件。
用户获取音频文件的数据格式的属性ID。
输入时，是描述音频文件的数据格式的AudioStreamBasicDescription结构体的预期大小。输出时，是其实际大小。播放程序不需要使用该值。
在输出时，从音频文件获得AudioStreamBasicDescription结构体的完整音频数据格式。该行通过把文件的音频数据格式存储在音频队列的自定义结构体中，将其应用于音频队列。

创建播放音频队列

清单3-11展示了如何创建播放音频队列。注意，AudioQueueNewOutput函数使用了在之前步骤中配置的自定义结构体和回调函数，以及要播放文件的音频数据格式。

清单3-11 创建播放音频队列

AudioQueueNewOutput (                                // 1
    &aqData.mDataFormat,                             // 2
    HandleOutputBuffer,                              // 3
    &aqData,                                         // 4
    CFRunLoopGetCurrent (),                          // 5
    kCFRunLoopCommonModes,                           // 6
    0,                                               // 7
    &aqData.mQueue                                   // 8
);

下面是该代码的工作方式：

AudioQueueNewOutput函数创建一个新的播放音频队列。
设置要播放音频队列的音频数据格式。参阅Obtaining a File’s Audio Data Format。
和播放音频队列一起使用的回调函数。参阅Write a Playback Audio Queue Callback。
播放音频队列的自定义数据结构体。参阅Define a Custom Structure to Manage State。
当前的run loop，将在其调用音频队列回调函数。
run loop模式。通常设为kCFRunLoopCommonModes。
保留参数，必需为0。
在输出时，新分配的播放音频队列。

设置播放音频队列大小

接下来，设置播放音频队列的一些大小值。在为音频队列分配缓冲区时，以及开始读取音频文件之前，请使用这些大小值。

本节中的代码清单展示了如何设置：

音频队列缓冲区大小。
每次调用播放音频队列回调函数时要读取的数据包数量。
数组大小，用于保存一个缓冲区的音频数据的数据包描述。

设置缓冲区大小和要读取的数据包数量

清单3-12展示了如何使用之前编写的DeriveBufferSize函数（参阅Write a Function to Derive Playback Audio Queue Buffer Size）。这里的目的是为每个音频队列缓冲区设置一个大小（以字节为单位），并确定每次调用播放音频队列回调函数时要读取的包数量。

该代码使用最大数据包大小的保守预估值，Core Audio通过kAudioFilePropertyPacketSizeUpperBound属性提供了该预估值。在大多数情况下，比起花时间读取整个音频文件以获得实际的最大数据包大小，使用这种近似（但快速）的技术更好。

清单3-12 设置播放音频队列缓冲区的大小和要读取的数据包数量

UInt32 maxPacketSize;
UInt32 propertySize = sizeof (maxPacketSize);
AudioFileGetProperty (                               // 1
    aqData.mAudioFile,                               // 2
    kAudioFilePropertyPacketSizeUpperBound,          // 3
    &propertySize,                                   // 4
    &maxPacketSize                                   // 5
);
 
DeriveBufferSize (                                   // 6
    aqData.mDataFormat,                              // 7
    maxPacketSize,                                   // 8
    0.5,                                             // 9
    &aqData.bufferByteSize,                          // 10
    &aqData.mNumPacketsToRead                        // 11
);

下面是该代码的工作方式：

AudioFileGetProperty函数（在AudioFile.h中声明），获取音频文件的指定属性的值。这里，可以用它来获取要播放文件中音频数据包大小的保守上限值（以字节为单位）。
要播放的音频文件对象（类型为AudioFileID）。参阅Opening an Audio File。
用于获取音频文件中数据包大小的保守上限的属性ID。
输出时，kAudioFilePropertyPacketSizeUpperBound属性的大小（以字节为单位）。
输出时，要播放的文件的数据包大小的保守上限（以字节为单位）。
DeriveBufferSize函数（在Write a Function to Derive Playback Audio Queue Buffer Size中描述），设置来缓冲区大小和每次调用回调函数时要读取的数据包数量。
要播放的文件的音频数据格式。参阅Obtaining a File’s Audio Data Format。
来自第5行的音频文件最大数据包大小的预估值。
每次音频队列缓冲区应保留的音频时长（以秒为单位）。此处设置半秒是个不错的选择。
在输出时，每个音频队列缓冲区大小（以字节为单位）。该值放在音频队列的自定义结构体中。
在输出时，是在每次播放音频队列回调时要读取的数据包数量。该值也放在音频队列的自定义结构体中。

给数据包描述数组分配内存

现在，给数组分配内存，以保存一个缓冲区的音频数据的数据包描述。CBR数据不使用数据包描述，因此CBR的情况（清单3-13中的步骤3）非常简单。

清单3-13 给数据包描述数组分配内存

bool isFormatVBR = (                                       // 1
    aqData.mDataFormat.mBytesPerPacket == 0 ||
    aqData.mDataFormat.mFramesPerPacket == 0
);
 
if (isFormatVBR) {                                         // 2
    aqData.mPacketDescs =
      (AudioStreamPacketDescription*) malloc (
        aqData.mNumPacketsToRead * sizeof (AudioStreamPacketDescription)
      );
} else {                                                   // 3
    aqData.mPacketDescs = NULL;
}

下面是该代码的工作方式：

确定音频文件的数据格式是VBR还是CBR。在VBR数据中，bytes-per-packet或frames-per-packet值的一个或两个是可变的，因此列出在音频队列的AudioStreamBasicDescription结构体中这两个值为0的情况。
对于包含VBR数据的音频文件，则为数据包描述数组分配内存。根据每次播放回调调用时要读取的音频数据包数量，计算所需内存。参阅Setting Buffer Size and Number of Packets to Read。
对于包含CBR数据的音频文件（例如线性PCM），音频队列不使用数据包描述数组。

某些压缩音频格式（例如MPEG 4 AAC）利用结构体来包含音频元数据。这些结构体称为magic cookies。使用音频队列服务以这种格式播放文件时，需要从音频文件中获取magic cookie，然后在开始播放之前应用到音频队列中。

清单3-14展示了如何从文件中获取magic cookie并将其应用到音频队列。你需要在开始播放之前调用该函数。

清单3-14 为播放音频队列设置magic cookie

UInt32 cookieSize = sizeof (UInt32);                   // 1
bool couldNotGetProperty =                             // 2
    AudioFileGetPropertyInfo (                         // 3
        aqData.mAudioFile,                             // 4
        kAudioFilePropertyMagicCookieData,             // 5
        &cookieSize,                                   // 6
        NULL                                           // 7
    );
 
if (!couldNotGetProperty && cookieSize) {              // 8
    char* magicCookie =
        (char *) malloc (cookieSize);
 
    AudioFileGetProperty (                             // 9
        aqData.mAudioFile,                             // 10
        kAudioFilePropertyMagicCookieData,             // 11
        &cookieSize,                                   // 12
        magicCookie                                    // 13
    );
 
    AudioQueueSetProperty (                            // 14
        aqData.mQueue,                                 // 15
        kAudioQueueProperty_MagicCookie,               // 16
        magicCookie,                                   // 17
        cookieSize                                     // 18
    );
 
    free (magicCookie);                                // 19
}

下面是该代码的工作方式：

设置magic cookie数据的预估大小。
接收AudioFileGetPropertyInfo函数的结果。如果成功，该函数返回NoErr，等同于布尔值false。
AudioFileGetPropertyInfo函数（在AudioFile.h中声明），获取指定属性值的大小。可以用它来设置保存属性值的变量大小。
音频文件对象（类型为AudioFileID），表示要播放的音频文件。
表示音频文件的magic cookie数据的属性ID。
输入时，magic cookie数据的预估大小。输出时，是其实际大小。
用NULL表示不关心该属性的读/写访问权限。
如果音频文件确实包含magic cookie，则分配内存保存它。
AudioFileGetProperty函数（在AudioFile.h中声明），获取指定属性的值。在这里，它将获取音频文件的magic cookie。
音频文件对象（类型为AudioFileID），表示要播放的以及要获取magic cookie的音频文件。
音频文件的magic cookie数据的属性ID。
输入时，magicCookie使用AudioFileGetPropertyInfo函数获得变量的大小。输出时，将是magic cookie的实际大小（以写入magicCookie变量的字节数为单位）。
输出时，音频文件的magic cookie。
AudioQueueSetProperty函数给音频队列设置属性。在这里，它将给音频队列设置magic cookie，使其于要播放的音频文件中的magic cookie相匹配。
要为其设置magic cookie的音频队列。
音频队列的magic cookie的属性ID。
要播放文件中的magic cookie。
magic cookie的大小（以字节为单位）。
释放分配给magic cookie的内存。

分配和准备音频队列缓冲区

现在，请求之前创建的（参阅Create a Playback Audio Queue）音频队列来准备一组音频队列缓冲区，如清单3-15所示。

清单3-15 分配和准备音频队列缓冲区进行播放

aqData.mCurrentPacket = 0;                                // 1
 
for (int i = 0; i < kNumberBuffers; ++i) {                // 2
    AudioQueueAllocateBuffer (                            // 3
        aqData.mQueue,                                    // 4
        aqData.bufferByteSize,                            // 5
        &aqData.mBuffers[i]                               // 6
    );
 
    HandleOutputBuffer (                                  // 7
        &aqData,                                          // 8
        aqData.mQueue,                                    // 9
        aqData.mBuffers[i]                                // 10
    );
}

下面是该代码的工作方式：

数据包索引设为0，以便当前音频队列回调函数填充缓冲区（步骤7）时，是从音频文件的开头开始。
分配和准备一组音频队列缓冲区（kNumberBuffers设置为3，参阅Define a Custom Structure to Manage State）。
AudioQueueAllocateBuffer函数通过为其分配内存来创建音频队列缓冲区。
分配缓冲区的音频队列。
新音频队列缓冲区大小（以字节为单位）。
输出时，把新的音频队列缓冲区添加到自定义结构体的mBuffers数组中。
HandleOutputBuffer是播放音频队列的回调函数。参阅Write a Playback Audio Queue Callback。
音频队列的自定义结构体。
要调用其回调的音频队列。
要传递给音频队列回调的缓冲区。

设置音频队列播放增益

在音频队列开始播放之前，通过音频队列参数机制设置其增益，如清单3-16所示。有关参数机制的更多信息，可参阅Audio Queue Parameters。

清单3-16 设置音频队列的播放增益

Float32 gain = 1.0;                                       // 1
    // Optionally, allow user to override gain setting here
AudioQueueSetParameter (                                  // 2
    aqData.mQueue,                                        // 3
    kAudioQueueParam_Volume,                              // 4
    gain                                                  // 5
);

下面是该代码的工作方式：

在0（静音）和1（单元增益）之间设置增益。
AudioQueueSetParameter函数设置音频队列的参数值。
要设置参数的音频队列。
要设置的参数ID。kAudioQueueParam_Volume用于设置音频队列增益。
要应用于音频队列的增益设置。

启动和运行音频队列

前面的代码已经为播放文件做了准备。下面是启动音频队列和维护run loop，如清单3-17所示。

清单3-17 启动和运行音频队列

aqData.mIsRunning = true;                          // 1
 
AudioQueueStart (                                  // 2
    aqData.mQueue,                                 // 3
    NULL                                           // 4
);
 
do {                                               // 5
    CFRunLoopRunInMode (                           // 6
        kCFRunLoopDefaultMode,                     // 7
        0.25,                                      // 8
        false                                      // 9
    );
} while (aqData.mIsRunning);
 
CFRunLoopRunInMode (                               // 10
    kCFRunLoopDefaultMode,
    1,
    false
);

下面是该代码的工作方式：

设置自定义结构体标志，表示音频队列正在运行。
AudioQueueStart函数在其自身的线程上启动音频队列。
要开始的音频队列。
用NULL表示因队列应立即开始播放。
定义轮询自定义结构体的mIsRunning字段，以检查音频队列是否已经停止。
CFRunLoopRunInMode函数运行包含音频队列线程的run loop。
对run loop使用默认模式。
把run loop的运行时间设置为0.25秒。
用false表示run loop应在指定的时间内继续。
音频队列停止后，再运行一次run loop，以确保当前正在播放的音频队列缓冲区有足够时间完成。

播放后的清理

播放文件后，处理音频队列，关闭音频文件，并释放所有剩余资源，如清单3-18所示。

清单3-18 播放音频文件后清理

AudioQueueDispose (                            // 1
    aqData.mQueue,                             // 2
    true                                       // 3
);
 
AudioFileClose (aqData.mAudioFile);            // 4
 
free (aqData.mPacketDescs);                    // 5

下面是该代码的工作方式：

AudioQueueDispose函数处理音频队列及其所有资源，包括缓冲区。
要处理的音频队列。
用true表示同步处理音频队列。
关闭播放的音频文件。AudioFileClose函数在AudioFile.h中声明。
释放用于保存数据包描述的内存。

总结

使用AudioQueue实现播放功能，一般步骤：
1. 定义一个自定义结构体来管理状态、格式和路径信息。
2. 编写音频队列回调函数来执行实际的播放。
3. 编写代码以确定音频队列缓冲区的合适大小。
4. 打开音频文件进行播放，然后确定其音频数据格式。
5. 创建一个播放音频队列并进行相关配置。
6. 分配和排队音频队列缓冲区。告诉音频队列开始播放。完成后，播放回调函数告诉音频队列停止。
7. 处理音频队列，释放资源。

]]> 翻译 Apple Audio Queue Services Programming Guide 音视频 Audio Queue Services Programming Guide：录制音频 /posts/audio_queue_services_pg_recording_audio/ 当你使用音频队列服务进行录制的时候，你可以将音频录制到任何地方：磁盘文件、网络连接或内存对象等等。本章将介绍中最常见的一种情况，将音频录制到磁盘文件中。

注意：本章介绍了基于ANSI-C的录制的实现，并且使用了MAC OS X中Core Audio SDK中了一些C++类，如果想了解基于Objective-C的例子，请参考iOS Dev Center中的_SpeakHere_例子。

要把录制功能添加到程序中，一般都要进行以下几个步骤：

定义一个自定义的结构体来管理状态、格式以及路径信息等。
编写音频队列回调函数来执行实际的录制工作。
（可选）编写代码来为音频队列缓冲区选择一个合适的大小。如果你将要录制的格式使用了magic cookies，你需要编写相应的代码来配合使用。
填充自定义结构体中的各个字段，包括指定音频队列将要录制到的文件的数据流、文件路径。
创建一个用于录制的音频队列并且让音频队列创建一系列的音频队列缓冲区，同时创建一个将要写入的文件。
通知音频队列开始录制。
录制完毕之后，通知音频队列停止录制，然后释放掉它，同时它会释放掉它所拥有的缓冲区。

本章的剩余部分将详细描述上述的每一个步骤。

定义一个管理状态的结构体

使用音频队列服务来开发一个音频录制解决方案的时候，第一步就是定义一个结构体。将使用这个结构体来管理音频格式和音频队列状态信息。清单2-1展示了这个这样的一个结构体。

清单2-1 一个用于录制的音频队列的结构体

static const int kNumberBuffers = 3;                            // 1
struct AQRecorderState {
    AudioStreamBasicDescription  mDataFormat;                   // 2
    AudioQueueRef                mQueue;                        // 3
    AudioQueueBufferRef          mBuffers[kNumberBuffers];      // 4
    AudioFileID                  mAudioFile;                    // 5
    UInt32                       bufferByteSize;                // 6
    SInt64                       mCurrentPacket;                // 7
    bool                         mIsRunning;                    // 8
};

下面是这个结构体中每个字段的说明：

要使用的音频队列缓冲区的数量。
一个AudioStreamBasicDescription结构体（来自CoreAudioTypes.h），表示将要写入磁盘的音频数据的格式，音频队列缓冲区使用这个格式来指定它的mQueue字段。mDataFormat字段是由你的程序初始化的，参阅Set Up an Audio Format for Recording。可以通过查询音频队列的kAudioQueueProperty_StreamDescription属性来更新这个字段的值，参阅Getting the Full Audio Format from an Audio Queue。在Mac OS X v10.5中要使用kAudioConverterCurrentInputStreamDescription。关于AudioStreamBasicDescription结构体的详细信息，请参阅_Core Audio Data Types Reference_。
由程序创建的音频队列。
一个指向由音频队列所管理的音频队列缓冲区的指针数组。
一个表示程序录制音频时写入的文件的音频文件对象。
每个音频队列缓冲区的字节大小。它的值在随后的例子中的DeriveBufferSize函数中计算出来，它在音频队列创建后，开始录制音频前计算出来，参阅Write a Function to Derive Recording Audio Queue Buffer Size。
从当前音频队列缓冲区写入文件的第一个包（packet）的索引。
一个布尔值，表示音频队列是否在运行中。

编写用于录制的音频队列的回调函数

接下来，编写一个用于录制的回调函数，这个函数主要做两个事情：

将新填充进音频队列缓冲区的内容写入你正在录制的文件中。
将刚才已经将内容写入文件的音频队列缓冲区入队到缓冲区队列。

下面展示了一个回调函数声明的列子，然后分别描述这两个任务，最后展示一个完整的用于录制的回调函数。关于用于录制的音频队列回调函数所扮演的角色，可以参考图1-3。

用于录制的音频队列回调函数的声明

清单2-2是一个用于录制的音频队列回调函数声明，是在AudioQueue.h中声明的AudioQueueInputCallback：

清单2-2 用于录制的音频队列回调函数声明

static void HandleInputBuffer (
    void                                *aqData,             // 1
    AudioQueueRef                       inAQ,                // 2
    AudioQueueBufferRef                 inBuffer,            // 3
    const AudioTimeStamp                *inStartTime,        // 4
    UInt32                              inNumPackets,        // 5
    const AudioStreamPacketDescription  *inPacketDesc        // 6
)

下面是该代码的工作方式：

一般来说，aqData是一个自定义的数据结构，包含了音频队列的状态信息，参阅Define a Custom Structure to Manage State。
拥有该回调函数的音频队列。
包含录制数据的音频队列缓冲区。
音频队列缓冲区中第一个采样的时间（对于简单的录制是不需要的）。
inPacketDesc字段中包描述的数量，如果是0，表明这是个CBR数据。
对于压缩数据格式如果需要包描述，包描述是由编码器产生的。

将音频队列缓冲区中的数据写入磁盘

用于录制的音频队列回调函数要做的第一件事情就是把音频队列缓冲区中的内容写入磁盘。这个缓冲区就是音频队列从输入设备最新输入的音频数据。这个回调函数使用AudioFile.h中声明的AudioFileWritePackets函数。如清单2-3所示。

清单2-3 将音频队列缓冲区数据写入磁盘

AudioFileWritePackets (                     // 1
    pAqData->mAudioFile,                    // 2
    false,                                  // 3
    inBuffer->mAudioDataByteSize,           // 4
    inPacketDesc,                           // 5
    pAqData->mCurrentPacket,                // 6
    &inNumPackets,                          // 7
    inBuffer->mAudioData                    // 8
);

下面是该代码的工作方式：

AudioFileWritePackets函数（在AudioFile.h声明），把缓冲区的内容写入音频数据文件中。
音频文件对象（类型为AudioFileID）表示要写到的音频文件。pAqData变量是指向清单2-1描述的数据结构的指针。
使用false值来表达写入是函数不应缓存数据。
正在写入的音频数据的字节数。inBuffer变量音频队列传递给回调函数的音频队列缓冲区。
音频数据包描述数组。NULL值表示不需要数据包描述（例如，CBR音频数据）。
要写入的第一个数据包的索引。
输入时，表示要写入的数据包数量。输出时，表示实际写入的数据包数量。
将新的音频数据写入音频文件。

排队音频队列缓冲区

现在，音频队列缓冲区的音频数据已经被写入音频文件，回调对缓冲区进行排队，如清单2-4所示。一旦回到缓冲区队列中，缓冲区就处于排队状态，准备接受更多传入的音频数据。

清单2-4 写入磁盘后排队音频队列缓冲区

AudioQueueEnqueueBuffer (                    // 1
    pAqData->mQueue,                         // 2
    inBuffer,                                // 3
    0,                                       // 4
    NULL                                     // 5
);

下面是该代码的工作方式：

AudioQueueEnqueueBuffer函数把音频队列缓冲区添加到音频队列的缓冲区队列中。
把指定的音频队列缓冲区添加到音频队列。pAqData变量指向清单2-1描述的数据结构指针。
要排队的音频队列缓冲区。
音频队列缓冲区数据中的数据包描述数量。设为0，因为该参数未用于录制。
数据包描述数组，描述音频队列缓冲区的数据。设为NULL，因为该参数未用于录制。

一个完整的音频录制的音频队列回调函数

清单2-5展示了完整的音频录制中音频队列回调函数的基本形式。与本文档的其他代码一样，该清单不包括错误处理。

清单2-5 一个音频录制的音频队列回调函数

static void HandleInputBuffer (
    void                                 *aqData,
    AudioQueueRef                        inAQ,
    AudioQueueBufferRef                  inBuffer,
    const AudioTimeStamp                 *inStartTime,
    UInt32                               inNumPackets,
    const AudioStreamPacketDescription   *inPacketDesc
) {
    AQRecorderState *pAqData = (AQRecorderState *) aqData;               // 1
 
    if (inNumPackets == 0 &&                                             // 2
          pAqData->mDataFormat.mBytesPerPacket != 0)
       inNumPackets =
           inBuffer->mAudioDataByteSize / pAqData->mDataFormat.mBytesPerPacket;
 
    if (AudioFileWritePackets (                                          // 3
            pAqData->mAudioFile,
            false,
            inBuffer->mAudioDataByteSize,
            inPacketDesc,
            pAqData->mCurrentPacket,
            &inNumPackets,
            inBuffer->mAudioData
        ) == noErr) {
            pAqData->mCurrentPacket += inNumPackets;                     // 4
    }
   if (pAqData->mIsRunning == 0)                                         // 5
      return;
 
    AudioQueueEnqueueBuffer (                                            // 6
        pAqData->mQueue,
        inBuffer,
        0,
        NULL
    );
}

下面是该代码的工作方式：

实例化时提供给音频队列对象的结构体，包含代表要记录到其中的音频文件的对象，以及各种状态数据。参阅Define a Custom Structure to Manage State。
如果音频队列缓冲区包含CBR数据，则需要计算缓冲区的数据包数量。该数值等于缓冲区中数据的总字节除以每个数据包固定的字节数。对于VBR数据，音频队列在调用回调时会提供缓冲区中的数据包数量。
把缓冲区的内容写入到音频数据文件中。有关详细的说明，参阅Writing an Audio Queue Buffer to Disk。
如果成功写入音频数据，需要增加音频数据文件的数据包索引，以准备写入下一个缓冲区的音频数据。
如果音频队列已停止，则返回。
入队该写入音频文件的音频队列缓冲区。有关详细的说明，参阅Enqueuing an Audio Queue Buffer。

编写函数计算用于录制的音频队列缓冲区大小

音频队列服务希望程序为使用的音频队列缓冲区指定大小。清单2-6展示了一种执行该操作的方法。它得出的缓冲区大小足以容纳给定的音频时长。

该计算考虑了要录制到的音频数据格式。该格式包含可能影响缓冲区大小的所有因素，例如音频通道的数量。

清单2-6 得出音频录制的音频队列缓冲区的大小

void DeriveBufferSize (
    AudioQueueRef                audioQueue,                  // 1
    AudioStreamBasicDescription  &ASBDescription,             // 2
    Float64                      seconds,                     // 3
    UInt32                       *outBufferSize               // 4
) {
    static const int maxBufferSize = 0x50000;                 // 5
 
    int maxPacketSize = ASBDescription.mBytesPerPacket;       // 6
    if (maxPacketSize == 0) {                                 // 7
        UInt32 maxVBRPacketSize = sizeof(maxPacketSize);
        AudioQueueGetProperty (
                audioQueue,
                kAudioQueueProperty_MaximumOutputPacketSize,
                // in Mac OS X v10.5, instead use
                //   kAudioConverterPropertyMaximumOutputPacketSize
                &maxPacketSize,
                &maxVBRPacketSize
        );
    }
 
    Float64 numBytesForTime =
        ASBDescription.mSampleRate * maxPacketSize * seconds; // 8
    *outBufferSize =
    UInt32 (numBytesForTime < maxBufferSize ?
        numBytesForTime : maxBufferSize);                     // 9
}

下面是该代码的工作方式：

配置缓冲区大小的音频队列。
音频队列的AudioStreamBasicDescription结构体。
为每个音频队列缓冲区指定的大小（以秒为单位）。
在输出时，每个音频队列缓冲区的大小（以字节为单位）。
音频队列缓冲区大小上限（以字节为单位）。在该示例中，上限设为320 KB。这相当于以96 kHz的采样率采集5秒的24位立体声音频。
对于CBR音频数据，则从AudioStreamBasicDescription结构体中获取固定的数据包大小。使用该值作为最大数据包大小。该赋值会有副作用，这取决于要录制的音频数据时CBR还是VBR。如果是VBR，则音频队列的AudioStreamBasicDescription会把bytes-per-packet设为0。
对于VBR音频数据，查询音频队列以获取最大的数据包估算大小。
得出缓冲区大小（以字节为单位）。
如果需要，把缓冲区大小限制为之前设置的上限。

某些压缩的音频格式（例如MPEG 4 AAC），利用结构体包含音频元数据。这些结构体称为magic cookies。使用音频队列服务以这种格式录制时，必须先从音频队列中获取magic cookie，然后再将其添加到音频文件中，然后开始录制。

清单2-7展示了如何从音频队列中获取magic cookie，并将其应用于音频文件中。代码会在录制之前调用该函数，然后在录制后再次调用，因为某些编解码器会在录制停止时更新magic cookie数据。

清单2-7 给音频文件设置magic cookie

OSStatus SetMagicCookieForFile (
    AudioQueueRef inQueue,                                      // 1
    AudioFileID   inFile                                        // 2
) {
    OSStatus result = noErr;                                    // 3
    UInt32 cookieSize;                                          // 4
 
    if (
            AudioQueueGetPropertySize (                         // 5
                inQueue,
                kAudioQueueProperty_MagicCookie,
                &cookieSize
            ) == noErr
    ) {
        char* magicCookie =
            (char *) malloc (cookieSize);                       // 6
        if (
                AudioQueueGetProperty (                         // 7
                    inQueue,
                    kAudioQueueProperty_MagicCookie,
                    magicCookie,
                    &cookieSize
                ) == noErr
        )
            result =    AudioFileSetProperty (                  // 8
                            inFile,
                            kAudioFilePropertyMagicCookieData,
                            cookieSize,
                            magicCookie
                        );
        free (magicCookie);                                     // 9
    }
    return result;                                              // 10
}

下面是该代码的工作方式：

用于录制的音频队列。
录制到的音频文件。
结果变量，表达该函数是成功还是失败。
用于保存magic cookie数据大小的变量。
从音频队列获取magic cookie数据大小，并存储在cookieSize变量中。
分配一个字节数据来保存magic cookie信息。
通过查询音频队列的kAudioQueueProperty_MagicCookie属性获取magic cookie。
设置录制到的音频文件的magic cookie。AudioFileSetProperty函数在AudioFile.h头文件中声明。
释放临时magic cookie变量的内存。
返回该函数的成功或失败状态。

设置音频格式进行录制

本节介绍如何为音频队列设置音频数据格式。音频队列使用该格式记录到文件。

要设置音频数据格式，需要指定：

音频数据格式类型（如线性PCM、AAC等）
采样率（如44.1 kHz）
音频通道数（如2，立体声）
位深（如16位）
每数据包帧数量（如线性PCM，每包一帧）
音频文件类型（如CAF、AIFF等）
文件类型所需的音频数据格式的详细信息

清单2-8写死了用来录制的音频格式的每个属性值。在生产代码中，通常允许用户部分或全部指定音频格式。无论采用哪种方式，目标都是填充AQRecorderState自定义结构体的mDataFormat字段，参阅Define a Custom Structure to Manage State中的自定义结构体。

清单2-8 指定音频队列的音频数据格式

AQRecorderState aqData;                                       // 1
 
aqData.mDataFormat.mFormatID         = kAudioFormatLinearPCM; // 2
aqData.mDataFormat.mSampleRate       = 44100.0;               // 3
aqData.mDataFormat.mChannelsPerFrame = 2;                     // 4
aqData.mDataFormat.mBitsPerChannel   = 16;                    // 5
aqData.mDataFormat.mBytesPerPacket   =                        // 6
   aqData.mDataFormat.mBytesPerFrame =
      aqData.mDataFormat.mChannelsPerFrame * sizeof (SInt16);
aqData.mDataFormat.mFramesPerPacket  = 1;                     // 7
 
AudioFileTypeID fileType             = kAudioFileAIFFType;    // 8
aqData.mDataFormat.mFormatFlags =                             // 9
    kLinearPCMFormatFlagIsBigEndian
    | kLinearPCMFormatFlagIsSignedInteger
    | kLinearPCMFormatFlagIsPacked;

下面是该代码的工作方式：

创建AQRecorderState结构体实例。结构体的mDataFormat字段包含一个AudioStreamBasicDescription结构体。在mDataFormat字段中设置的值提供了音频队列的初始音频格式，这也是记录到文件的音频格式。在清单2-10中，你可以获得音频格式的完整规范，Core Audio根据格式类型和文件类型提供了相关规范。
把音频数据格式类型定义为线性PCM。有关可用数据格式的完整列表，可参阅_Core Audio Data Types Reference_。
把采样率设为44.1 kHz。
通道数设为2。
每个通道位深设为16。
每个数据包字节数和每帧字节数设为4（即2个通道乘以每个样本2个字节）。
每个数据包帧数量设为1。
文件类型设为AIFF。参阅AudioFile.h头文件的类型，可获得可用类型的完整列表。可以指定任意已安装的解码器的文件类型，如Using Codecs and Audio Data Formats所述。
设置指定文件类型所需的格式标志。

创建一个录制音频队列

现在，在设置了录制黑白你函数和音频数据格式之后，创建和配置用于录制的音频队列。

创建录制音频队列

清单2-9展示了如何创建录制音频队列。注意，AudioQueueNewInput函数使用在之前步骤中配置的回调函数、自定义结构体和音频数据格式。

清单2-9 创建录制音频队列

AudioQueueNewInput (                              // 1
    &aqData.mDataFormat,                          // 2
    HandleInputBuffer,                            // 3
    &aqData,                                      // 4
    NULL,                                         // 5
    kCFRunLoopCommonModes,                        // 6
    0,                                            // 7
    &aqData.mQueue                                // 8
);

下面是该代码的工作方式：

AudioQueueNewInput函数创建一个新的录制音频队列。
录制的音频数据格式。参阅Set Up an Audio Format for Recording。
于录制音频队列一起使用的回调函数。参阅Write a Recording Audio Queue Callback。
录制音频队列的自定义数据结构体。参阅Define a Custom Structure to Manage State。
调用回调函数的run loop。使用NULL指定默认行为，回调函数将在内部的音频队列中的线程执行。这时典型的用法，允许音频队列在程序的用户界面线程等待用户停止录制的同时进行录制。
run loop模式。通常使用kCFRunLoopCommonModes。
保留参数，必须为0。
在输出时，新分配的录制音频队列。

从音频队列获取完整的音频格式

当音频队列创建后（参阅Creating a Recording Audio Queue），AudioStreamBasicDescription可能比你填写的更完整，尤其是压缩格式。要获取完整的格式描述，调用清单2-10的AudioQueueGetProperty函数。创建要录制到的音频文件时，需使用完整的音频格式（参阅Create an Audio File）。

清单2-10 从音频队列获取音频格式

UInt32 dataFormatSize = sizeof (aqData.mDataFormat);       // 1
 
AudioQueueGetProperty (                                    // 2
    aqData.mQueue,                                         // 3
    kAudioQueueProperty_StreamDescription,                 // 4
    // in Mac OS X, instead use
    //    kAudioConverterCurrentInputStreamDescription
    &aqData.mDataFormat,                                   // 5
    &dataFormatSize                                        // 6
);

下面是该代码的工作方式：

获取在查询音频队列有关其音频数据格式时要使用的预期属性值大小。
AudioQueueGetProperty函数获取音频队列中指定属性的值。
用于获取音频数据格式的音频队列。
用于获取音频队列的数据格式值的属性ID。
在输出时，从音频队列获得的AudioStreamBasicDescription结构体形式的完整音频数据格式。
输入时，是AudioStreamBasicDescription的预期大小。输出时，是其实际大小。在录制程序中不需要使用该值。

创建音频文件

创建并配置音频队列后，将创建一个音频文件，把音频数据记录到音频文件中，如清单2-11所示。音频文件使用之前存储在音频队列的自定义结构体中的数据格式和文件格式规范。

清单2-11 创建一个音频文件进行录制

CFURLRef audioFileURL =
    CFURLCreateFromFileSystemRepresentation (            // 1
        NULL,                                            // 2
        (const UInt8 *) filePath,                        // 3
        strlen (filePath),                               // 4
        false                                            // 5
    );
 
AudioFileCreateWithURL (                                 // 6
    audioFileURL,                                        // 7
    fileType,                                            // 8
    &aqData.mDataFormat,                                 // 9
    kAudioFileFlags_EraseFile,                           // 10
    &aqData.mAudioFile                                   // 11
);

下面是该代码的工作方式：

CFURLCreateFromFileSystemRepresentation函数（在CFURL.h头文件中声明），创建一个CFURL对象，该对象表示要录制到其中的文件。
使用NULL或kCFAllocatorDefault，使用当前默认的内存分配器。
想要转换为CFURL的文件系统路径。在生产代码中，通常会从用户获取filePath值。
文件系统路径中的字节数。
false值表示filePath代表文件，而不是目录。
AudioFileCreateWithURL函数（来自AudioFile.h头文件），创建一个新的音频文件，或初始化一个现有文件。
用于创建新的音频文件或使用现在文件进行初始化的URL。该URL是从第一步CFURLCreateFromFileSystemRepresentation获得的。
新文件的文件类型。在本章的示例代码中，之前已通过kAudioFileAIFFType设置为AIFF类型。参阅Set Up an Audio Format for Recording。
将记录到文件中的音频数据格式，指定为AudioStreamBasicDescription结构体。在本章的示例代码中，也已在“Set Up an Audio Format for Recording”中进行了设置。
如果文件已存在，则删除该文件。
在输出时，音频文件对象（AudioFileID类型）表示要录制到的音频文件。

设置音频队列缓冲区大小

在准备在录制是使用一组音频队列缓冲区之前，调用之前的DeriveBufferSize函数（参阅Write a Function to Derive Recording Audio Queue Buffer Size）。可以把该大小分配给正在使用的录制音频队列，如清单2-12所示：

清单2-12 设置音频队列缓冲区大小

DeriveBufferSize (                               // 1
    aqData.mQueue,                               // 2
    aqData.mDataFormat,                          // 3
    0.5,                                         // 4
    &aqData.bufferByteSize                       // 5
);

下面是该代码的工作方式：

DeriveBufferSize函数（定义在Write a Function to Derive Recording Audio Queue Buffer Size），设置合适的音频队列缓冲区大小。
配置缓冲区大小的音频队列。
在录制的文件的音频数据格式。参阅Set Up an Audio Format for Recording。
每个音频队列缓冲区应保留的秒数。此处设置半秒是个不错的选择。
在输出时，每个音频队列缓冲区的大小（以字节为单位）。该值放在音频队列的自定义结构体中。

准备一组音频队列缓冲区

现在，请求音频队列（在Create a Recording Audio Queue创建的）准备一组音频队列缓冲区。清单2-13展示了如何操作。

清单2-13 准备一组音频队列缓冲区

for (int i = 0; i < kNumberBuffers; ++i) {           // 1
    AudioQueueAllocateBuffer (                       // 2
        aqData.mQueue,                               // 3
        aqData.bufferByteSize,                       // 4
        &aqData.mBuffers[i]                          // 5
    );
 
    AudioQueueEnqueueBuffer (                        // 6
        aqData.mQueue,                               // 7
        aqData.mBuffers[i],                          // 8
        0,                                           // 9
        NULL                                         // 10
    );
}

下面是该代码的工作方式：

遍历分配和入队每个音频队列缓冲区。
AudioQueueAllocateBuffer函数请求音频队列分配音频队列缓冲区。
执行分配并持有缓冲区的音频队列。
分配的新音频队列缓冲区的大小（以字节为单位）。参阅Write a Function to Derive Recording Audio Queue Buffer Size。
在输出时，是新分配的音频队列缓冲区。指向缓冲区的指针放在和音频队列一起使用的自定义结构体中。
AudioQueueEnqueueBuffer函数把音频队列缓冲区添加到缓冲区队列的末尾。
向其添加缓冲区的缓冲区队列的音频队列。
正在入队的音频队列缓冲区。
缓冲区入队时未使用该参数。
缓冲区入队时未使用该参数。

录制音频

有了前面的代码，录制过程显得格外简单，如清单2-14所示。

清单2-14 录制音频

aqData.mCurrentPacket = 0;                           // 1
aqData.mIsRunning = true;                            // 2
 
AudioQueueStart (                                    // 3
    aqData.mQueue,                                   // 4
    NULL                                             // 5
);
// Wait, on user interface thread, until user stops the recording
AudioQueueStop (                                     // 6
    aqData.mQueue,                                   // 7
    true                                             // 8
);
 
aqData.mIsRunning = false;                           // 9

下面是该代码的工作方式：

初始化数据包索引为0，在音频文件的开头开始录制。
在自定义结构体中设置标志，以指示音频队列正在运行。录制音频队列回调函数使用该标志。
AudioQueueStart函数在其自己的线程上启动音频队列。
音频队列开始。
使用NULL表示音频队列应立即开始录制。
AudioQueueStop函数停止并重置录制音频队列。
音频队列停止。
使用true来同步停止。有关同步和异步的说明，参阅Audio Queue Control and State。
在自定义结构体中设置标志，以表示音频队列还没运行。

录制后清理

完成录制后，需要处理音频队列并关闭音频文件，如清单2-15所示。

清单2-15 录制后清理

AudioQueueDispose (                                 // 1
    aqData.mQueue,                                  // 2
    true                                            // 3
);
 
AudioFileClose (aqData.mAudioFile);                 // 4

下面是该代码的工作方式：

AudioQueueDispose函数处理音频队列及其所有资源，包括缓冲区。
要处理的音频队列。
使用true来同步（即立即）处理音频队列。
关闭用于录制的音频文件。AudioFileClose函数在AudioFile.h头文件中声明。

总结

使用录制功能一般步骤：
1. 定义自定义结构体来管理状态、格式以及路径信息等。
2. 编写回调函数来执行实际的录制数据处理。
3. 填充自定义结构体中的各个字段，包括录制到的文件的数据流、文件路径。
4. 创建音频队列、音频队列缓冲区、要写入的文件。
5. 通知音频队列开始录制。
6. 录制完毕后，通知音频队列停止录制，然后释放。这同时会释放它所拥有的所有缓冲区。
对于使用OC、Swift代码，可以直接把结构体的字段直接分散到类定义中。
录制回调函数任务：
- 把填充进音频队列缓冲区的内容写入到文件。
- 把写入文件的音频队列缓冲区排队到队列中。这样才可以接受更多数据。
回调函数中的const AudioStreamPacketDescription *inPacketDesc包含VBR包描述的数量（mVariableFramesInPacket），如果是0则表示这是CBR数据。该数据来自编码器。
每个音频队列缓冲区时长可以设置为0.5秒。

]]> 翻译 Apple Audio Queue Services Programming Guide 音视频图解HTTP /posts/graphical_http/ 这本书是工作两年后买的，虽然说工作中都基本用不上，但对于面试其内容都是必考题。每次换工作面试都会拿出来读一遍，现在已经是第三刷了，每次读《图解HTTP》都有一种仪式感，嗯，面试了。

《图解HTTP》里面的内容虽然不深，但覆盖范围较广，用于面试也基本足够。之前整理在幕布的笔记太精简了，现在再读一遍，要补充的东西还是挺多的。

所以说这本书的内容更多的是一个引子、导读，更多的细节还是需要再去翻查资料。

]]> 读书笔记网络图解HTTP 图解HTTP：网络基础 /posts/graphical_http_network_fundamentals/ TCP/IP 协议族

与互联网相关联的协议集合起来总称。

TCP/IP 分层管理

应用层。给用户提供应用服务。如：FTP、DNS、HTTP。
传输层。给应用层提供处理网络连接中的两台计算机之间的数据传输。如：TCP、UDP。
网络层/网络互连层。处理在网络上流动的数据包。在众多的传输路线中做出选择。如：IP。
数据链路层/网络接口层。处理连接网络的硬件部分。

数据包是网络传输的最小数据单位。

TCP/IP 通信传输流

通过分层顺序与对方网络通信。

发送端从应用层往下走：

发送数据：应用层 -> 传输层 -> 网络层 -> 链路层
每经过一层都打上一层的首部信息，层层封装。

接收端则从链路层往上走，一直到达服务器：

接收到数据：链路层 -> 网络层 -> 传输层 -> 应用层
每经过一层就将对应的首部消掉，层层解封装。

以HTTP举例：

发送端/客户端在应用层（HTTP协议）发出一个HTTP请求。
为了方便传输，在传输层（TCP协议）把应用层收到的数据（HTTP请求报文）进行分割，并在各个报文上标记序号、端口号，然后转发给网络层。
在网络层（IP协议），增加作为通信目的地的MAC地址后转发给链路层。
接收端/服务器在链路层接收到数据，按序往上发送，一直到应用层，才算真正接收到HTTP请求。

每一层的交互通过打上首部信息和消去首部信息（封装与解封装），发送端/客户端把应用层数据层层封装，到接收端/服务器才层层解封装拿到应用层数据。

IP协议

IP，Internet Protocol，网络层。负责把各种数据传输到对方。其中两个重要条件是IP地址和MAC地址。

IP地址指明被分配到的地址；MAC地址指明网卡所属的固定地址。IP地址依赖MAC地址，通常不在发送端与接收端不在同一个局域网时，往往通过ARP协议进行多台计算机和网络设备中转。

中转时，利用下一站中转设备的MAC地址来搜索下一个中转目标。

ARP的作用时解析地址，根据通信方的IP地址反查出对应的MAC地址。

TCP 协议

TCP协议，传输层，提供可靠的字节流服务。

为确保数据能到达目标，会进行三次握手策略建立连接：

为什么握手要三次，挥手却要四次呢？

那是因为握手的时候并没有数据传输，所以服务端的 SYN 和 ACK 报文可以一起发送，但是挥手的时候有数据在传输，所以 ACK 和 FIN 报文不能同时发送，需要分两步，所以会比握手多一步。

DNS服务

DNS服务，Domain Name System，应用层，提供域名到IP地址之间的解析服务。

若直接通过IP访问则不需要经过DNS服务。

URL 与 URI

URL（Uniform Resource Location），统一资源定位符。
- 是 URI 的子集。表达的是一个位置。
URI（Uniform Resource Identifier），统一资源标识符。

URI格式：

http://user:pass@www.example.com:80/dir/index.html?uid=1#ch1

http：协议方案名
user:pass：登录认证信息
www.example.com：服务器地址
80：服务器端口号
dir/index.html：带层级的文件路径
uid=1：查询字符串
ch1：片段标识符

]]> 读书笔记网络图解HTTP 图解HTTP：简单的HTTP协议 /posts/graphical_http_simple_http_protocol/ 应用HTTP协议时，必定时一端担任客户端角色，一端是担任服务器端角色。请求必定由客户端发出，而服务器端回复响应。由此达成通信。

HTTP是无状态协议

HTTP本质是无状态的。为了更快地处理大量事务，确保协议的可伸缩性。HTTP协议对于发送过的请求或响应都不做持久化处理。有新的请求发送时，就会有新的响应产生。

使用Cookies可以创建有状态的会话。把Cookies添加到头部中，创建一个会话让每次请求都能共享相同的上下文信息，达成相同的状态。

实际的数据状态可能存在服务器中，但通过 Cookie 将一个 id 信息传到客户端，并由客户端持久化，客户端通过 id 就可获得数据的状态。

使用方法告知意图

通过HTTP请求方法，简单告知请求的意图。

GET：获取资源。
POST：传输实体的主体。通过body传输数据。
PUT：传输文件。但该方法不存在验证机制，任何人都可以上传文件，存在安全性问题。
HEAD：获取报文首部。用于确认URI的有效性以及资源更新的日期时间等。
DELETE：删除文件。与PUT对应，但也没有验证机制，存在安全性问题。
OPTIONS：查询服务器支持的方法。
TRACE：追踪路径。容易引发跨站攻击，通常不会用到。
CONNECT：要求用隧道协议连接代理。要求在与代理服务器通信时建立隧道，实现用隧道协议进行TCP通信。主要是用SSL和TSL协议把通信内容加密后经网络隧道传输。

持久连接节省通信量

大量的 TCP 连接建立和断开，都会加载通信量的开销。为此，推出了持久连接（HTTP Persistent Connections，也称为 HTTP Keep-alive 或 HTTP connection reuse）方法。

只要任意一端没有明确提出断开连接，则保持 TCP 连接状态。

持久化使得多数请求以管线化（pipelining）方式发送成为可能。这样就能够做到同时并行发送多个请求。

]]> 读书笔记网络图解HTTP 图解HTTP：HTTP报文 /posts/graphical_http_http_message/ 用于 HTTP 协议的交互信息被称为 HTTP 报文。请求端/客户端的叫请求报文，相应端/服务器端的叫响应报文。报文其实就是个字符串。

组成

报文首部、报文主体（可选）

报文首部组成：

请求行
- 请求方法、URI、HTTP 版本
状态行
- 响应结果的状态码、原因短语、HTTP 版本
首部字段
- 通用首部（General Heaader Fields）
  - 请求报文和响应报文都会使用的首部。
- 请求首部（Request Header Fields）
  - 发送请求报文使用的首部。补充了请求的附加内容、客户端信息、响应内容相关优先级等信息。
- 响应首部（Response Header Fields）
  - 返回响应报文时使用的首部。补充了响应的附加内容，也会要求客户端附加额外的内容信息。
- 实体首部（Entity Header Fields）
  - 针对请求报文和响应报文的实体部分使用的首部。补充了资源内容更新时间等与实体有关的信息。
其他（HTTP 协议未定义的其他内容）

具体的请求报文与响应报文：

请求报文组成：

请求方法
请求URI
协议版本
可选请求首部字段
内容实体

响应报文组成：

协议版本
状态码
解析状态码的原因短语
可选的响应首部字段
实体主体

报文主体与实体主体

报文（message）：是 HTTP 通信的基本单位，由 8 个组字节流（octet sequence，其中 octet 为 8 个比特）组成，通过 HTTP 通信传输。

实体（entity）：作为请求或响应的有效载荷数据（补充项）被传输，其内容由实体首部和实体主体组成。

通常报文主体等于实体主体，仅当传输中进行编码操作时，实体主体的内容发生变化。

通过编码提升传输速度

HTTP在传输数据时可以原样直接传输，但也可以在传输过程中通过编码提升传输速度。但编码需要计算机来完成，虽然会提升传输速率，但也会因此需要更多的CPU资源。

压缩传输的内容编码

服务器在实体内容上压缩，客户端接收并解压实体。

常用的内容编码：

gzip，GUN zip
compress，UNIX系统的标准压缩
deflate，zlib
identity，不进行压缩

分割发送的分块传输编码

把实体内容分块。每一块都会用十六进制来标记块的大小，而实体主体的最后一块会使用“0(CR+LF)”来标记。

多部分对象集合

发送的一份报文主体可含有多类型实体，通常是图片或文本文件等上传时使用。多部份对象集合包含的对象如下：

multipart/form-data
- 在 Web 表单文件上传时使用。
multipaprt/byteranges
- 状态码 206，响应报文包含了多个范围的内容时使用。

iOS中URLSession的uploadTask默认实现只适合PUT方法上传文件，要是要multipart/form-data上传，还需要自己拼接内容实体。

范围请求

应用：断点下载、上传。

用到首部字段Range来指定资源的字节范围。

内容协商

客户端和服务器端就响应的资源内容进行交涉，然后提供给客户端最合适的资源。内容协商会以语言、字符串、编码方式等为基准判断响应的资源。即使用以下首部字段：

Accept
Accept-Charset
Accept-Encoding
Accept-Language
Connet-Language

协商技术分类：

服务器驱动协商（Server-driven Negotiation）
- 以请求的首部字段为参考，在服务端自动处理。
客户端驱动协商（Agent-driven Negotiation）
- 从浏览器显示的可选项列表中手动选择。
透明协商（Transparent Negotiation）
- 上面两者的结合体，由各自进行内容协商的一种方法。

]]> 读书笔记网络图解HTTP 图解HTTP：HTTP状态码 /posts/graphical_http_http_status_code/

1xx，Informational，信息状态码。接收的请求正在处理。

2xx，Success，成功状态码。请求正常处理完毕。

3xx，Redirection，重定向状态码。需要进行附加操作以完成请求。

4xx，Client Error，客户端错误状态码。服务器无法处理请求。

5xx，Server Error，服务器错误状态码。服务器处理请求出错。

]]> 读书笔记网络图解HTTP 图解HTTP：Web服务器 /posts/graphical_http_web_server/ 用单台虚拟主体实现多个域名。相同的 IP 地址可能会有多个不同主机名和域名的 Web 网站，所以在发送 HTTP 请求时，必须在 Host 首部内完整指定主机看或域名的 URI。

通信数据转发程序

这些应用程序和服务器可以将请求转发给通信线路的下一站服务器，并且能接收从那台服务器发送的响应，再转发给客户端。

代理

有转发功能的应用程序。接收由客户端发送的请求并转发给服务器，同时也接收服务器返回的响应并转发给客户端。

分类基准：

缓存代理，CDN
透明代理
- 不对报文进行任何加工的代理，反之称为非透明代理。

网关

转发其他服务器通信数据的服务器，接收从客户端发送来的请求时，它就像自己拥有资源的源服务器一样对请求进行处理。

网关能使通信线路上的服务器提供非 HTTP 协议服务。

隧道

在相隔甚远的客户端和服务器两者进行中转，并保持双方通信连接的应用程序。

不会去解析 HTTP 请求，保持原样中转给之后的服务器。隧道会在通信双方断开连接时结束。

缓存

缓存是指代理服务器或客户端本地磁盘内保存的资源副本。利用缓存可以减少对源服务器的访问，节省了通信流量和通信时间。

缓存分类：

服务器缓存，通过缓存代理服务器实现。当代理转发从服务器返回的响应时，本身就会保存一份副本，下次请求就可以从代理服务器响应。
客户端缓存。通过临时网络文件缓存响应资源。

若缓存有效则使用缓存，否则请求源服务器，请求新资源。

注意在iOS中，使用URLSession的GET请求，会自动使用URLCache进行缓存响应资源。根据服务器的响应头部字段自动缓存和更新资源。

]]> 读书笔记网络图解HTTP 图解HTTP：HTTPS /posts/graphical_http_https/ HTTP的缺点

通信使用明文（不加密），内容可能会被窃听。
不验证通信的身份，因此有可能遭遇伪装。
无法验证报文的完整性，所以有可能篡改。

未加密的协议都会出现类似的问题。

HTTPS = HTTP + 加密 + 认证 + 完整性保护

HTTPS 是身披 SSL 外壳的 HTTP。HTTPS 并非是应用层的一种新协议，只是 HTTP 通信接口部分用 SSL 和 TLS 协议代替而已。

原本HTTP直接和TCP通信；使用SSL时，先和SSL通信，再由SSL和TCP通信。

SSL是独立于HTTP协议的，应用层的其他协议也可以配合SSL协议实现网络安全。

相互交换密钥的公开密钥加密技术

SSL使用公开密钥加密的加密处理方式。公开密钥加密使用一对非对称的密钥——公钥、私钥。

公钥加密，私钥解密。客户端持有公钥，用私钥对发送的信息加密；服务器持有私钥，用私钥对客户端发送的密文解密。

注意：客户端的私钥是服务器事先传递过去的，即服务器先生成一对公钥私钥，把私钥发送到客户端，客户端才能用私钥进行加密。

在HTTPS中，对称加密与非对称加密混合使用。因为非对称加密适合加密小量数据，一般数据应使用对称加密进行加密解密。所以在HTTPS中，使用非对称加密的是对称密钥，即客户端把对称密钥用私钥加密发送到服务器，后续服务器用对称密钥加密解密一般的消息。

确保服务端公钥安全

因为客户端需要用服务端的公钥进行加密，所以首先要确保客户端能拿到正确的服务端公钥。公钥在下发的时候会被替换劫持，这里通过第三方认证机（CA）构确认公钥的正确性。

认证的方式通过数字签名校验实现，简单来说就是CA私钥加密HASH（通过内容生成），公钥解密得出HASH，比对从收到的内容生成的HASH是否相等。

这个过程如下：

前提准备：

客户端提前安装了CA的公钥。
服务端获取CA颁发的证书。
1. 服务端生成一对公钥、私钥，私钥自己存着，公钥最终要传给客户端。
2. 把公钥登记到CA，CA对公钥内容做HASH，对HASH值用CA私钥加密，密文+公钥打包成证书发送给服务器。

校验流程：

服务端发送公钥证书给客户端；
客户端对证书中的密文用CA的公钥解密得出HASH，对证书中的公钥内做HASH，对比两个HASH值。正确则提取公钥存到客户端。
客户端使用服务端的公钥加密与服务器传输，开始加密通信。使用上述的混合加密方式，即非对称加密交换对称加密密钥，然后双方使用对称密钥进行加密通信。

RSA公钥、私钥的作用助记

既然是加密，那肯定是不希望别人知道我的消息，所以只有我才能解密，所以可得出公钥负责加密，私钥负责解密；同理，既然是签名，那肯定是不希望有人冒充我发消息，只有我才能发布这个签名，所以可得出私钥负责签名，公钥负责验证。

数字签名就是使用私钥对数据摘要进行签名，并附带和数据一起发送。可以起到防篡改、防伪装、防否认的作用。

证书则是由CA机构自己的私钥签发的数字签名。解决的签名的权威性问题，奠定了信任链的基础。

HTTPS安全通信过程

服务端已经生成公钥、私钥，并通过CA获得公钥证书。客户端已经事先安装CA公钥。

具体过程：

客->服，Handshake: ClientHello

客户端通过发送 Client Hello 报文开始 SSL 通信。
报文中包含客户端支持的 SSL 的指定版本、加密组件（Clipher Suite）列表（所使用的加密算法及密钥长度等）。

服->客，Handshake: ServerHello

服务器进行 SSL 通信，以 Server Hello 报文作为应答。
和客户端一样，在报文中包含 SSL 版本以及加密组件。
服务器的加密组件内容是从接收到的客户端加密组件内筛选出来的。

服->客，Handshake: Certificate

服务器发送 Certificate 报文。报文中包含公钥证书。

服->客，Handshake: ServerHelloDone

最后服务器发送 Server Hello Done 报文通知客户端，最初阶段的 SSL 握手协商部分结束。

客->服，Handshake: ClientKeyExchange

第一次握手结束后，客户端以 Client Key Exchange 报文作为回应。
报文中包含通信加密中使用的一种称为 Pre-master secret 的随机密码串，该密码已用步骤 3 的公钥进行加密。

客->服，ChangeCipherSpec

客户端继续发送 Change Cipher Spec 报文。告诉服务器之后的通信将采用该密码进行加密。

客->服，Handshake: Finished

客户端发送 Finished 报文。该报文包含链接至今全部报文的整体校验值。
这次握手协商成功的标准是服务器能正确解密该报文。

服->客，ChangeClipherSpec
服->客，Handshake: Finished
客->服，Application Data（HTTP）

客户端和服务端的 Finished 报文交换完毕后，SSL 连接建立完成。从此开始发送 HTTP 请求。

服->客，Application Data（HTTP）

应用层协议通信，发送 HTTP 响应。

客->服，Alert: warning, close notify

由客户端断开连接。

参考：HTTPS加密流程理解 - fengf233 - 博客园

单向认证与双向认证

上述的HTTPS基本流程就是单向认证，即指认证服务端的证书。单向认证中需要额外代码的情况往往是服务器下发的证书是CA颁发的，而是自签的，所以在检验服务端私钥证书时就要自定义的逻辑。

而双向认证，则是在ServerHelloDone前，发送来自客户端的公钥证书，服务端收到后用根证书解密客户端证书，取出客户端私钥。双向认证在确保了服务端的正确性，也确保了客户端的正确性。

两者过程对比：

单向认证：

客->服，发起HTTPS连接请求，把SSL协议版本发送给服务端。
服->客，发送服务端把本机公钥证书（server.crt）。
客，校验公钥证书（server.crt），取出服务端公钥。
客->服，并发送用服务端公钥加密的随机生成密钥R。
服，用私钥（server.key）解密得出密钥R。
服<->客，用密钥R进行加密通信。

双向认证：

同上（客->服，发起HTTPS连接请求，把SSL协议版本发送给服务端）。
同上（服->客，发送服务端把本机公钥证书（server.crt））。
同上（客，校验公钥证书（server.crt），取出服务端公钥）。
客->服，把自己的公钥证书（client.crt）发送给服务端。
服，用根证书（root.crt）解密客户端公钥证书，拿到客户端公钥。
客->服，发送自己支持的加密方案。
服->客，根据双端能力，选择双方都能接受的加密方案，使用客户端公钥加密后发送。
客->服，使用私钥解密加密方案，生成随机密钥R，使用服务端公钥加密后发送。
同上5（服，用私钥（server.key）解密得出密钥R）。
同上6（服<->客，用密钥R进行加密通信）。

参考：

SSL和TLS

SSL 先有，TSL 是以 SSL 为原型开发的协议，有时会统一称该协议为 SSL。

不推荐一直使用HTTPS

与明文通信相比，加密通信会消耗更多的 CPU 及内存资源。所以敏感信息才使用 HTTPS 加密通信。
证书的费用开销。

]]> 读书笔记网络图解HTTP 图解HTTP：认证 /posts/graphical_http_certification/ 认证，即确认对方身份。一般核对这些信息：

密码。只有本人才会知道的字符串信息。
动态令牌。仅限本人持有的设备内显示的一次性密码。
数字令牌。仅限本人（终端）持有的信息。
生物认证。指纹和虹膜等本人的生理信息。
IC 卡等。仅限本人持有的信息。

HTTP使用的认证方式：

BASIC认证，基本认证。
DIGEST认证，摘要认证。
SSL客户端认证。
FromBase认证，基于表单认证。

BASIC 认证

base64 发送明文密码。

问题：

明文传输，可窃听。
一般浏览器无法实现认证注销操作。
缺乏灵活，安全性差。

DIGEST 认证

使用质询（challenge/reponse），但不直接发送明文密码。

一开始一方先发送认证要求给对方，接着使用从另一方接收到的质询码计算生成响应码。最后将响应码返回给对方进行认证。

SSL 客户端认证

借由 HTTPS 的客户端证书来完成认证的方式，没错，这里就是上面的双向认证。步骤：

接收到需要认证资源的请求，服务器会发送 Certificate Request 报文，要求客户端提供客户端证书。
用户选择将发送的客户端证书后，客户端会把客户端证书以 Client Certificate 报文发送给服务器。
服务器验证客户端证书通过后，方可领取证书内客户端的空开密钥，然后开始 HTTPS 加密通信。

双因素认证（Tow-factor authentication）

SSL 客户端认证通常会和基于表单认证组合形成一种双因素认证。
- SSL 客户端证书：认证客户端计算机
- 密码：用来确定这是用户本人的行为

]]> 读书笔记网络图解HTTP 图解HTTP：基于HTTP的功能追加协议 /posts/graphical_http_http_based_function_addition_protocol/ HTTP 的瓶颈：

一条连接上只可发送一个请求。
请求只能从客户端开始。客户端不可以接收除响应以外的指令。
请求、响应首部未经压缩就发送。首部信息越多延迟越大。
发冗长的首部。每次相互发送相同的首部造成的浪费较多。
可任意选择数据压缩格式。非强制压缩发送。

SPDY

SPDY 的出现正是为了解决这些问题，SPDY 没有完全改写 HTTP 协议，而是在 TCP/IP 的应用层与传输层之间通过插入会话层的形式运作。同时，SPDY 规定通信中使用 SSL。

HTTP - 应用层
SPDY - 会话层
SSL - 表示层
TCP - 传输层

使用 SPDY 后，HTTP 协议额外获得以下功能：

多路复用流。一个 TCP 连接上，处理所有的 HTTP 请求。
赋予请求优先级。
压缩 HTTP 首部。
推送功能。这样服务器可直接发送数据，而不必等待客户端请求。
服务器提示功能。服务器可以主动提示客户端请求所需的资源。由于在客户端发现资源之前就可以获知资源的存在，因此在资源已缓存等情况下，可以避免发送不必要的请求。

然而 SPDY 也不是完美的，也还有一些未解决的问题：

只是将单个域名（IP 地址）的通信多路复用，所以当使用多个域名下的资源时，效果将受到限制。
还有一些不是 HTTP 协议导致的问题，如 web 内容的编写方式。

WebSocket

WebSocket是Web浏览器与Web服务器之间全双工通信。

这是一套独立协议，一旦 Web 服务器与客户端之间建立起 WebSocket 协议的通信连接，之后所有的通信都依靠这个专用协议进行。通信过程中可相互发送 JSON、XML、HTML 或图片等任意格式的数据。

但由于是建立在 HTTP 基础上的协议，连接的发起方仍是客户端，而一旦 WebSocket 通信连接后，不论服务器还是客户端，任意一端都可直接向对方发送报文。

建立连接时还是用HTTP协议请求、响应完成握手，后续就不再发送HTTP数据帧，而是WebSocket独立数据帧。

特点：

推送功能。服务器可直接发送数据，不必等客户端的请求。
减少通信量。只要建立起 WebSocket 连接，就希望一直保持连接状态。而且 WebSocket 的首部信息也少，连接次数、通信量都相应减少。
建立在TCP协议之上，服务端实现比较容易。
与HTTP协议有良好兼容性，默认端口相同，握手阶段也是用HTTP协议，不容易被屏蔽。
可以发送文本，也可以发送二进制。
没有同源限制，客户端可以与任意服务器通信。

HTTP/2.0

新的概念

帧：数据通信的最小单位，以二进制压缩格式存放内容。来自不同数据流的帧可以交错发送，然后根据每个帧头的数据流标识符重新组装。帧信息包含：类型、长度、标记、流标识、palyload。

消息：HTTP/2.0中逻辑上的HTTP消息，如请求和响应，消息由一个或多个帧组成。

流：连接中的虚拟信道，可以承载双向消息传输，包含1或多条消息。每个流有唯一整数标识符。为了防止两端双向流标识符冲突，客户端发起的流具有奇数ID，服务端发起的流具有偶数ID。特点：

双向性：同一流内，可以同时发送和接收数据。
有序性：流中传输二进制帧，帧在流上的被发送和被接收都是按序进行的。
并行性：流中的二进制帧都并行传输的，无需按序等待。帧可以乱序发送，然后再根据每个帧首部的流标识符重新组装。
流的创建和关闭可以被客户端或服务端任意一方执行。

连接：包含1或多个流，所有通信都在一个TCP连接上完成。该连接可以承载任意数量的双向数据流。

二进制分帧

把传输信息分为Header帧和Data帧，对应HTTP/1.x的首部信息和实体信息。

多路复用/共享连接

HTTP/1.x中虽然可以通过长连接在一个连接中发起多个请求，并处理每个请求的响应。但客户端在同一域名下的请求会有一定数量限制，超出会被阻塞，要实现多流并行，只能开启多个TCP连接。

HTTP/2.0单个TCP连接可以承载任意数量的双向数据流，并且可以并处请求和响应，实现单个连接的多路复用、共享连接。

首部压缩

HTTP/2.0在客户端和服务端使用首部表来跟踪和存储之前发送的键值对，对于相同的数据，不在重复发送。

首部表在HTTP/2.0连接期间始终存在，由客户端和服务端共同渐进更新。

请求优先级

每个流都可以带上一个31 bit的优先值。服务器可以根据流的优先级，控制资源分配。

服务端推送

服务端可以对客户端请求发送多个响应，服务端向客户端推送资源无需明确发起请求。这可以让在遵循同源的情况下，不同的页面可以共享缓存资源。

]]> 读书笔记网络图解HTTP CMSampleBuffer专题 /posts/cmsamplebuffer/ CMSampleBuffer专题

概述

CMSampleBuffer是一个包含零个或多个压缩或未压缩（compressed or uncompressed），特定媒体类型的样本（音频、视频、多路复用等）。

一个CMSampleBuffer可以包含以下之一的核心数据：

CMBlockBuffer，包含一个或多个媒体样本。
CVImageBuffer，是对CMSampleBuffer流格式描述的引用，包含每个媒体样本的大小、时序信息，以及缓冲区级别和样本基本的附件。

sample buffer可以包含样本级别和缓冲区级别的附件。样本级别附件与缓冲区的每个样本（帧）相关联，并包含诸如时间戳和视频帧相关信息。缓冲区级别附件提供有关缓冲区整体的信息，如播放速度和消费缓冲区时执行的操作。

数据来源

通过采集设备（摄像头、麦克风）采集的音频或视频数据。

// AVCaptureVideoDataOutputSampleBufferDelegate、AVCaptureAudioDataOutputSampleBufferDelegate
optional func captureOutput
(_ output: AVCaptureOutput, 
 didOutput sampleBuffer: CMSampleBuffer, 
 from connection: AVCaptureConnection)

读取视频文件的输出流AVAssetReaderOutput。

func copyNextSampleBuffer() -> CMSampleBuffer?

ARKit ARSessionObserver输出捕获的audio sample buffer。

optional func session
(_ session: ARSession, 
 didOutputAudioSampleBuffer audioSampleBuffer: CMSampleBuffer)

VTCompressionSession硬编码作为VTCompressionOutputCallback输出。

typealias VTCompressionOutputCallback = 
(UnsafeMutableRawPointer?, 
 UnsafeMutableRawPointer?, 
 OSStatus, 
 VTEncodeInfoFlags, 
 CMSampleBuffer?) -> Void

注意：

Clients of CMSampleBuffer must explicitly manage the retain count by calling CFRetain and CFRelease, even in processes using garbage collection.

数据输出

AVAssetWriter保存视频AVAssetWriterInput。

func append(_ sampleBuffer: CMSampleBuffer) -> Bool

AVSampleBufferDisplayLayer展示解码后的sample buffer。

func enqueue(_ sampleBuffer: CMSampleBuffer)

数据结构

无论是读取还是采集，output的videoSetting的kCVPixelBufferPixelFormatTypeKey字段控制sample buffer的mediaSubType输出的色彩格式，转换色彩格式有GPU参与，性能较高，可按需设置。

创建

- (void)appendVideoPixelBuffer:(CVPixelBufferRef)pixelBuffer withPresentationTime:(CMTime)presentationTime
{
    CMSampleBufferRef sampleBuffer = NULL;
    CMFormatDescriptionRef outputFormatDescription = NULL;
    CMVideoFormatDescriptionCreateForImageBuffer( kCFAllocatorDefault, pixelBuffer, &outputFormatDescription );


    CMSampleTimingInfo timingInfo = {0,};
    timingInfo.duration = kCMTimeInvalid;
    timingInfo.decodeTimeStamp = kCMTimeInvalid;
    timingInfo.presentationTimeStamp = presentationTime;

    OSStatus err = CMSampleBufferCreateForImageBuffer( kCFAllocatorDefault, pixelBuffer, true, NULL, NULL, outputFormatDescription, &timingInfo, &sampleBuffer );
    if ( sampleBuffer ) {
        // do some thing
        CFRelease( sampleBuffer );
    }
    else {
        NSString *exceptionReason = [NSString stringWithFormat:@"sample buffer create failed (%i)", (int)err];
        @throw [NSException exceptionWithName:NSInvalidArgumentException reason:exceptionReason userInfo:nil];
    }
}
// CMSampleBufferCreateReady与CMSampleBufferCreate相同，只是dataReady始终为true，因此不需要传递makeDataReadyCallback或refcon。

信息存取

get：

按解码顺序排列帧。

dataBuffer: CMBlockBuffer?
imageBuffer: CVImageBuffer?
decodeTimeStamp: CMTime：首个sample的DTS。
outputDecodeTimeStamp: CMTime：outputPTS + (DTS - PTS) / SpeedMultiplier
presentationTimeStamp: CMTime
outputPresentationTimeStamp: CMTime
duration: CMTime
outputDuration: CMTime：(D - trimDAtStart - trimDAtEnd) / SpeedMultiplier
numSamples: Int
formatDescription: CMFormatDescription?
sampleTimingInfos() throws -> [CMSampleTimingInfo]：包含DTS、PTS和Duration
sampleAttachments: CMSampleBuffer.SampleAttachmentsArray

set：

setDataBuffer：视频、音频压缩数据
setOutputPresentationTimeStamp

参考资料

CMSampleBuffer 分析 - 简书

]]> AVFoundation Apple 音视频 CVPixelBuffer专题 /posts/cvpixelbuffer/ CVPixelBuffer 类似 Android 的 bitmap，核心是封装了已经解压后的图像数据。保存了像素的 format，图像宽高和 buffer 指针等信息。

CVPixelBuffer 创建与转换

读取原始的像素数组

通过 CVPixelBufferGetBaseAddress 可以获得像素数组的指针，该数组中的每个元素应该被解释为 unsigned char。参考如下代码：

CVPixelBufferRef pixelBuffer;
// 假设我们已经有了一个 pixelBuffer
// 通过如下 API 拿到该图像的宽、高、每行的字节数、每个像素的字节数
size_t w = CVPixelBufferGetWidth(pixelBuffer);
size_t h = CVPixelBufferGetHeight(pixelBuffer);
size_t r = CVPixelBufferGetBytesPerRow(pixelBuffer);
size_t bytesPerPixel = r/w;
OSType bufferPixelFormat = CVPixelBufferGetPixelFormatType(pixelBuffer);
NSLog(@"GEMFIELD whrb: %zu - %zu - %zu - %zu - %u",w,h,r,bytesPerPixel,bufferPixelFormat);
// 通过如下 API 拿到 CVPixelBufferRef 的图像格式：
// 比如：kCVPixelFormatType_24RGB、kCVPixelFormatType_32BGRA
OSType bufferPixelFormat = CVPixelBufferGetPixelFormatType(pixelBuffer);
// 准备开始读取裸的像素数组了
CVPixelBufferLockBaseAddress( pixelBuffer, 0 );
// gemfield_buffer 就是裸的数组
const unsigned char* gemfield_buffer = (const unsigned char*)CVPixelBufferGetBaseAddress(pixelBuffer);
// 这里你可以对该数组进行读取和处理
......
// 结束
CVPixelBufferUnlockBaseAddress( pixelBuffer, 0 );

使用原始的像素数组创建

CVPixelBufferRef pixelBuffer = NULL;
int width=319;
int height=64;
CVPixelBufferCreateWithBytes(kCFAllocatorDefault,width,height,kCVPixelFormatType_24RGB,x.get(),3 * width, NULL, NULL, NULL, &pixelBuffer);

转换为 UIImage

可以使用下面的例子来把 CVPixelBufferRef 转换为 UIImage：

// 假设我们已经有了一个 pixelBuffer
CVPixelBufferRef pixelBuffer;
CIImage *ciImage = [CIImage imageWithCVPixelBuffer:pixelBuffer];
CIContext *temporaryContext = [CIContext contextWithOptions:nil];
CGImageRef syszux_cgiimg = [temporaryContext createCGImage:ciImage fromRect:CGRectMake(0, 0,CVPixelBufferGetWidth(pixelBuffer),CVPixelBufferGetHeight(pixelBuffer))];
UIImage *syszux_uiimg = [UIImage imageWithCGImage:syszux_cgiimg];
CGImageRelease(syszux_cgiimg);

使用 UIImage 创建

UIImage 是 CGImage 的 wrapper，通过 CGImage 拿到图像的宽、高信息。然后在一个 context 中，通过 CGContextDrawImage 函数来将 CGImage“渲染”出来，这个时候原始的像素数就保存在了 context 中 CVPixelBufferRef 指向的 baseAddress 上了。

代码如下所示：

- (CVPixelBufferRef)syszuxPixelBufferFromUIImage:(UIImage *)originImage {
    CGImageRef image = originImage.CGImage;
    NSDictionary *options = [NSDictionary dictionaryWithObjectsAndKeys:
                             [NSNumber numberWithBool:YES], kCVPixelBufferCGImageCompatibilityKey,
                             [NSNumber numberWithBool:YES], kCVPixelBufferCGBitmapContextCompatibilityKey,
                             nil];
    CVPixelBufferRef pxbuffer = NULL;
    CGFloat frameWidth = CGImageGetWidth(image);
    CGFloat frameHeight = CGImageGetHeight(image);
    CVReturn status = CVPixelBufferCreate(kCFAllocatorDefault,
                                          frameWidth,
                                          frameHeight,
                                          kCVPixelFormatType_32ARGB,
                                          (__bridge CFDictionaryRef) options,
                                          &pxbuffer);
    NSParameterAssert(status == kCVReturnSuccess && pxbuffer != NULL);
    CVPixelBufferLockBaseAddress(pxbuffer, 0);
    void *pxdata = CVPixelBufferGetBaseAddress(pxbuffer);
    NSParameterAssert(pxdata != NULL);
    CGColorSpaceRef rgbColorSpace = CGColorSpaceCreateDeviceRGB();
    CGContextRef context = CGBitmapContextCreate(pxdata,
                                                 frameWidth,
                                                 frameHeight,
                                                 8,
                                                 CVPixelBufferGetBytesPerRow(pxbuffer),
                                                 rgbColorSpace,
                                                 (CGBitmapInfo)kCGImageAlphaNoneSkipFirst);
    NSParameterAssert(context);
    CGContextConcatCTM(context, CGAffineTransformIdentity);
    CGContextDrawImage(context, CGRectMake(0,
                                           0,
                                           frameWidth,
                                           frameHeight),
                       image);
    CGColorSpaceRelease(rgbColorSpace);
    CGContextRelease(context);
    CVPixelBufferUnlockBaseAddress(pxbuffer, 0);
    return pxbuffer;
}

深拷贝

- (void)captureOutput:(AVCaptureOutput *)captureOutput didOutputSampleBuffer:(CMSampleBufferRef)sampleBuffer fromConnection:(AVCaptureConnection *)connection {
       CVPixelBufferRef pixelBuffer = CMSampleBufferGetImageBuffer(sampleBuffer);
       // Get pixel buffer info
       const int kBytesPerPixel = 4;
       CVPixelBufferLockBaseAddress(pixelBuffer, 0);
       int bufferWidth = (int)CVPixelBufferGetWidth(pixelBuffer);
       int bufferHeight = (int)CVPixelBufferGetHeight(pixelBuffer);
       size_t bytesPerRow = CVPixelBufferGetBytesPerRow(pixelBuffer); 
       uint8_t *baseAddress = CVPixelBufferGetBaseAddress(pixelBuffer);
       // Copy the pixel buffer
       CVPixelBufferRef pixelBufferCopy = NULL;
       CVReturn status = CVPixelBufferCreate(kCFAllocatorDefault, bufferWidth, bufferHeight, kCVPixelFormatType_32BGRA, NULL, &pixelBufferCopy);
       CVPixelBufferLockBaseAddress(pixelBufferCopy, 0);
       uint8_t *copyBaseAddress = CVPixelBufferGetBaseAddress(pixelBufferCopy);
       memcpy(copyBaseAddress, baseAddress, bufferHeight * bytesPerRow);
       // Do what needs to be done with the 2 pixel buffers
}

若需要对帧做基本处理，可以只是 vImage 对其解码后数据处理。

CVPixelBufferPool

CVPixelBufferPool，主要是实现了 CVPixelBuffer 中的 IOSurface 的复用与回收。

]]> AVFoundation Apple 音视频 Video Toolbox压缩配置 /posts/video_toolbox_compression_configuration/ Video Toolbox压缩配置

压缩属性

压缩属性都是以kVTCompressionPropertyKey_Xx命名，所以下面的属性名都省略了其前缀kVTCompressionPropertyKey_。

码流配置

Depth：像素深度。

该属性仅由视频编码器支持，用于与特定像素格式（例如，16位RGB、24位RGB）绑定的格式。

ProfileLevel：码流配置和级别。

配置文件和级别常量

H264EntropyMode：用于H.264压缩的熵编码模式。

如果H.264编码器支持，该属性控制编码器是否应使用基于上下文的自适应变长编码（CAVLC）或基于上下文的自适应二进制算术编码（CABAC）。CABAC通常能提供更好的压缩，但代价是更高的计算开销。默认值是针对编码器的，可能会根据其他编码器的设置而改变。

注意：改变默认的熵模式可能会导致配置与要求的配置文件和级别不兼容。这种情况下的结果是不确定的，可能包括编码错误或不符合要求的输出流。

kVTH264EntropyMode_CABAC
kVTH264EntropyMode_CAVLC

缓冲区

NumberOfPendingFrames：压缩会话中待处理的帧的数量。该值可能会异步减少。

PixelBufferPoolIsShared：布尔值，表示视频编码器和会话客户端之间是否共享公共像素缓冲池。

false表示视频编码器和客户端的像素缓冲区属性不兼容，使用单独的缓冲池。

VideoEncoderPixelBufferAttributes：视频编码器的像素缓冲区属性。使用这些属性来为源像素缓冲区创建一个像素缓冲区池。

清洁光圈和像素长宽比

AspectRatio16x9：布尔值，表示DV视频流是否应设置16x9标志。

此属性由DV25/50系列编码器支持。

false时，图片长宽比为4:3。true时，图片长宽比为16:9。无论哪种方式，都会使用一个固定的长宽比（具体数值取决于格式是NTSC还是PAL）。

CleanAperture：编码帧的清洁光圈。

如果视频编码器执行特定的清洁光圈，这个属性是只读的（VTSessionSetProperty(_:key:value:)将返回kVTPropertyReadOnlyErr）。洁净孔径将在输出样本的格式描述中设置，并可能影响源帧的缩放。NULL是这个属性的一个有效值，意味着清洁孔径是全宽和全高。

FieldCount：场类型，表示帧应该是逐行编码（1）还是隔行编码（2）。

在输出样本的格式描述上设置的，可能会影响源帧的缩放。NULL是这个属性的一个有效值。

FieldDetail：隔行扫描帧的场排序。

如果视频编码器执行特定的场排序，这个属性将是只读的（VTSessionSetProperty(_:key:value:)返回kVTPropertyReadOnlyErr）。字段细节是在输出样本的格式描述上设置的，并可能影响源帧的缩放。NULL是这个属性的一个有效值。

PixelAspectRatio：编码帧的像素长宽比。

如果视频编码器强制执行特定的像素长宽比，该属性将是只读的（VTSessionSetProperty(_:key:value:) 返回 kVTPropertyReadOnlyErr）。像素长宽比是在输出样本的格式描述上设置的，并可能影响源帧的缩放。NULL是这个属性的有效值，意味着方形像素（1:1）。

ProgressiveScan：布尔值，表示DV视频流是否应设置逐行标志。

DV25/50系列编码器支持此属性。如果是假的，内容被编码为隔行扫描。如果为真，则内容被编码为渐进式。此属性的值可固定 kVTCompressionPropertyKey_FieldCount 和 kVTCompressionPropertyKey_FieldDetail 属性。

颜色

ColorPrimaries：压缩内容的颜色原色。

TransferFunction：压缩内容的转换函数。

YCbCrMatrix：用于压缩内容的YCbCr矩阵。

ICCProfile：用于压缩内容的ICC配置文件。

预期值

ExpectedDuration：压缩会话的预期总时长。

ExpectedFrameRate：预期的帧率。

SourceFrameCount：源帧的数量。

帧依赖

AllowFrameReordering：布尔值，表示是否启用了帧重排。

AllowTemporalCompression：布尔值，表示是否启用了时间压缩。

MaxKeyFrameInterval：关键帧之间的最大间隔，也被称为关键帧率。

MaxKeyFrameIntervalDuration：从一个关键帧到下一个关键帧的最大持续时间，单位是秒。

硬件加速

UsingHardwareAcceleratedVideoEncoder：布尔值，表示是否使用了硬件加速视频编码器。

kVTVideoEncoderSpecification_RequireHardwareAcceleratedVideoEncoder：布尔值，表示是否需要硬件加速编码。

kVTVideoEncoderSpecification_EnableHardwareAcceleratedVideoEncoder：布尔值，表示是否允许硬件加速视频编码（如果可用）。

多重压缩存储

MultiPassStorage：启用多路压缩并为编码器私有数据提供存储。

每帧配置

kVTEncodeFrameOptionKey_ForceKeyFrame：布尔值，表示当前帧是否被强制为关键帧的。

PixelTransferProperties：用于配置VTPixelTransferSession的属性，以便在必要时将源帧从客户端的图像缓冲区转移到视频编码器的图像缓冲区。

速率控制

AverageBitRate：长期期望的平均比特率，单位是比特/秒。

DataRateLimits：对数据速率的零、一或两个硬限制。

MoreFramesAfterEnd：布尔值，表示一个压缩会话的帧是否以及如何与其他压缩帧串联以形成一个更长的系列。

Quality：希望的压缩质量。

RealTime：布尔值，表示是否建议视频编码器进行实时压缩。

MaxH264SliceBytes：H.264编码的最大分片大小。

MaxFrameDelayCount：压缩器在必须输出一个压缩帧之前允许保留的最大帧数。

]]> AVFoundation Apple 音视频 AVFoundation导出API /posts/avfoundation_export_api/ AVAssetExportSession

AVAssetExportSession可以实现简单的导出。

输入：AVAsset

输出：URL

可配置项：

格式
- preset
- timeRange: CMTimeRange
- outputFileType: AVFileType
限制与优化
- fileLengthLimit: Int64
- shouldOptimizeForNetworkUse: Bool
- canPerformMultiplePassesOverSourceMediaData: Bool、directoryForTemporaryFiles: URL
附加
- audioMix: AVAudioMix
- videoComposition: AVVideoComposition
- audioTimePitchAlgorithm: AVAudioTimePitchAlgorithm
- metadata: [AVMetadataItem]

操作：exportAsynchronously、cancelExport

获取状态：progress、status、error

Reader+Writer

AVAssetReader

管理读取输出。

输入：AVAsset

操作：startReading、cancelReading、添加输出

状态：status、error

AVAssetReaderOutput

输出帧。

输入：AVAssetTrack

配置：alwaysCopiesSampleData: Bool

操作：copyNextSampleBuffer、markConfigurationAsFinal（提前结束）

输出：CMSampleBuffer

具体子类：

TrackOutput：最常用
- 输入：AVAssetTrack
- 配置：
  - outputSettings: [String : Any]
  - audioTimePitchAlgorithm: AVAudioTimePitchAlgorithm
AudioMixOutput
- 输入：[AVAssetTrack]
- 配置：
  - audioSettings: [String : Any]
  - audioMix: AVAudioMix
  - audioTimePitchAlgorithm: AVAudioTimePitchAlgorithm
VideoCompositionOutput
- 输入：[AVAssetTrack]
- 配置：
  - videoSettings: [String : Any]
  - videoComposition: AVVideoComposition、
SampleReferenceOutput
- 输入：AVAssetTrack

AVAssetReaderOutputMetadataAdaptor

从TrackOutput输出元数据。

操作：nextTimedMetadataGroup

AVAssetWriter

管理写入输入。

输出：URL

配置：

outputFileType: AVFileType
directoryForTemporaryFiles: URL
metadata: [AVMetadataItem]
movieFragmentInterval: CMTime
overallDurationHint: CMTime
movieTimeScale: CMTimeScale
shouldOptimizeForNetworkUse: Bool

操作：startWriting、finishWriting、cancelWriting、添加输入（组）、startSession、endSession

状态：status、error

AVAssetWriterInput

拼接音视频帧。

输入：CMSampleBuffer

配置：

mediaType: AVMediaType
outputSettings: [String : Any]
sourceFormatHint: CMFormatDescription
preferredVolume: Float
transform: CGAffineTransform
naturalSize: CGSize
mediaTimeScale: CMTimeScale
metadata: [AVMetadataItem]
expectsMediaDataInRealTime: Bool
marksOutputTrackAsEnabled: Bool
performsMultiPassEncodingIfSupported: Bool
preferredMediaChunkAlignment: Int
preferredMediaChunkDuration: CMTime
mediaDataLocation: AVAssetWriterInput.MediaDataLocation

操作：拼接帧、markAsFinished、addTrackAssociation

状态：requestMediaDataWhenReady、isReadyForMoreMediaData

AVAssetWriterInputGroup

输入：AVAssetWriterInput

AVAssetWriterInputPixelBufferAdaptor

拼接指定PTS的CVPixelBuffer，并提供CVPixelBufferPool。

输出：AVAssetWriterInput

配置：sourcePixelBufferAttributes: [String : Any]

AVAssetWriterInputMetadataAdaptor

拼接AVTimedMetadataGroup到Input。

输出：AVAssetWriterInput

AVOutputSettingsAssistant

辅助生成音视频配置字典。

组合实现导出

先对AVAsset异步加载"tracks"key。

读取流程：

用AVAsset构建AssetReader；
根据轨道，使用解码配置字典分别创建ReaderOutput；
添加到AssetReader；
AssetReader调用startReading开始读取；
ReaderOutput循环逐帧调用copyNextSampleBuffer，输出帧，若帧为空则完成或遇到错误。

写入流程：

用输出URL、文件类型创建AssetWriter；
根据轨道类型，使用编码配置字典创建WriterInput；
添加到AssetWriter；
AssetWriter调用startWriting、startSession开始写入；
WriterInput调用requestMediaDataWhenReady，在其回调中：
1. isReadyForMoreMediaData == true
2. WriterInput拼接帧；完成时调用markAsFinished。
各个轨都写入完成时，AssetWriter调用finishWriting完成写入（这会内部调用endSession）。

要想提前结束，调用endSession，再调用finishWriting。

配置字典是关键。

组合使用：

异步读取AVAsset key，进入初始化阶段：
1. 创建AssetReader，然后AssetWriter。
2. 取出AssetTrack创建分别创建ReaderOutput和WriterInput。
读取拼接阶段：
1. AssetReader调用startReading开始读取；AssetWriter调用startWriting、startSession开始写入；
2. ReaderOutput循环逐帧调用copyNextSampleBuffer，输出帧；WriterInput检查是否就绪，拼接帧；
ReaderOutput没有帧了，进入完成阶段：
1. 检查是否有错误；
2. AssetWriter调用finishWriting完成写入。

多线程应用：

都使用串行队列，分别创建：
- 主操作队列 ×1
- 各轨道读写队列 ×N
初始化阶段在主队列进行，即在异步读取AVAsset key后进入主操作队列创建各种对象。
每个轨道的读帧、写帧操作都在对应的一个队列中进行。
使用调度组在所有轨道都读写完成后回调通知。进入各轨道队列前enter，各个轨道读写完成后leave。
完成后进入主操作队列，进行收尾工作。

]]> AVFoundation Apple 音视频 AVFoundation影片编辑API /posts/avfoundation_movie_edit_api/ 媒体创作和编辑基本是AVFoundation的高级接口，较少涉及底层接口。整个过程总的来说就是构建AVAsset的过程，而在视频编辑中，构建的是AVMutableComposition的过程。

整体关系

Composition：作为内容主体，一个抽象的可编辑的AVAsset子类，提供面向对象的多轨操作。

CompositionTrack ×N：管理时间，总的音视频轨信息。
- AssetTrack片段 ×N
- 轨道的偏好信息：naturalTimeScale、preferredTransform、preferredVolume

AudioMix：附加信息，对音量的描述

inputParameters：AudioMixInputParameters ×N：描述音量（+时间=渐变）、变速时的音调策略

AudioMixInputParameters的audioTapProcessor可以使用AudioUnit给音频增加效果，但似乎查不到具体的额API文档，可参考：MTAudioProcessingTap with kMTAudio… | Apple Developer Forums、gchilds/MTAudioProcessingTap-in-Swift: Example of creating an MTAudioProcessingTap in Swift4.2。

VideoComposition：附加信息，对画面的描述

视频属性控制：
- frameDuration
- renderSize
- colorParimaties
- colorTransferFunction
- colorYCbCrMatrix
视频操作，通过以下三种方式：
- instructions：AVVideoCompositionInstructionProtocol ×N
  - VideoCompositionLayerInstruction：提供几种图像以时间点、时间区间/渐变操作
    - opacity
    - transform
    - cropRectangle
- animationTool：提供与Core Animation的几种交互方式，不能实时预览的，即设置到playerItem看不到效果。
  - 新增一个用CALayer表示的视频轨：init(additionalLayer: CALayer, asTrackID: CMPersistentTrackID)
  - 用CALayer层级关系管理视频轨：init(postProcessingAsVideoLayer: CALayer, in: CALayer)、init(postProcessingAsVideoLayers: [CALayer], in: CALayer)
- customVideoCompositorClass：自己实现一个VideoComposition，可通过GL、Metal实现自定义的转场

以上API的Mutable版本的类才是可编辑的。

以上的Composition，可用于创建PlayerItem、AssetExportSession。AudioMix、VideoComposition作为属性设置到AssetExportSession、AssetReaderAudioMixOutput、playerItem。

具体API

AVMutableComposition

AVAsset的子类，因此这是最后预览、导出操作的数据对象。

整体操作

对整个composition对象进行整体操作，当然这会涉及多个轨道，除了对整体进行时间伸缩，否则较少使用。

/// 插入空占位
func insertEmptyTimeRange(_ timeRange: CMTimeRange)

/// 插入asset
func insertTimeRange(_ timeRange: CMTimeRange, of asset: AVAsset, at startTime: CMTime) throws

/// 移除时间段的内容，注意这里不会移除既有的轨道。
func removeTimeRange(_ timeRange: CMTimeRange)

/// 伸缩时间，即改变时间区间内所有轨道的时长
func scaleTimeRange(_ timeRange: CMTimeRange, toDuration duration: CMTime)

/// 配置视频画幅尺寸
var naturalSize: CGSize { get set }

轨道操作

大多数操作都是基于轨道。

/// 添加、移除轨道
func addMutableTrack(withMediaType mediaType: AVMediaType, preferredTrackID: CMPersistentTrackID) -> AVMutableCompositionTrack?
func removeTrack(_ track: AVCompositionTrack)

// 其他API只是获取轨道等非常用操作

AVMutableCompositionTrack

一个可修改的轨道。

常用配置属性

/// 视频翻转矩阵
var preferredTransform: CGAffineTransform { get set }

/// 音频轨道音量
var preferredVolume: Float { get set }

/// 其他不太常用的属性
var languageCode: String? { get set }
var extendedLanguageTag: String? { get set }
var naturalTimeScale: CMTimeScale { get set }

增删改查

func insertEmptyTimeRange(_ timeRange: CMTimeRange)
func insertTimeRange(_ timeRange: CMTimeRange, of track: AVAssetTrack, at startTime: CMTime) throws
func insertTimeRanges(_ timeRanges: [NSValue], of tracks: [AVAssetTrack], at startTime: CMTime) throws // 似乎不常用
func removeTimeRange(_ timeRange: CMTimeRange)
func scaleTimeRange(_ timeRange: CMTimeRange, toDuration duration: CMTime)
var segments: [AVCompositionTrackSegment]! { get set }

AVMutableAudioMix

包含混音（目前的混音只有音量调节）参数，所以其对象只有一个属性：

var inputParameters: [AVAudioMixInputParameters] { get set }

AVMutableAudioMixInputParameters

音频混音参数。

/// 创建
convenience init(track: AVAssetTrack?)
/// 创建后也可以修改trackId更变应用的轨道
var trackID: CMPersistentTrackID { get set }

/// 设置音量
func setVolume(_ volume: Float, at time: CMTime)
func setVolumeRamp(fromStartVolume startVolume: Float, toEndVolume endVolume: Float, timeRange: CMTimeRange)

/// 设置音调算法
var audioTimePitchAlgorithm: AVAudioTimePitchAlgorithm? { get set }

AVMutableVideoComposition

控制视频轨道组合行为。

/// 创建
init(propertiesOf asset: AVAsset)

/// 配置视频相关属性
var frameDuration: CMTime { get set }
var renderSize: CGSize { get set }
var renderScale: Float { get set } // 不常用
var colorPrimaries: String? { get set }
var colorTransferFunction: String? { get set }
var colorYCbCrMatrix: String? { get set }

/// 配置视频操作
var instructions: [AVVideoCompositionInstructionProtocol] { get set }
var animationTool: AVVideoCompositionCoreAnimationTool? { get set }
var customVideoCompositorClass: AVVideoCompositing.Type? { get set }

AVMutableVideoCompositionInstruction

提供一个时间范围内的视频组织信息。由一组AVMutableVideoCompositionLayerInstruction对象格式定义的指令组成的。

/// 自顶而下排列的layerInstructions
var layerInstructions: [AVVideoCompositionLayerInstruction] { get set }
var timeRange: CMTimeRange { get set }
var enablePostProcessing: Bool { get set }
var backgroundColor: CGColor? { get set }

AVMutableVideoCompositionLayerInstruction

给视频特效，用于定义给定视频轨道应用的基于时间的模糊、变形、和裁剪效果。从其构建方式可见，其更类似于AVMutableAudioMixInputParameters。

/// 构建
convenience init(assetTrack track: AVAssetTrack)
var trackID: CMPersistentTrackID { get set }

/// 支持的操作
func setOpacity(_ opacity: Float, at time: CMTime)
func setOpacityRamp(fromStartOpacity startOpacity: Float, toEndOpacity endOpacity: Float, timeRange: CMTimeRange)
func setTransform(_ transform: CGAffineTransform, at time: CMTime)
func setTransformRamp(fromStart startTransform: CGAffineTransform, toEnd endTransform: CGAffineTransform, timeRange: CMTimeRange)
func setCropRectangle(_ cropRectangle: CGRect, at time: CMTime)
func setCropRectangleRamp(fromStartCropRectangle startCropRectangle: CGRect, toEndCropRectangle endCropRectangle: CGRect, timeRange: CMTimeRange)

LayerInstruction是应用于一个轨道的，意味着要想在应用特效的时候能看到底下的视频，则需要多个视频轨道。

VideoComposition+CoreAnimation

视频编辑中除了可以叠加轨道，还可以叠加CALayer。这通过VideoComposition的animationTool实现。其类是AVVideoCompositionCoreAnimationTool：

/// 添加额外的图层
convenience init(additionalLayer layer: CALayer, asTrackID trackID: CMPersistentTrackID)

/// 自定义组织视频层与根图层。这里animationLayer是根图层，videoLayer视频层是其子图层，除此以外还可以在animationLayer添加更多子图层。
convenience init(postProcessingAsVideoLayer videoLayer: CALayer, in animationLayer: CALayer)

/// 拷贝视频帧到多个视频层
convenience init(postProcessingAsVideoLayers videoLayers: [CALayer], in animationLayer: CALayer)

在视频中使用CoreAnimation，常需要设置geometryFlipped属性，让其坐标翻转一遍。

通过AVVideoCompositionCoreAnimationTool使用Core Animation时需要注意：

用AVCoreAnimationBeginTimeAtZero表示0时间点；
isRemovedOnCompletion设为false；
避免使用与UIView关联的CALayer。

AVAssetExportSession

高级导出类，是个高级API，要想更细化地配置，还是需要AVAssetReader+AVAssetWriter。

构建

init?(asset: AVAsset, presetName: String)

当然可以直接构建后就开始导出。其音视频的转码配置都囊括在presetName中，即既有的方案中去直接套用。

配置

/// 输出文件路径
var outputURL: URL? { get set }

/// 文件类型，准确地来说是容器类型
var outputFileType: AVFileType? { get set }

/// 文件长度限制
var fileLengthLimit: Int64 { get set }

/// 导出时间区间
var timeRange: CMTimeRange { get set }

/// 附带的元数据
var metadata: [AVMetadataItem]? { get set }

/// 混音
var audioMix: AVAudioMix? { get set }

/// 音调算法（在伸缩时长时）
var audioTimePitchAlgorithm: AVAudioTimePitchAlgorithm { get set }

/// 是否为网络播放优化
var shouldOptimizeForNetworkUse: Bool { get set }

/// video composition
 var videoComposition: AVVideoComposition? { get set }

/// custom video compositor
var customVideoCompositor: AVVideoCompositing? { get }

]]> AVFoundation Apple 音视频 AVFoundation支持格式 /posts/avfoundation_movie_format/ 定义扩展名 AVFileTypeQuickTimeMovie .mov 或 .qt AVFileTypeMPEG4 .mp4 AVFileTypeAppleM4V .m4v AVFileTypeAppleM4A .m4a AVFileType3GPP .3gp 或 .3gpp 或 .sdv AVFileType3GPP2 .3g2 或 .3gp2 AVFileTypeCoreAudioFormat .caf AVFileTypeWAVE .wav 或 .wave 或 .bwf AVFileTypeAIFF .aif 或 .aiff AVFileTypeAIFC .aifc 或 .cdda AVFileTypeAMR .amr AVFileTypeWAVE .wav 或 .wave 或 .bwf AVFileTypeMPEGLayer3 .mp3 AVFileTypeSunAU .au 或 .snd AVFileTypeAC3 .ac3 AVFileTypeEnhancedAC3 .eac3 ]]> AVFoundation Apple 音视频 AVFoundation视频解码API /posts/avfoundation_video_decode_api/ 视频解码API概述

AVFoundation

AVAssetReader
AVSampleBufferGenerator

Video Toolbox

VTDecompressionSession

Core Video

CVPixelBuffer integration with Metal

使用AVFoundation的AVPlayer、AVAssetExportSession、AVAssetReader和Video Toolbox的VTDecompressSesion都自动进行硬件加速以及CMSampleBuffer的RPC优化。

视频核心数据结构

CVPixelBuffer：原始图像+图像元数据

CMBlockBuffer：任意类型的二进制数据（压缩图像）+元数据

CMSampleBuffer：

CVPixelBuffer+时间信息+帧元数据（CMFormatDescription）
CMBlockBuffer+时间信息+帧元数据
只包含元数据

IOSurface：不同框架、设备中交换图像数据的高速通道，应用在：

不同框架之间：CoreVideo和Metal
不同进程之间：解码进程和App进程
不同的内存区：显存和内存

CVPixelBufferPool：实现了CVPixelBuffer中的IOSurface的复用与回收。

解码流程

在解码的过程中如果配置的输出格式与原始数据格式不一致，还会发生转码，触发内存拷贝，要尽量避免。

获取解封装后的数据

要想获得解码前的裸数据，即解封装后的裸数据（输出为CMSampleBuffer），可以通过以下方式实现：

AVAssetReader：创建track ouput时把outputSetting设为nil。
AVSampleBufferGenerator：只能读出未解码的裸数据。
自己生成CMSampleBuffer：把数据读取出来，构建CMBlockBuffer，再加上时间信息，构建出CMSampleBuffer。这样的CMSampleBuffer不带RPC优化。

使用Video Toolbox解码

VTDecompressionSession包含三部分：

解码器
CVPixelBufferPool
VTPixelTransferSession

使用VTDecompressionSession的步骤：

创建VTDecompressionSession；
通过VTSessionSetProperty配置session；
传递CMSampleBuffer视频帧给session解码。
从回调中获取解码CMSampleBuffer。

虽然回调是异步的，但回调中的逻辑仍会反向影响解码器的性能。常见的做法是把回调中的解码帧用队列缓存起来，在另外的线程处理。

CVPixelBuffer与Metal交互

拿到了解码帧CMSampleBuffer，就可以从中取出CVPixelBuffer，接下来就是如何处理和渲染了，这里使用Metal完成。

CVPixelBuffer与Metal交互方式：

直接使用IOSurface。即直接通过从CVPixelBuffer取出的IOSurface创建Metal纹理，但要手动处理IOSurface的内存释放（通过IOSurfaceIncrementUseCount、IOSurfaceDecrementUseCount）。
使用CVMetalTextureCache。
1. 创建CVMetalTextureCache：CVMetalTextureCacheCreate
2. 通过向CVMetalTextureCache传入CVPixelBuffer创建CVMetalTexture：CVMetalTextureCacheCreateTextureFromImage
3. 通过CVMetalTexture创建MTLTexture：CVMetalTextureGetTexture

参考

WWDC20 10090 - 使用 AVFoundation 和 VideoToolBox 做视频处理－小专栏

]]> AVFoundation Apple 音视频 AVFoundation设备配置 /posts/avfoundation_device_setup/ 帧率与分辨率

设备帧率与分辨率在帧率大于30fps时，两者有着绑定关系，即不能自由设置。

低帧率模式（fps <= 30）

低帧率模式（fps <= 30）下，帧率和分辨率可以分别自由设置。即设置：

AVCaptureSession的sessionPreset：设置分辨率及其预设格式。
AVCaptureDevice的activeVideoMinFrameDuration、activeVideoMaxFrameDuration

高帧率模式（fps > 30）

高帧率模式（fps > 30）下，帧率不能自由设置，需要遍历设备支持的格式，在格式支持的帧率范围选择合适的帧率。为了统一操作，低帧率模式下也可以应用该设置方式。

获取设备对象的formats数组，并进行遍历（也可以进一步获取其中的CMFormatDescription）：
1. 获取Format的videoSupportedFrameRateRanges数组的首个元素。
2. 比对AVFrameRateRange的maxFrameRate是否 >= 目标帧率，满足继续，否则跳过循环。
3. 比对Format的formatDescription.dimensions是否满足要求，满足继续，否则跳过循环。
4. 锁定设备进入配置：
  1. 设置AVCaptureDevice的activeFormat为当前Format对象；
  2. 设置AVCaptureDevice的activeVideoMinFrameDuration、activeVideoMaxFrameDuration为目标帧率。
5. 解锁设备完成配置。

]]> AVFoundation Apple 音视频 AVFoundation采集API /posts/avfoundation_capture_api/ 核心类

AVCaptureSession

排插，用于建立输入、输出图的关系。

提供操作：

预设配置
增删查输入、输出
增删查连接
开始、停止运行
开始、提交配置

使用注意：

方法调用应在一个独立的串行队列中进行，以防止影响主线程和实现同步操作。
中断通过通知进行监听。

AVCaptureDevice

采集设备硬件功能的封装。

使用注意：

使用硬件功能时，需要判断该功能是否可用；
修改设备配置前，需要调用lockForConfiguration进行锁定，以防止外界修改；对应的修改完毕后，调用unlockForConfiguration。

AVCaptureDeviceInput

采集设备作为输入的封装。需要封装成 Input 才能添加会话中。

使用注意：

切换设备其逻辑要包裹在AVCaptureSession的beginConfiguration和engdConfiguration中，需要根据设备创建Input，先移除后添加。

AVCaptureOutput

抽象输出类，其根据实际的目标数据的需求会有对应的具体类。 + StillImageOutput：静态图片输出 + 图片输出配置 + 拍照操作 + MovieFileOutput：音视频文件输出 + 文件大小限制 + 录制开始和停止操作 + AudioFileOutput：音频文件输出 + 音频格式配置 + 元数据存取 + AudioDataOutput：原始音频帧输出 + 音频格式配置 + VideoDataOutput：原始音频帧输出 + 视频格式配置 + MetadataOutput：元数据输出，可以实现二维码、人脸识别 + DepthDataOutput：深度数据输出

提供connection获取和坐标转换。具体的类通过不同的代理异步输出数据。

AVCaptureConnection

建立输入和输出的连接，用于控制数据流。只要Input和Output都添加到Session，则可以直接向Output获取Connection。否则需要手动建立连接。

可配置与设备硬件无关的软件处理：videoOrientation、videoScaleAndCropFactor、videoMirroring、videoStabilization。其他的参数需要配置AVCaptureDevice。

AVCaptureVideoPreviewLayer

可直接关联（强引用）AVCaptureSession实现预览。

采集案例

摄像头坐标转换

AVCaptureVideoPreviewLayer 提供摄像头坐标和屏幕坐标的转换方法：

// 屏幕坐标 -> 摄像头坐标
- (CGPoint)captureDevicePointOfInterestForPoint:(CGPoint)pointInLayer;

// 摄像头坐标 -> 屏幕坐标
- (CGPoint)pointForCaptureDevicePointOfInterest:(CGPoint)captureDevicePointOfInterest;

采集会话配置

创建 AVCaptureSession；
设置分辨率；
使用 AVCaptureDevice 方法获取其对应类型的对象；
为设备对象创建 Input；
判断会话能否添加该 Input（因为有可能其他应用在使用该设备），是则添加；可将设备对象/input 存到属性，以备切换设备时做判断。
创建 Output 对象，设置其格式。
判断+添加。可以添加多个 Output。

开始与停止就是调用 Running 相关的方法。

]]> AVFoundation Apple 音视频音视频通用技术 /posts/audio_and_video_general_technology/ 直接 alpha 与预乘 alpha

直接 alpha

使用直接 alpha 描述 RGBA 颜色时，颜色的 alpha 值会存储在 alpha 通道中。例如，若要描述具有 60% 不透明度的红色，使用以下值：\((255, 0, 0, 255 × 0.6) = (255, 0, 0, 153)\)。其中153（\(153 = 255 × 0.6\)）指示颜色应具有 60% 的不透明度。

预乘 alpha

使用预乘 alpha 描述 RGBA 颜色时，每种颜色都会与 alpha 值相乘：\((255 × 0.6, 0 × 0.6, 0 × 0.6, 255 × 0.6) = (153, 0, 0, 153)\)。

预乘的好处：

混合时可以少一次乘法；
关键：只有预测的纹理才能进行Texture Filtering（除非使用最近邻插值）。使得带透明度的图片纹理可以正常进行线性插值。

对于直接alpha转换为预乘alpha的过程，要么预先使用工具进行处理，要么交由GPU处理。

视频或音频数据存储的2种格式packed和planar

假设有一路音频流，有左右两声道的数据。左声道用L表示，右声道用R表示。

存储时，如果是左右声道数据交替存储成一维数组，这种格式称为packed。格式为LRLRLR....LRLR

如果是分开存储成二维数组，这种格式称为planar。格式为LLLLLLLLLLLLLL和RRRRRRRRRRRRR

视频也是如此，但是对于YUV格式的数据，比音频多一种存储方法叫semi-planar，也就是半planar。一共2路存储，Y一路，UV一路，其中UV交叉存储。

视频播放器原理

视频播放器播放一个互联网上的视频文件，需要经过以下几个步骤：解协议，解封装，解码视音频，视音频同步。如果播放本地文件则不需要解协议，为以下几个步骤：解封装，解码视音频，视音频同步。他们的过程如图所示。

flowchart TB
流数据 --解协议--> 封装格式数据;
封装格式数据 --解封装--> 音频压缩数据 --音频解码--> 音频原始数据 --> 音视频同步 --> 视频驱动/设备;
封装格式数据 --解封装--> 视频压缩数据 --视频解码--> 视频原始数据 --> 音视频同步 --> 音频驱动/设备;

其中各个阶段的具体格式：

流数据/协议层：HTTP、RTMP、FILE……
封装格式：MKV、MP4、FLV、MPEG-TS、AVI……
压缩数据：H264、H265、MPEG2、AAC……
原始数据：YUV420P、YUV422P、RGB24、PCM……

解协议：将流媒体协议的数据，解析为标准的相应的封装格式数据。视音频在网络上传播的时候，常常采用各种流媒体协议，例如HTTP、RTMP或是MMS等等。这些协议在传输视音频数据的同时，也会传输一些信令数据。这些信令数据包括对播放的控制（播放，暂停，停止），或者对网络状态的描述等。解协议的过程中会去除掉信令数据而只保留视音频数据。例如，采用RTMP协议传输的数据，经过解协议操作后，输出FLV格式的数据。

解封装：将输入的封装格式的数据，分离成为音频流压缩编码数据和视频流压缩编码数据。封装格式种类很多，例如MP4，MKV，RMVB，TS，FLV，AVI等等，它的作用就是将已经压缩编码的视频数据和音频数据按照一定的格式放到一起。例如，FLV格式的数据，经过解封装操作后，输出H.264编码的视频码流和AAC编码的音频码流。

解码：将视频/音频压缩编码数据，解码成为非压缩的视频/音频原始数据。音频的压缩编码标准包含AAC，MP3，AC-3等等，视频的压缩编码标准则包含H.264，MPEG2，VC-1等等。解码是整个系统中最重要也是最复杂的一个环节。通过解码，压缩编码的视频数据输出成为非压缩的颜色数据，例如YUV420P，RGB等等；压缩编码的音频数据输出成为非压缩的音频抽样数据，例如PCM数据。

视音频同步：根据解封装模块处理过程中获取到的参数信息，同步解码出来的视频和音频数据，并将视频音频数据送至系统的显卡和声卡播放出来。

音视频压缩与传统数据压缩

无论是视频还是音频，在传统压缩算法看来，文件中基本么有什么冗余信息，音视频的压缩都是人们对音视频针对性开发压缩算法，去掉实际的冗余信息。

]]> 音视频概念音视频流媒体传输协议 /posts/streaming_transfer_protocol/ 流媒体协议是服务器与客户端之间通信遵循的规定。

RTSP

该协议定义了一对多应用程序如何有效地通过IP网络传送多媒体数据。RTSP提供了一个可扩展框架，使实时数据，如音频与视频的受控、点播成为可能。数据源包括现场数据与存储在剪辑中的数据。该协议目的在于控制多个数据发送连接，为选择发送通道，如UDP、多播UDP与TCP提供途径，并为选择基于RTP上发送机制提供方法。

RTMP

RTMP是Adobe Systems公司为Flash播放器和服务器之间音频、视频和数据实时传输开发的开放协议，因为是开放协议所以都可以使用。

RTMP协议用于对象、视频、音频的传输，这个协议建立在TCP协议或者轮询HTTP协议之上。
RTMP协议就像一个用来装数据包的容器，这些数据可以是FLV中的视音频数据。一个单一的连接可以通过不同的通道传输多路网络流，这些通道中的包都是按照固定大小的包传输的。

HLS

HTTP Live Streaming 把整个流分成一个个基于 HTTP 的文件来下载，每次只下载一些。HLS 协议由三部分组成：HTTP（传输协议）、M3U8（索引文件）、TS（音视频媒体信息）。

编码格式要求：

视频编码格式：H264
音频的编码格式：AAC、MP3、AC-3
视频的封装格式：ts
保存 ts 索引的 M3U8 文件

优势：

相对于 RTMP 来讲使用了标准的 HTTP 协议来传输数据，可以避免在一些特殊的网络环境下被屏蔽
在服务端做负载均衡要简单。因为 HLS 是基于无协议的 HTTP 实现的，客户端只需要按照顺序下载存储在服务器的普通 ts 文件进行播放即可。而 RTMP 是一种有状态协议，很难对视频服务器进行平滑扩展，因为需要为每一个播放视频流的客户端维护状态。
HLS 协议本身实现了码率自适应，在不同的带宽情况下，设备可以自动切换到最适合自己码率的视频播放。

劣势：

延迟，很难做到 10s 以下，而 RTMP 可以降到 3s~4s。

M3U8

EXTM3U
- 首行
EXT-X-VERSION
- 格式版本
EXT-TARGETDURATION
- 最大切片时长的四舍五入值
EXT-X-MEDIA-SEQUENCE
- 直播切片序列
EXTINF
- 每个切片时长
- 下方为分片路径
EXT-X-ENDLIST
- 不会产生更多切片，该 M3U8 停止更新
EXT-X-STREAM-INF
- 多级 M3U8 文件，支持二级
- 后接参数：
  - BANDWIDTH，最高码率值
  - AVERAGE-BANDWIDTH，平均码率值
- 下面接子 M3U8 路径

客户端逻辑

通过给定URI获取播放列表。若是Master Playlist，客户端选择一个Variant Stream来播放。
客户端检查#EXT-X-VERSION版本是否满足。
客户端忽略不可识别的tags、属性键值对。
加载Media Playlist，选择一个segment开始播放。
播放完一个segment后，根据客户端当前的具体情况选择一个新的segment，并重复执行播放操作。
对与直播，需要定期刷新Media Playlist，并选择合适的segment播放。

客户端码率切换

HLS服务器提供几种可选的码率。客户端需要自主完成码率切换。客户端判断是否切换码率的因素：

设备实际的下载速度（与Master Playlist的Variant Stream标签中的码率/带宽做比较）
设备运行情况（CPU、内存、屏幕分辨率）

参考

简述HLS,HTTP,RTSP,RTMP协议的区别_bingqingsuimeng的专栏-CSDN博客

]]> 音视频概念音视频 RTMP /posts/rtmp/ RTMP，Real Time Messaging Protocol，使用TCP，默认在1935端口上传输一般的FLV格式流。

优点：

支持加密
隐私性好
实时性好
延迟相对较低

缺点：

使用非公共端口，可能被防火墙拦截；
跨平台差

常用应用领域：

娱乐直播
点播

应用会比HLS更为广泛，主要还是因为传输效率较高、基建比较成熟。

发展方向：使用UDP逐渐替代TCP方案，把传输做薄。

RTMP是在TCP建立连接的基础之上传输，即底层使用使用TCP的。经过RTMP握手后，建立RTMP Connetction，然后stream传输。

创建流的基本流程：

通过socket建立TCP连接；
RTMP握手；
建立RTMP连接；
创建RTMP流。

握手过程：

建立连接的过程：

创建流的过程：

推流过程：

拉流过程：

消息格式

当连接建立好后，就可以发送消息了，RTMP消息有固定的格式，如上图，这是RTMP协议中最复杂的部分。

如一般网络协议，整个RTMP的消息由Header和Body组成。

Header分为三个部分：

Basic Header，必有
Message Header，可选
Extended Timestamp，可选

后两者是否存在是根据Basic Header的值决定的。

Basic Header的大小也是动态变化的，其大小由第一个字节决定。Basic Header第一个字节组成：

前2位：fmt。
后6位：取值为0、1、2～63。约束当前或后续字节是否为chunk string id（CSID）。
- 0，则表示整个Basic Header占2个字节，即使用第2个字节表达CSID。
- 1，则表示整个Basic Header占4个字节，即使用后续3个字节表达CSID。
- 2～63，则表示整个Basic Header占1个字节，即fmt后面的6位是CSID。自己使用的话基本够用。

Message Header是可选的，也是动态大小的。这两者都是由Basic Header的fmt决定的，fmt是2位，可表示以下状态：

00，Message Header最长，占11字节，即包含：TimeStamp(3) + MegLength(3) + TypeID(1) + StreamID(4)。
01，Message Header占7字节，即包含：TimeStamp(3) + MegLength(3) + TypeID(1)。
10，Message Header占3字节，即包含：TimeStamp(3)。
11，没有Message Header。

之所以是可变的，是因为同一个流、同一个包分为多个消息/chunk/块传输，有很多信息只需要传一次就可以，后续客户端收到的信息复用前面的信息即可。

当用Message Header还表达信息的时候，就需要Extended Timestamp。当Message Header中的TimeStamp值为0xFFFFFF时，就存在Extended Timestamp。

消息类型/TypeID

TypeID	作用	SID	CSID	分类
1	Set Chunk Size	0	2	控制消息
2	Abort Message	0	2	控制消息
3	Acknowledgement	0	2	控制消息
5	Window Acknowlegement Size	0	2	控制消息
6	Set Peer Bandwidth	0	2	控制消息
8	音频数据
9	视频数据
15（AMF3），18（AFM0）	Data Message			命令消息
16（AFM3），19（AFM0）	Shared Object Message			命令消息
17（AFM3），20（AFM0）	Command Message			命令消息
22	Aggregate Message

AMF是Flash的编码数据格式，其形式像KLV（Key+Length+Value）。

]]> 音视频概念音视频多媒体容器 /posts/multimedia_container/ 我们常说的视频文件格式常常只是多媒体封装格式，里面不仅包含了视频，还有音频、字幕等媒体信息。而纯视频码流的格式更多使用使用编码格式表达。

多媒体封装格式（Multimedia Container Format，简称MCF、多媒体容器），是一种开放（没有身份规限，免费）、自由的数据格式。

多媒体文件是个容器。容器里面存在多个流（stream/track）。每种流是由不同的编码器编程生成的。从流中读出的数据称为包。在一个包中包含一个或多个帧。

容器格式内部对音视频数据的处理都是大同小异，区别点并不大。更多的差距在于它们对于不同编码格式的支持程度、元数据的详细程度以及对于是否能够支持音视频以外的数据。

不同的容器具有不同的特点，下面简单介绍常用的多媒体容器。

AVI

AVI，Audio Video Interleave。

机构：Mircrosoft
不支持流媒体
支持编解码器：几乎所有
BT下载视频

一种RIFF（Resource Interchange File Format）文件格式。同样使用RIFF文件格式还有WAV格式文件。RIFF使用小端序存储。

主体中的图像数据和声音数据是交叉存放的，以此达到音视频同步。从尾部的索引可以跳转到要播放的位置。

播放时间没有直接的字段由读取的帧数和帧率计算得出。

缺点：

由于索引在文件尾部，所以不适合用来流传输。
容器中我没有时间戳，只能通过帧数和帧率计算得出。在索引中也没有写明时间戳和媒体位置的信息，所以在播放AVI时seek操作还需要额外的技术手段。
由于媒体数据分块存放，使得它对很多使用运动预测特定的视频编码的支持不是很好，因为预测帧需要访问帧外的数据。

二进制构成

AVI文件是一个类型为AVI的RIFF块，主要有三个subchunk构成：

hdrl LIST，信息块：元数据
movi LIST，数据块：保存音视频序列数据
idxl LIST，索引块（可选）

结构示意：

RIFF (‘AVI ’
      LIST (‘hdrl’
            ‘avih’(主AVI信息头数据)
            LIST (‘strl’
                  ‘strh’ (流的头信息数据)
                  ‘strf’ (流的格式信息数据)
                  [‘strd’ (可选的额外的头信息数据) ]
                  [‘strn’ (可选的流的名字) ]
                  ...
                 )
             ...
           )
      LIST (‘movi’
            { SubChunk | LIST (‘rec ’
                              SubChunk1
                              SubChunk2
                              ...
                             )
               ...
            }
            ...
           )
      [‘idx1’ (可选的AVI索引块数据) ]
     )

参考：

MOV

MOV，QuickTime File Format（QTFF）

机构：Apple
支持流媒体
支持编解码器：
- 音：AAC、MPEG-1 Layers I/II/III、AC-3等
- 视：MPEG-2/4、H.264等
点播、直播

MP4

MP4，MPEG-4 Part14

机构：MPEG
支持流媒体
支持编解码器：
- 音：AAC、MPEG-1 Layers I/II/III、AC-3等
- 视：MPEG-2/4、H.264、H.263等
互联网视频网站

MP4由多个包含不同信息的box，以树形式组织构成，与MOV的atom几乎一致。

根结点下包含三个box：

ftyp：文件类型
moov：元数据
mdat：媒体数据

把moov放到mdat前面可以更快准备播放。

box结构

构成：

header：指明box大小和类型；
- 增加了version（8位）和flags（24位）字段的成为FullBox。
- 当size等于0时，代表这个box是文件最后一个box。当size等于1时，说明box长度需要更多的位来描述，在后面会定义一个64位的largesize来描述box的长度。
body：数据或box

常用容器

moov，音视频数据的元数据信息
- mvhd，影片文件头信息，未压缩过的影片信息的头容器
- trak，多个，各轨道信息容器
  - tkhd，轨道元数据（TrackID、Duration、音量等等）
  - edts
    - 如果没有该表，那么这个轨道会立即开始播放，一个空的 edts 数据用来定位对轨道的起始时间偏移位置
  - mdia
    - mdhd，媒体头
    - hdlr，句柄参考
    - minf，媒体信息
      - vmhd，视频信息头
      - smhd，音频信息头
      - dinf，数据信息
      - stdl，采样表

mdat box中的多媒体数据是没有结构的，是参考moov的track box解析。moov包含了整个多媒体文件的元数据，seek也是通过该box实现，通过其中的各个表查到数据偏移位置。

FLV

FLV，FLash Video。

机构：Adobe
支持流媒体
支持编解码器：
- 音：MP3、ADPCM、Linear PCM、AAC等
- 视：Sorenson、VP6、H.264
互联网视频

FLV常用做流媒体。

结构：

FLV Header
- 字符 FLV 签名字段
- 版本
- 保留标记
- 音视频标记
- 数据偏移
FLV Body，这里body只是一个概念，具体直接就是PreviousTagSize和Tag
- PreviousTagSize #0：0
- TAG #1
  - TAG Header
    - Type
    - DataSize
    - TimeStamp
  - TAG Data
    - Audio Tag Data
      - 第一个字节包含音频数据的参数信息
      - 第二个字节开始为音频流数据
    - Video Tag Data（同上）
    - Script Tag Data
      - 常用于展示元数据，存储的数据格式一般为 AMF 格式
- PreviousTagSize #1：上一个TAG大小。
- TAG #2
- PreviousTagSize #2
- ...

参考：

Flv格式解析 - 掘金

TS

TS，MPEG2-TS

机构：MPEG
支持流媒体
支持编解码器：
- 音：MPEG-1 Layers I/II/III、AAC
- 视：MPEG-1/2/4、H.264
IPTV，低延时直播

TS文件为传输流文件，其特点是要求从视频流的任意片段开始都是可以独立解码的。TS容器是为了流传输而设计的。

在MPEG-2标准中，有两种不同类型的码流输出到信道：一种是节目码流（Program Stream, PS），适用于没有误差产生的媒体存储，如DVD等存储介质（.vob）。另一种是传送流（Transport stream, TS)，适用于有信道噪声产生的传输，目前TS流广泛应用于广播电视中，如机顶盒等。

TS文件分层：

ES，Elementary Stream：原始流，直接从编码器出来的裸数据。
PES，Packet Elemental Stream：分割打包的ES流，加入了PES头（PTS、DTS等）。PES由包头和playload组成。
TS层，Transport Stream：传输流。是在PES层的基础上加入数据流的识别和传输必须的信息。固定包长度为188字节，以便于找到帧的起始位置，易于从丢包中恢复。

为了便于传输，实现时分复用，基本流ES必须打包，就是将顺序连续、连续传输的数据流按一定的时间长度进行分割，分割的小段叫包，因此打包也称为分组。

参考：TS流基本概念、ts流格式详解

MKV

MKV，Matroska Video File

机构：Matroska
支持流媒体
支持编解码器：几乎所有
点播、直播

开放标准、免费使用，可放入多种媒体信息，且不限数量。而且是目前唯一一个支持封装ASS字幕的格式。

参考

]]> 音视频概念音视频 FLV格式 /posts/flv/ FLV与RTMP协议有密切的联系。每个RTMP的数据加个头就是FLV了。

FLV文件是以FLV格式存储的。

FLV文件 = FLV header + 数据

FLV header，占9字节：

前3字节：F、L、V
版本，值为1。
类型
- 0～5位，保留，必须是0。
- 6位，是否有音频tag。ii
- 7位，保留，必须是0。
- 8位，是否有视频tag。
偏移量，占4字节，Header的大小，必须是9。

数据是由一个个分组组成，一个分组的结构：

pre tagsize，占4字节，前一个tag的大小，即tag大小在tag的后面存放。
Tag

Tag的结构：

TT，1字节，Tag类型。0x08音频，0x09视频，0x12script脚本。
DataSize，3字节，Tag body数据大小（PreTagSize - Tag Header Size）
TimeSta，3字节，时间戳（毫秒）
E，1字节，扩展时间戳。
SID，3字节，StreamID，始终是0。
Tag DATA

Tag DATA可以保存两种类型数据：音频、视频。

音频Tag DATA
- header
  - SF，采样率
  - SR
  - SS
  - ST
- data
视频Tag DATA

]]> 音视频概念音视频常见音频格式 /posts/common_audio_formats/ 电视广播离不开声音信号，随着人们对电视质量的要求越来越高，在数字电视广播、高清晰数字电视和数字电影中不仅应有高质量的图像，还要保证有高质量的伴音。

音频文件格式往往包含了对音频编码格式的表达，两者一般是一对一的关系，或者说音频文件格式也是音频编码格式。

PCM

PCM (PulseCode Modulation) 被称为脉码编码调制。PCM中的声音数据没有被压缩，如果是单声道的文件，采样数据按时间的先后顺序依次存入(它的基本组织单位是BYTE(8bit)或WORD(16bit))，如果是双声道的文件，采样数据按时间先后顺序交叉地存入。如图所示：

PCM的每个样本值包含在一个整数i中，i的长度为容纳指定样本长度所需的最小字节数。8位和16位的PCM波形样本的数据格式：

样本大小	数据格式	最小值	最大值
8bit PCM	unsigned int	0	255
16bit PCM	int	-32768	32767

PCM没有保存元数据信息，播放时要准确指定采样格式、采样率和声道才能播放。

WAV

实现方式很多，在原 PCM 数据格式前面加上 44 字节元数据描述 PCM：采样率、声道数、数据格式等。

特点：保留原始PCM，音质好，大量软件都支持；

适合场景：高比特率下对兼容性有要求的音乐欣赏。

WAV格式符合资源交换文件格式(RIFF，ResourceInterchange File Format)规范。WAV文件分为两个部分：头信息和PCM音频数据。

有损压缩编码格式

MP3

MP3，MPEG-1 Audio Layer III，也可以是MPEG-2 Audio Layer III。

技术细节：

使用MDCT算法，修正了DCT算法上的一些缺陷。
使用声学心理模型：
- 人耳听觉范围是20Hz～20kHz，去掉高频信息；
- 人耳对2000Hz～5000Hz最灵敏，两端下降比较厉害，尤其是高频，在去掉部分高频信息；
- 人耳有遮蔽效应，去掉频域和时域遮蔽的部分；
使用哈夫曼编码压缩音频数据。

缺点：

CBR编码对20kHz以上的声音一刀切。当然也可以使用VBR规避。
最初使用的ID3标签没有统一的文本编码。ID3 v2对此做了修正。
多声道支持较差。非主流的MPEG-2 Audio Layer III才支持了5.1声道。

AAC

AAC，Advanced Audio Coding。为了取代MP3。目前较热门的有损压缩编码技术，衍生了 LC-AAC、HE-AAC、HE-AAC v2 这三种主要编码格式。

特点：在小于 128Kbit/s 的码率下表现优异，并且多用于视频中的音频编码。

适用场景：128Kbit/s 以下的音频编码，多用于视频中音频轨的编码。

技术细节：

使用了完整的MDCT算法，编码效率上更胜一筹。一般同等码率下，AAC质量比MP3更好一些。
支持更大的采样率（16～48kHz=>8~96kHz）。
支持高达48个声道。
对频率高于16kHz的音质更好。

Ogg

Ogg是Vorbis编码的容器。

非常有潜力，各种码率下都有比较优秀的表现。
尤其在低码率情况下，编码算法出色，可以用更小码率达到更好的音质。

特点：可以用比MP3更小的码率实现比MP3更好的音质，高中低码率下均有良好的表现，兼容不够好，流媒体特性不支持。

使用场景：语言聊天的音频消息场景

技术细节：

基于MDCT时频转换，然后通过心理声学进行频段舍弃。后续使用矢量量化算法，使得在低码率下有着很好的表现，接近AAC HE，但还没能超越。

Opus

编码比Vorbis更好的低码率表现，并在同码率下超越了AAC HE。
低延时。使得在数字语音通信领域中应用广泛。

AC-3

AC-3，Dolby Digital。

首个使用MDCT算法进行压缩的编码，同时还使用音频心理学研究成果对压缩算法进行优化，使得最终压缩后的产物仍拥有影院基本效果。
DD编码一般有6个声道，称为DD 5.1。
元数据中带有对解码过程进行控制的相关信息，使得它在支持的播放器上可以还原出制片方想要的效果。

缺点：

只支持固定码率编码，使得码率比较高。

升级版本：E-AC-3，Dolby Digital Plus。

DTS

Dolby的竞争对手。

选择ADPCM作为算法基础，采用自适应采样大小记录电平值。对存储空间利用率更高。同时，相对于使用MDCT算法算出不同频率段再砍掉人耳不敏感部分的做法，基于AFPCM的算法虽压缩比低一些，但对声音细节保留得更好。

但也是因为使用自适应采样大小，使得体积控制比DD要差一些，这限制了它的使用。

总结

大部分编码格式都是基于PCM进行无损、有损的压缩编码。使用的编码技术都是类似的。有损压缩编码基于MDCT，然后经过心理声学模型取出人耳不敏感的信息，最后经过哈夫曼编码压缩。无损压缩编码都是基于线性预测编码。不同的格式可能更多是机构、厂商竞争的产物。

参考

音频编码变迁录

]]> 音视频概念音视频 AAC 编解码器 /posts/aac/ 编码规格

AAC LC：Low Complexity。低复杂度规格，码流是 128k，音质好。主要应用于中高编码率的场景编码（>= 80Kbit/s）。
AAC HE V1：AAC LC + SBR（Spectral Band Replication）。其核心思想是按频谱保存，低频编码保存主要部分，高频单独放大编码保存音质。码流在 64k 左右。主要应用于低码率的编码（<= 48Kbit/s）
AAC HE V2：AAC LC + SBR + PS（Parametric Stereo）。其核心思想是双声道中的声音存在某种相似度，只需存储一个声道的全部信息，然后，花很少的字节用参数描述另一个声道和它不同的地方。

一般码流越大，其保真度越高。码流越小，压缩比高，去除的冗余信息就多，其就会对声音造成一定的损失。

编码格式

ADIF（Audio Data Interchange Format）

可以确定地找到这个音频数据的开始，相当于 AAC 数据加上数据头。只能从头开始解码，不能在音频数据流中间开始。应用于磁盘文件。

ADTS（Audio Data Transport Stream）

每一帧都有一个同步字，所以可以在音频流的任意位置开始解码。会比 ADIF 的数据大。应用于流媒体。

ADTS 结构

ADTS由7或9个字节组成，但其字段排列是按照位来排列。以下每段（即图的一行）是一个字节（8位），每个字母表示一位（0/1），每四位可用一个十六进制表示。

二进制表示：

AAAAAAAA AAAABCCD EEFFFFGH HHIJKLMM MMMMMMMM MMMOOOOO OOOOOOPP (QQQQQQQQ QQQQQQQQ)

Header consists of 7 or 9 bytes (without or with CRC).

Letter	Length (bits)	Description
A	12	syncword 0xFFF, all bits must be 1 同步字，表示这是个 ADTS 数据，都为1。
B	1	MPEG Version: 0 for MPEG-4, 1 for MPEG-2 使用的编码规范。
C	2	Layer: always 0
D	1	protection absent, Warning, set to 1 if there is no CRC and 0 if there is CRC 决定是7位还是9位。
E	2	profile, the MPEG-4 Audio Object Type minus 1 使用的编码规格↑。
F	4	MPEG-4 Sampling Frequency Index (15 is forbidden) 采样率
G	1	private bit, guaranteed never to be used by MPEG, set to 0 when encoding, ignore when decoding
H	3	MPEG-4 Channel Configuration (in the case of 0, the channel configuration is sent via an inband PCE)
I	1	originality, set to 0 when encoding, ignore when decoding
J	1	home, set to 0 when encoding, ignore when decoding
K	1	copyrighted id bit, the next bit of a centrally registered copyright identifier, set to 0 when encoding, ignore when decoding
L	1	copyright id start, signals that this frame's copyright id bit is the first bit of the copyright id, set to 0 when encoding, ignore when decoding
M	13	frame length, this value must include 7 or 9 bytes of header length: FrameLength = (ProtectionAbsent == 1 ? 7 : 9) + size(AACFrame)
O	11	Buffer fullness
P	2	Number of AAC frames (RDBs) in ADTS frame minus 1, for maximum compatibility always use 1 AAC frame per ADTS frame
Q	16	CRC if protection absent is 0

这些值一般不是具体的数值，而是一个约定的编号，根据编号获得其对应具体数值。

可以根据该工具，输入对应的 ADTS 头，就可以解析出具体的含义。

可见，找到一个同步字0xFFF即找到一个ADTS的开头。

]]> 音视频概念音视频视频基础技术 /posts/basic_video_technology/ 视频是什么：

视频由一组图像组成；
- 视频的基本单元是图像。
为了传输、占用更小的空间，常常被压缩存储与传输；
最终需要解压位图像在显示设备上展示。

码流计算

分辨率。X轴像素个数×Y轴像素个数。
颜色分量（分量个数、分量大小）
帧率。每秒采集/播放图像的个数。

未编码视频的RGB码流
= 宽×高 // 分辨率
×3 // 颜色分量，每个像素3字节大小
×帧率
(×8 // 按位计算)

编码、解码、转码

编码（encode）

通过特定的压缩技术，将某个视频的视频流格式转换成另一种视频格式的视频流方式。

视频：

YUV420/422 -> H264
RGB888 -> H264
YUV420 -> H265

音频：

PCM -> AAC
PCM -> G726
PCM -> G711

解码（decode）

通过特定的解压缩技术，将某个视频格式的视频流转换成另一种视频格式的视频流方式。

视频编码针对图片序列

视频：

H264 -> YUV420/422
H264 -> RGB888
H265 -> YUV420

音频：

AAC -> PCM
G726 -> PCM
G711 -> PCM

转码（transcode）：视频转码技术将视频信号从一种格式转换成另一种格式。

转码

视频：

改变分辨率（resolution）
改变帧率（frame rate）
改变比特率（bit rate）等编码参数

音频：

改变采样率（sample rate）
改变通道数（channels）
改变位宽（sample format）

封装、解封装

封装（mux）：复用，按一定格式组织原音视频流

解封装（demux）：分解，解复用，按一定格式解析出原始音视频流

]]> 音视频概念音视频音频基础技术 /posts/audio_basic_technology/ 人耳听觉范围

次声波，听觉范围：20Hz~20kHz，超声波

Hz，赫兹，一秒内振动的次数。

人发声范围：85Hz~1100Hz

声音三要素

音调（频率）：音频的快慢。男生 > 女生 > 儿童
音量（强度）：振动的幅度
音色：谐波

音调（频率）

在一个波中，周期是完成一个周期所需的时间，频率是周期的倒数，以赫兹表示每秒周期数。从本质上说，完成一个周期所需的时间越短，频率越高；从视觉上看，峰值彼此靠近的波比峰值远的波具有更高的频率。虽然频率描述了波形循环重复率的数值度量，单音调更像是我们用来描述声音的主观术语。

音量（强度）

强度是理解声音成分的另一个维度。声音强度描述了声音在一个区域内位移的声功率，以瓦特/平方米为单位。声音的功率是声音在某个单位时间内传递能量的速率，即强度本质上是声音置换的能量。

听者的持续时间、频率和年龄等混杂因素会影响声音的响度。

音色

银色描述了赋予声音特征的多种属性。

模拟信号数字化过程

模拟音频信号转化为数字音频信号：模拟音频信号是一个在时间上和幅度上都连续的信号，它的数字化过程如下所述。

模拟信号数字化的结果产物是PCM或WAV文件。

采样

在时间轴上对信号进行数字化。

按照固定的时间间隔抽取模拟信号的值，这样，采样后就可以使一个时间连续的信息波变为在时间上取值数目有限的离散信号。

采样过程决定采样率（sample rate）。

量化

在幅度轴上对信号进行数字化。用有限个幅度值近似还原原来连续变化的幅度值，把模拟信号的连续幅度变为有限数量的有一定间隔的离散值。

量化过程决定位深/采样大小，这是通过采样格式（sample format）体现的。

编码

用二进制数表示每个采样的量化值（十进制数）。

原始音频数据：

PCM，脉冲编码调制。
- 纯粹的音频数据，不带音频格式。所以PCM音频流的码率计算方式如上所述。
WAV，在PCM上添加音频信息的头。
- 但除了存储PCM原始数据，它还可以存储压缩数据。
- 如下图可见，WAV存储的音频格式就是量化的信息：采样大小、采样率、声道数。

上述的编码是模数转换过程中的编码成二进制文件的过程，注意与音频编码分开。一般所说的音频编码更多是指对音频的压缩。

小结

音频由波形组成，包括不同频率和振幅的波的叠加。为了在数字媒体内表示这些波形，需要对波形进行采样，其采样率需要（至少）可以表示您要复制的最高频率的声音；同时还需要存储足够的位深，以表示声音样本中波形的适当振幅（响度和柔度）。

位深/采样大小：一个采样用多少 bit 存放。能够表达的数值范围。使用8位、16位表达。
- 位深影响给定音频样本的动态范围。位深越高，表示的振幅越精确。如果在同一音频样本内有很多响亮和柔和的声音，则需要更大的位深才能正确表示这些声音。
- 增高位深还会降低音频样本内的信噪比。CD 音乐音频使用 16 位的位深。DVD 音频使用 24 位的位深，而大多数电话设备使用 8 位的位深。（某些压缩技术可以补偿较小位深的不足，但往往会有损耗。）
采样率：采样频率，即一秒内采样的个数。8k、16k、32k、44.1k、48k。越高越精细，高保真。
- 声音以模拟波形的形式存在。数字音频片段以足够快的速率对模拟波的振幅进行采样，模仿波的固有频率，达到高度接近这种模拟波的效果。数字音频片段的采样率指定了（每秒）从音频的源素材中采集的样本数；采样率越高，数字音频如实表示高频的能力就越强。
- 根据 Nyquist-Shannon 定理，对于您要以数字形式采集的任何声波，您的采样率通常需要高于其最高频率的两倍。例如，要表示人类听觉范围 (20-20000 Hz) 内的音频，数字音频格式必须至少每秒采样 40000 次（CD 音频使用 44100 Hz 的采样率，部分原因也在于此）。
声道：单声道、双声道、多声道。

通过以上三者可以计算出原始音频的码率（一秒内的比特数）：

未经压缩的码率 = 采样率 × 采样大小 × 声道数
44100 * 16 * 2 / 1000 = 1378.125kbps
一分钟的存储空间：
1378.125 * 60 / 8 / 1024 = 10.09MB

直接读取处理PCM

对于PCM，其每个采样的都是固定的，可以直接通过指针进行访问操作，如把PCM16LE双声道（采样大小16位，即每个声道的采样大小为2字节；LE：使用小端方式存储）分离声道：

FILE *fpcm = fopen(url, "rb+");
FILE *fl = fopen("output_l.pcm", "wb+");
FILE *fr = fopen("output_r.pcm", "wb+");

// 包含左右声道的采样
unsigned char *sample = (unsigned char *)malloc(4);

while (!feof(fpcm)) {
    fread(sample, 1, 4, fpcm);
    // L
    fwrite(sample, 1, 2, fl);
    // R
    fwrite(sample + 2, 1, 2, fr);
}

free(sample);
fclose(fpcm);
fclose(fl);
fclose(fr);

类似的，将左声道音量降低一半：

FILE *fin = fopen(url, "rb+");
FILE *fout = fopen("output_halfleft.pcm", "wb+");

unsigned char *sample = (unsigned char *)malloc(4);

while (!feof(fin)) {
    short *samplel = NULL;
    fread(sample, 1, 4, fin);

    samplel = (short *)sample;
    *samplel = *samplel / 2;
    fwrite(sample, 1, 4, fout);
}

free(sample);
fclose(fin);
fclose(fout);

而加速，而可以采用隔位采样的方式实现，但这样的效果音调也会上去。例如把速度提升一倍：

FILE *fin = fopen(url, "rb+");
FILE *fout = fopen("output_doublespeed.pcm", "wb+");
int cnt = 0;
unsigned char *sample = (unsigned char *)malloc(4);

while (!feof(fin)) {
    fread(sample, 1, 4, fin);
    if (cnt % 2 != 0) { fwrite(sample, 1, 4, fout); }
    cnt++;
}

free(sample);
fclose(fin);
fclose(fout);

还可以进行采样格式的转换，例如简单把PCM16LE转换为PCM8，由于是降采样，所以音质也会下降。

FILE *fin = fopen(url, "rb+");
FILE *fout = fopen("output_8.pcm", "wb+");
int cnt = 0;
unsigned char *sample = (unsigned char *)malloc(4);

while (!feof(fin)) {
    short *s16 = NULL;
    char s8 = 0;
    unsigned char s8_u = 0;
    fread(sample, 1, 4, fin);
    //(-32768-32767)
    s16 = (short *)sample;
    s8 = (*s16) >> 8;
    //(0-255)
    s8_u = s8 + 128;
    // L
    fwrite(&s8_u, 1, 1, fout);

    s16 = (short *)(sample + 2);
    s8 = (*s16) >> 8;
    s8_u = s8 + 128;
    // R
    fwrite(&s8_u, 1, 1, fout);
    cnt++;
}

free(sample);
fclose(fin);
fclose(fout);

音频压缩编码

与所有数据一样，音频数据通常会进行压缩，以便更易于存储和传输。音频编码中的压缩可能为无损或有损。无损压缩经过解包后可以将数字数据恢复为原始形式。有损压缩在压缩和解压缩过程中必然会移除某些信息，并且进行参数化，以便表明在多大容限范围内允许压缩技术移除数据。

音频压缩往往追求两个极端：压缩比尽可能大、压缩速度尽可能快。

基本过程

以上过程包含了有损压缩和无损压缩的过程。主要还是有损压缩。

时域转频域：去除被遮蔽掉的音频信号；心理声学模型：去除人耳听觉范围以外的音频信号。

压缩方式

有损压缩（清除后无法恢复）：消除冗余信息
- 在保证信号在听觉方面不产生失真的前提下，对音频数据信号尽可能大的压缩。这些冗余信息：
  - 人耳听觉范围外的音频信号
  - 被遮蔽掉的音频信号
    - 频域遮蔽
    - 时域遮蔽
无损压缩

有损压缩编码

有损压缩则会在构建压缩数据期间清除或减少某些类型的信息，从而压缩音频数据。

频域遮蔽效应

音量高的会遮蔽附近音调的声音。

时域遮蔽效应

音量高的会遮蔽附近时间的声音。

无损压缩编码

无损压缩对存储的数据进行复杂的重排，从而压缩数字音频数据，但不会导致原始数字样本的质量下降。如果采用无损压缩，在将数据解包为原始数字形式时，不会丢失任何信息。

那么，无损压缩技术为什么有时会具有优化参数？这些参数通常用来控制文件大小和解压缩时间。例如，FLAC 使用 0（最快）到 8（文件大小最小）的压缩级别参数。与较低级别的压缩相比，较高级别的 FLAC 压缩不会丢失任何信息。压缩算法只是需要在构建或解构原始数字音频时消耗更多的计算能量。

从技术上讲，LINEAR16 不是“无损压缩”，因为首先它并未涉及压缩。

熵编码
- 哈夫曼编码。使用很小的二进制数代表一个较长的字符，频率越高编码越小，频率越低编码越长。
算术编码
- 通过二进制的小数来进行编码。
香农编码
- 算术编码的改进。

常见音频编码器

常见的音频编码器包括 OPUS、AAC、Ogg、Speex、iLBC、AMR、G.711 等。

OPUS
- 延迟小，压缩比高。WebRTC 默认使用。
AAC
- 应用广泛，移动设备支持硬编解码。用于取代 mp3。
Ogg
- 收费，因此导致应用不广。
Speex
- 直接支持回音消除功能。
G.711
- 窄带音频，编码后数据非常小，但声音损坏较大。固话。

网上评测结果：OPUS > AAC > Ogg

音频重采样

含义：将音频三元组（采样率、采样大小、通道数）的值转换成另外一组值。即只要改变这三元组的任意值都是进行重采样。

重采样的应用场景：

从设备采集的音频数据与编码器要求的数据不一致。
输出设备要求的音频数据与要播放的音频数据不一致。
更方便计算，如回音消除要把双声道转换成单声道。

码控

In CBR (constant bit rate) formats, such as linear PCM and IMA/ADPCM, all packets are the same size.
In VBR (variable bit rate) formats, such as AAC, Apple Lossless, and MP3, all packets have the same number of frames but the number of bits in each sample value can vary.
In VFR (variable frame rate) formats, packets have a varying number of frames. There are no commonly used formats of this type.

]]> 音视频概念音视频图像基础技术 /posts/image_basic_technology/ 图像与屏幕

一个像素可以有两层含义：

图像数据的一个点。
屏幕上的一个点。

图像与屏幕的关系：

图像是数据；
屏幕是显示设备；
图像数据经过驱动程序让屏幕显示图像。

屏幕指标：

PPI，pixel per inch
DPI，Dots per inch

PPI 和 DPI 一般都相同。如果 PPI > 300 就属于视网膜屏（人眼区分不出每个都像素点）。

每个像素具有位深，即使用多少位来保存一个像素。可以根据位深维度划分不同的像素格式：

RGB888（24位）
RGBA（32位）

存储模式：

RGB565：使用16位表示一个像素。R：5位，G：6位，B：5位。
RGB888：使用24位来表示一个像素，每个分量都用8位表示。
ARGB8888：使用32位来表示一个像素，R、G、B都用8位表示，另外A(Alpha)表示透明度，也用8位表示。

图像的像素信息

https://www.yuque.com/quandong/pqm3wg/nfzu3o

像素格式包含以下信息：

每个分量的位数，即在一个像素中每个独立颜色分量的位数。对于一个图像遮罩，这个值是源像素中遮罩bit的数目。例如，如果源图片是8-bit的遮罩，则指定每个分量是8位。
每个像素的位数，即一个源像素所占的总的位数。这个值必须至少是每个分量的位数乘以每个像素中分量的数目。
每行的字节数，即图像中水平行的字节数。

位图布局

https://www.yuque.com/quandong/pqm3wg/nfzu3o

以下的常量指定了alpha分量的位置及颜色分量是否做预处理：

kCGImageAlphaLast：alpha分量存储在每个像素中最不显著的位置，如RGBA。
kCGImageAlphaFirst：alpha分量存储在每个像素中最显著的位置，如ARGB。
kCGImageAlphaPremultipliedLast：alpha分量存储在每个像素中最不显著的位置，但颜色分量已经乘以了alpha值。
kCGImageAlphaPremultipliedFirst：alpha分量存储在每个像素中最显著的位置，同时颜色分量已经乘以了alpha值。
kCGImageAlphaNoneSkipLast：没有alpha分量。如果像素的总大小大于颜色空间中颜色分量数目所需要的空间，则最不显著位置的位将被忽略。
kCGImageAlphaNoneSkipFirst：没有alpha分量。如果像素的总大小大于颜色空间中颜色分量数目所需要的空间，则最显著位置的位将被忽略。
kCGImageAlphaNone：等于kCGImageAlphaNoneSkipLast。

图11-2演示了一个像素在使用16-或32-bit整型像素格式的CMYK和RGB颜色空间中如何表示。32-bit整型像素格式中，每个分量占8位。16-bit整型像素格式中每个分量占5位。Quartz同样支持128-bit浮点像素格式，每个分量占32位。128-bit格式没有显示在下图中。

Figure 11-2 32-bit and 16-bit pixel formats for CMYK and RGB color spaces in Quartz 2D 16- and 32-bit pixel formats for CMYK and RGB color spaces in Quartz 2D

色彩空间

https://www.cnblogs.com/leisure_chn/p/10290575.html

颜色是不同波长的光对人眼刺激产生的色彩感觉。色彩空间（Color Space）是颜色的数学表示，根据不同的表示方法分为不同的色彩模型。最常用的色彩模型有三类：RGB（用于计算机图形学）， YUV（用于视频系统）， CMYK（用于彩色印刷）。

描述光的常用物理量有四个：光通量、光强、照度、亮度。

彩色三要素

光的颜色取决于客观和主观两方面的因素。客观因素是光的功率波谱分布，它影响光源的颜色。主观因素是人眼视频特性，它影响人眼对色彩的感觉。彩色三要素指亮度(Lightness)、色调(Hue)和饱和度(Saturation)，任一色彩都可以用这三个基本参量来表示：

亮度：表示颜色明暗的程度，是光作用于人眼时引起的明亮程度的感觉。

色调：是指颜色的类别，例如红色、蓝色、绿色指的就是色调。

饱和度：指颜色的深浅程度，也称彩度。例如深绿、浅绿指的就是绿色这个色调的饱和度，饱和度越高，颜色越深。

RGB色彩空间

人眼看到的物体颜色，是光源照射到物体，物体吸收(还有透射)部分颜色的光，然后从物体表面反射的光线进入人眼后人眼得到的色彩感觉。

人眼看到物体为黑色，是因为物体将光线完全吸收，没有光从物体表面反射出来(例如白天我们看一件黑衣服)；或者没有任何光线照射到物体(例如黑底我们看一张白纸)。

人眼看到物体为白色，是因为在白光源照射下，物体不吸收光线而将光线全部反射(例如白天我们看一张白纸)。

颜色与光源和物体的吸色特性密切相关，基于此，引出混色方法中的加色法和减色法。

加色法利用光源发射特性，将各分色的光谱成分相加得到混合颜色。RGB色彩空间采用加色法。当无任何光线照射时，R、G、B三种颜色分量都为0时，物体呈现黑色；当R、G、B三种颜色分量达到最大时，物体不吸收光线只反射的情况下，物体呈现白色。我们称黑色为最暗，白色为最亮，要达到最亮状态，需要三色分量最大程度混合，因此称为加色。

加色法用于自发光物体。RGB颜色空间主要应用于计算机显示器、电视机、舞台灯光等，都具有发光特性。彩色像素在显示器屏幕上不会重叠，但足够的距离时，光线从像素扩散到视网膜上会重叠，人眼会感觉到重叠后的颜色效果。

减色法是利用颜料吸色特性，每加一种颜色的颜料，会吸收掉对应的补色成分。CMYK色彩空间采用减色法。例如，我们在白纸(白光照射、不吸收、全反射)上涂颜料，黄色颜料能吸收蓝色(黄色的补色)，因此在白光照射下显示黄色，当黄(Y)、青(C)、品红(M)三色混在一起且颜色分量都为最大时，它们的补色成分被吸收掉，变成了黑色；当三色分量为0即什么也不涂时，白纸显现白色。要达到最大亮度，需要三色分量完全消失，因此称为减色。

印刷时，无法达到理想程度，C、M、Y最大程度混合后无法得到纯黑色，只能得到深灰色，因此在C、M、Y三色之外引入了K(黑色)。

减色法用于无法发光的物体。CMYK颜色空间主要应用于印刷、绘画、布料染色等。

]]> 音视频概念 YUV /posts/yuv/ 色彩空间

像素格式描述了像素数据存储所用的格式，定义了像素在内存中的编码方式。RGB和YUV为两种经常使用的像素格式。

RGB格式

RGB图像具有三个通道R、G、B，分别对应红、绿、蓝三个分量，由三个分量的值决定颜色；通常，会给RGB图像加一个通道alpha，即透明度，于是共有四个分量共同控制颜色。

RGB用于屏幕图像的展示。

YUV格式

YUV颜色空间是PAL、NTSC、SCEAM三大视频标准使用的颜色空间，主要应用于视频系统。使用YUV色彩空间，后期出现的彩色电视系统和早期的黑白电视系统兼容，黑白电视机可以只处理彩色电信信号中的Y分量，而彩色电视机接收黑白电视信号并显示也没有任何问题。

\(Y'UV\)、\(YUV\)、\(YC_bC_r\)、\(YP_bP_r\)等都可以称为YUV，它们所指涉的范围，常有混淆或重叠的情况。从历史的演变来说，其中\(YUV\)和\(Y'UV\)通常用来编码电视的模拟信号，而\(YC_bC_r\)则是用来描述数字的视频信号，适合影片与图片压缩以及传输，例如MPEG、JPEG。但在现今，YUV通常已经在计算机系统上广泛使用。

YUV用于采集与编码。

YUV
- Y：亮度/灰阶
- U：色调/色度
- V：饱和度/浓度
\(YP_bP_r\)，模拟份量信号/接口
- P：Paralle，并行
- b下标：蓝
- r下标：红
\(YC_bC_r\)，数字分量信号/接口
- C，Chroma：色度
- \(YC_bC_r\)还可指色彩空间，\(YC_bC_r\)色彩空间是YUV色彩空间的缩放和偏移版本。

YUV 在对照片或影片编码时，考虑到人类的感知能力，允许降低色度的带宽。YUV可以通过抛弃色差来进行带宽优化。比如yuv420格式图像相比RGB来说，要节省一半的字节大小，抛弃相邻的色差对于人眼来说，差别不大。

YUV颜色空间和RGB颜色空间可以根据公式相互转换。凡是渲染到屏幕上的东西，都要转换为RGB形式。

标清电视使用标准BT.601： \[ {\left[\begin{array}{l} Y' \\ U \\ V \end{array}\right]\\ = \left[\begin{array}{ccc} 0.299 & 0.587 & 0.114 \\ -0.14713 & -0.28886 & 0.436 \\ 0.615 & -0.51499 & -0.10001 \end{array}\right] \left[\begin{array}{l} R \\ G \\ B \end{array}\right]} \]

\[ {\left[\begin{array}{l} R \\ G \\ B \end{array}\right]\\ = \left[\begin{array}{ccc} 1 & 0 & 1.13983 \\ 1 & -0.39465 & -0.58060 \\ 1 & 2.03211 & 0 \end{array}\right]\\ \left[\begin{array}{l} Y' \\ U \\ V \end{array}\right]} \]

高清电视使用标准BT.709： \[ {\left[\begin{array}{l} Y^{\prime} \\ U \\ V \end{array}\right]=\left[\begin{array}{ccc} 0.2126 & 0.7152 & 0.0722 \\ -0.09991 & -0.33609 & 0.436 \\ 0.615 & -0.55861 & -0.05639 \end{array}\right]\left[\begin{array}{l} R \\ G \\ B \end{array}\right]} \]

\[ {\left[\begin{array}{l} R \\ G \\ B \end{array}\right]=\left[\begin{array}{ccc} 1 & 0 & 1.28033 \\ 1 & -0.21482 & -0.38059 \\ 1 & 2.12798 & 0 \end{array}\right]\left[\begin{array}{l} Y^{\prime} \\ U \\ V \end{array}\right]} \]

对于iOS采集的CMSampleBufferRef，调用CVBufferGetAttachment获取YCbCrMatrix，决定使用BT.601还是BT.709。

采样方式

YUV相比于RGB格式最大的好处是可以做到在保持图像质量降低不明显的前提下，减小文件大小。YUV格式之所以能够做到，是因为进行了采样操作。

YUV图像存储模式与采样方式密切相关。主流的采样方式有三种，YUV4:4:4(YUV444)、YUV4:2:2(YUV422)、YUV4:2:0(YUV420)（所有设备都支持）。这些采样方式，不压缩Y分量，对UV分量的压缩程度不同，这是由人眼的特性决定的，人眼对亮度Y更敏感，对色度UV没有那么敏感，压缩UV分量可以降低数据量，但并不会人眼主观感觉造成太大影响。

YUV后面接的数字就是\(Y\)、\(C_b\)、\(C_r\)三个分量的比例。

若以以黑点表示采样该像素点的Y分量，以空心圆圈表示采用该像素点的UV分量，则这三种采样方式如下：

即：

YUV4:4:4采样，每一个Y对应一组UV分量。
YUV4:2:2采样，每两个Y共用一组UV分量。
YUV4:2:0采样，每四个Y共用一组UV分量。

YUV4:4:4

4:4:4，表示完全取样。每个 Y 对应一组 UV 分量。

相邻的4个像素里有4个Y、4个U、4个V。每1个Y使用1组UV分量。如下(每个[]为一个像素点)：

[ Y U V ]  [ Y U V ]  [ Y U V ]  [ Y U V ]
[ Y U V ]  [ Y U V ]  [ Y U V ]  [ Y U V ]
[ Y U V ]  [ Y U V ]  [ Y U V ]  [ Y U V ]
[ Y U V ]  [ Y U V ]  [ Y U V ]  [ Y U V ]

在这种采样方式下，一个像素点包含的完整的信息。

每个像素大小是3字节（24位），与RGB一致。

YUV4:2:2

4:2:2，表示 2:1 水平取样，垂直完全采样。每两个 Y 共用一组 UV 分量。

相邻的4个像素里有4个Y、2个U、2个V。每2个Y共用1组UV分量。平均算来，一个像素占用的数据宽度为16b，其中Y占8b，U占4b，V占4b。后面存储模式命名中的数字16指的就是16b。平均每个像素大小是2字节，比RGB少⅓。

[ Y U ]  [ Y V ]  [ Y U ]  [ Y V ]
[ Y V ]  [ Y U ]  [ Y V ]  [ Y U ]
[ Y U ]  [ Y V ]  [ Y U ]  [ Y V ]
[ Y V ]  [ Y U ]  [ Y V ]  [ Y U ]

在这种采样方式下，还原出一个像素点，需要相邻的两个像素点数据，如下：

[ Y U ]  [ Y V ]

YUV4:2:0

4:2:0，表示 2:1 水平取样，垂直 2:1 采样。

4:1:0并不意味着只有\(Y\)、\(C_b\)两个分量，而没有\(C_r\)分量。实际指的是对每行扫描线来说，只有一中色度分量，相邻的扫描线存储不同的色度分量。

相邻的4个像素里有4个Y、2个U、0个V，或4个Y、2个V，0个U。每4个Y共用1组UV分量。平均算来，一个像素占用的数据宽度为12bit，其中Y占8bit，U占2bit，V占2bit。后面存储模式命名中的数字12指的就是12b。平均每个像素是12b，比RGB少½。

[ Y U ]  [ Y ]  [ Y U ]  [ Y ]
[ Y V ]  [ Y ]  [ Y V ]  [ Y ]
[ Y U ]  [ Y ]  [ Y U ]  [ Y ]
[ Y V ]  [ Y ]  [ Y V ]  [ Y ]

在这种采样方式下，还原出一个像素点，需要相邻的四个像素点数据，如下：

[ Y U ]  [ Y ]
[ Y V ]  [ Y ]

\[ YUV4:2:0 数据量 = Y × 1.5 = RGB ÷ 2 \]

存储格式

在同一采样模式下，根据分量元素排列顺序的不同，又分为不同的存储模式。

packed，紧缩格式（packed formats）：将 Y、U、V 值存储成一个 Macro Pixels 数组，和 RGB 的存放方式类似。
- 内存中排列形式类似：YVYUYVYUYVYUYVYU...。
- 在具体的存储模式命名中，packed格式不带后缀P。
- 适合YUV 4:4:4
planar，平面格式（planar formats）：将 Y、U、V 3个分量分别存放在不同的矩阵中（3个字节数组）。
- 内存中排列形式类似：YYYYYY...，UUUUUU...，VVVVVV...。
- 在具体的存储模式命名中，planar格式带后缀P。
- 适合I420（YUV420p）、YV12（YUV420p）
semi-planar，将Y、U、V三个分量放在2个矩阵(平面)中（2个字节数组）。Y占用一个平面，UV共用一个平面。
内存中排列形式类似：YYYYYY...，UVUVUV...。
- 在具体的存储模式命名中，semi-planar格式带后缀SP。
适合NV12（YUV420sp）、NV21（YUV420sp）

像素格式

YUV422

内存分布：YUYV、YVYU、UYVY、VYUY

这四种格式每一种又可以分为2类（packed和planar），以YUYV为例，一个6*4的图像的存储方式如下：

Y Y Y Y Y Y                   
Y Y Y Y Y Y                  
Y Y Y Y Y Y                   
Y Y Y Y Y Y                    
U U U U U U                  Y U Y V Y U Y V Y U Y V
U U U U U U                  Y U Y V Y U Y V Y U Y V
V V V V V V                  Y U Y V Y U Y V Y U Y V
V V V V V V                  Y U Y V Y U Y V Y U Y V
- Planar -                          - Packed -

YUV420

YUV420p：I420、YV12，planar，分别存储在三个字节数组中。
YUV420sp：NV12、NV21，semi-planar，Y存储在一个数组中，UV存储在一个数组中。

同样，对于一个6*4的图像，这四种像素格式的存储方式如下：

Y Y Y Y Y Y      Y Y Y Y Y Y      Y Y Y Y Y Y      Y Y Y Y Y Y
Y Y Y Y Y Y      Y Y Y Y Y Y      Y Y Y Y Y Y      Y Y Y Y Y Y
Y Y Y Y Y Y      Y Y Y Y Y Y      Y Y Y Y Y Y      Y Y Y Y Y Y
Y Y Y Y Y Y      Y Y Y Y Y Y      Y Y Y Y Y Y      Y Y Y Y Y Y
U U U U U U      V V V V V V      U V U V U V      V U V U V U
V V V V V V      U U U U U U      U V U V U V      V U V U V U
 - I420 -         - YV12 -         - NV12 -         - NV21 -

占用字节数

YUV420图像占用字节数为：

size = width * height + (width * height) / 4 + (width * height) / 4 = width * height * 1.5 // 刚好是 RGB 的一半

RGB格式的图像占用字节数为:

size = width * height * 3

RGBA格式的图像占用字节数为:

size = width * height * 4

YUV数据访问

对于一个YUV格式存放的文件，可以直接读取并分离成Y、U、V各个分量的文件：

// 读取YUV420P的文件，每个Y、U、V值都是用一个字节存储，所以使用刚好是一字节大小的char表示
int yuv_size = w * h * 3 / 2;
unsigned char *pic = (unsigned char *)malloc(yuv_size);
fread(pic, 1, yuv_size, fyuv);

int written_byte, writting_byte = 0;
// Y
writting_byte = w * h;
fwrite(pic + written_byte, 1, writting_byte, fy);
written_byte += writting_byte;
// U
writting_byte = w * h / 4;
fwrite(pic + written_byte, 1, writting_byte, fu);
written_byte += writting_byte;
// V
writting_byte = w * h / 4;
fwrite(pic + written_byte, 1, writting_byte, fv);
written_byte += writting_byte;

// 对于YUV444P的分离也是类似，只是：
// yuv_size = w * h * 3
// writting_byte = w * h

对于YUV格式数据变成灰度图也很简单，只需要把U、V值都置空即可：

// 读取YUV420P的文件
int yuv_size = w * h * 3 / 2;
unsigned char *pic = (unsigned char *)malloc(yuv_size);
fread(pic, 1, yuv_size, fyuv);

// Gray
memset(pic + w * h, 0, w * h / 2);
fwrite(pic, 1, yuv_size, fyuv);

iOS相机支持输出图片格式

420v
- kCVPixelFormatType_420YpCbCr8BiPlanarVideoRange
- 表示输出的视频格式为NV12（YUV420sp）
- 范围：(luma = [16,235], chroma = [16,240])
420f
- kCVPixelFormatType_420YpCbCr8BiPlanarFullRange
- 表示输出的视频格式为NV12（YUV420sp）
- 范围：(luma = [0,255], chroma = [1,255])
BGRA
- kCVPixelFormatType_32BGRA
- 输出的是BGRA的格式

Android从摄像头采集的预览数据一般都是NV21，iOS一般采集的数据都是NV12。

参考资料

https://juejin.im/post/5a572730f265da3e2c3803ad
YUV - Wikipedia
YUV pixel formats

]]> 音视频概念音视频视频压缩技术 /posts/video_compression_technology/ 与音频压缩编码不同，视频的压缩编码基本都是有损压缩。H.264是多种视频压缩技术的集大成者，其使用技术的还要追溯到H.261。

宏块

宏块是视频压缩操作的基本单元。无论是帧内压缩还是帧间压缩，它们都是以宏块为单位。

宏块是按像素进行划分的。宏块划分得小，压缩的控制力就大一些，处理速度也会降下来。

宏块还可以划分为子块。

宏块划分尺寸：

帧内预测

理论基础：

相邻像素差别不大，可以进行宏块预测。宏块与宏块之间进行比较，而不是像素对比。
人对亮度的敏感度超过色度。YUV 很容易将亮度与色度分离。组合上面的点，可以将亮度与色度区分处理。以下的帧内预测，亮度与色度是区分处理的。

H.264将单个宏块内的像素颜色变化规律规范成了公式，编码时只要写此处应用哪个公式就行了。

1. 选择帧内预测模式

帧内预测模式有9种，通过与目标宏块对比选择最适合的模式，将预测的宏块变成预测模式编号。

2. 叠加残差

帧内预测残差值，通过预测出来的与原始图像进行对比得出。

预测模式信息+残差值。预测得出的图像颜色是基于宏块的，平滑度有限，叠加残差值来磨平这些色差。

帧间预测

对每帧图像压缩，压缩比始终有限，因此提出了对一组图片做消除冗余。

把强相关的帧进行分组，形成GOP（Group of Pictures）。
进行运动估计（宏块查找/匹配 -> 运动矢量）。这是一个过程，通过宏块匹配，得出运动矢量，最终存储的是初始状态和运动矢量。
进行运动补偿（解码），补偿的是残差值。

引入基于运动补偿帧间预测算法后，视频中的帧就分为两类：

关键帧：完整的静态图像，可以被直接解码。
预测帧/参考帧：通过运动补偿算法在关键帧之上计算得到。根据帧的依赖方向还可以分为：
- 预测编码图像帧，P帧（Predictive-coded picture）：只能参考前面的关键帧和P帧。
- 双向预测编码图像帧，B帧（Bidirectionally predicted picture）：能参考前后的关键帧和P帧，但不能参考前后的B帧。

进入帧间预测编码的常见问题：

花屏。GOP分组有帧（P、B）丢失，会造成解码端端图像发生错误，出现马赛克。
卡顿。其实是为了避免花屏问题的发生而导致的新的问题，当发现有帧丢失的时候，就丢弃GOP内所有的帧，直到下一个IDR帧重新刷新图像。I帧是按照周期来的，需要一个较长的时间周期才到达下一个I帧。如果在下一个I帧之前不显示后面的图像，视频久静止不动了，出现卡顿。

DCT

DCT，Discrete Cosine Transform，离散余弦变换。帧内编码算法。在图像压缩算法上，H.261使用了DCT算法，把图像从空间域转换到频率域，然后做量化，减少人眼不敏感的高频信息，保留绝大部分低频信息，从而减少图像体积。然后再用高效的数据编码方式把处理后的数据进一步压缩。

DCT将图像分成由不同频率组成的小块，然后进行量化。在量化过程中，舍弃高频分量，剩下的低频分量被保存下来用于后面的图像重建。

DCT具备去相关性和能量集中的特性。DCT本身并不会压缩数据，它为随后的量化之类的操作，提供了一个良好的基础。

DCT在后来的JPEG编码中起主要作用。

CABAC

在编码的最后阶段，即可以去除的冗余信息都去除后，对数据进行无损压缩。H.264除了支持在H.261中就存在的VLC编码外，新增加了两种无损数据压缩编码，一种是VLC的升级版——CAVLC，另一种是复杂程度更高的CABAC（前文参考之适应性二元算术编码，Context-based Adaptive Binary Arithmetic Coding）。

CABAC也是一种熵编码，主要原理也是用长编码替换掉出现频率少的数据，而用短编码替换出现频率高的数据，但它引入了更多统计学优化，并且具有动态适应能力。虽然在解码时需要更多计算，但它能够比CAVLC节省更多的数据量，通常能有10%。

编码树单元

HEVC引入了新的编码树单元（Coding Tree Units）概念，取代掉了存在于视频编码中多年的宏块概念，它的单块面积大了许多，达到了64x64，但仍然保留了可变大小和可分割特性，最小单元为16x16。单个编码树中包含了小的编码单元，它们可以由四分树形式呈现，并很快地可以确定下其中的单元是否可被再分割，内部编码单元最小可以被分割为8x8大小，精细程度仍然是非常高的。

单个编码单元也可以继续被切割、分类，可以成为预测单元（Prediction Units），后者可以指示该单元的预测形式，是画面内预测还是画面间预测或者甚至是根本没有变化、可以被跳过的单元；也可以成为转换单元（Transform Units），它可以做DCT转换或是量化。

编码树单元的引入让HEVC既可以用大面积单元来提高编码效率，也可在需要的时候细化，保留更精细的细节。所谓该粗略的地方就粗略，该精细的地方就精细，HEVC在它的帮助下让码流的效率更高。

趋势

H.261奠定宏块和帧间预测的基础，H.264/AVC是多种压缩技术的集大成者。HEVC主要是针对高清及超清分辨率视频而开发的，相比起前代AVC，它在低码率时拥有更好的画质表现，同时在面对高分辨率视频时，也能提供超高的压缩比，帮助4K视频塞入蓝光光盘。

H.264编码流程

帧类型分析 -> I帧、P帧、B帧、GOP
划分宏块及其子块
I帧进行帧内预测，最终存储预测模式、残差（去除空间冗余）
1. 选择帧内预测模式
2. 叠加残差
P/B帧进行帧间预测，最终存储帧间预测模式标志位、运动矢量、残差（去除时间冗余）
1. 运动估计：宏块查找、匹配 -> 运动矢量
2. 运动补偿：叠加残差
DCT变换、量化，丢弃高频信息（去除空间冗余）
滤波，通过滤波修正并提升主观质量
熵编码（如：CAVLC、CABAC）压缩最终数据（去除编码冗余）

参考

]]> 音视频概念音视频 H.264/MPEG-4 AVC /posts/h264/ H.264（MPEG-4 Part 10， Advanced Video Coding），缩写为 MPEG-4 AVC。是一种面向块，基于运动补偿的视频编码标准。

压缩比：对于YUV420的裸流，压缩比约为1/100。

新特性：

多参考帧的运动补偿。可以带来一定的码率降低或者质量提高。
变块尺寸运动补偿。可使用最大 16x16 到最小 4x4 的块来进行运动估计与运动补偿，能够对运动区域进行更精确的分割。
使用六阶数字滤波器来产生二分之一像素的亮度分量预测值，可以较少混叠（Aliasing）并得到更锐化的图像。
灵活的隔行扫描视频编码。
1/4 像素精度的运动补偿，能够提供更高精度的运动块预测。
加权的运动预测。在一些特殊场合，如淡出、淡入等情况提供相当大的编码增益。
等等。。。https://zh.wikipedia.org/wiki/H.264/MPEG-4_AVC

编码原理

对一段变化不大的图像画面，先编码出一个完整的图像帧A，随后的B帧就不编码全部图像，只写入与A帧的差别，然后继续以B的方式编码C帧，这样循环下去得到一段序列。当某幅图像与之前的图像变化很大时，无法参考前面的帧来生成，就结束上一个序列，开始下一段序列的生成。

H.264 协议里定义了三种帧：

完整编码的 I 帧；
参考之前的 I 帧只生成的包含差异部分编码的 P 帧；
参考前后的帧编码的 B 帧；

H.264 采用的核心算法是帧内压缩和帧间压缩，帧内压缩是生成 I 帧的算法，帧间压缩是生成 B 帧和 P 帧的算法。

GOP序列

提出的意义：按照相关性进行分组便于进行帧间压缩。这样分组的一组图像差别较少，去除的冗余/重复数据就多，压缩比就高。

H.264 中以图像序列为单位进行组织，一个序列是一段图像编码后的数据流，从 I 帧开始，到下一个 I 帧结束。

序列的第一个图像叫 IDR 图像（立即刷新图像），IDR 图像都是 I 帧图像。当遇到 IDR 图像时，立即将参考帧队列清空，将已解码的数据全部输出或抛弃，重新查找参数集，开始一个新的序列。这样在前一个序列出现重大错误时，可以获得重新同步的机会。

一个序列就是一段内容差异不太大的图像编码后生成的一串数据流。当运动变化较少时，一个序列可以很长，所以就可以编一个 I 帧，让后一直 P 帧、B 帧了。当运动变化较多时，一个序列就可能比较短了。

GOP（Group Of Pictures，图像组）是一组连续的图像，由一个I帧和多个B/P帧组成，是编解码器存取的基本单位。GOP 中帧与帧之间的差别较小。

GOP结构常用的两个参数M和N，M指定GOP中首个P帧和I帧之间的距离，N指定一个GOP的大小。例如M=1，N=15，GOP结构为：

\[ IPBBPBBPBBPBBPB \]

GOP分两种：闭合式GOP和开放式GOP：

闭合式 GOP：闭合式GOP只需要参考本GOP内的图像即可，不需参考前后GOP的数据。这种模式决定了，闭合式GOP的显示顺序总是以I帧开始以P帧结束。
开发式 GOP：开放式GOP中的B帧解码时可能要用到其前一个GOP或后一个GOP的某些帧。码流里面包含B帧的时候才会出现开放式GOP。

如图特征，开发式GOP末尾是B帧，闭合式GOP末尾是P帧。但不管如果要称为GOP，首帧必须是I帧。

开放式GOP和闭合式GOP中I帧、P帧、B帧的依赖关系如下图所示：

GOP 指两个 I 帧之间的距离。参考周期（Reference）指两个 P 帧之间中距离。I、B、P 帧所占字节数大小：I > P > B。

所以在码率不变的前提下，GOP 值越大，P、B 帧的数量会越多，平均每个 I、P、B 帧所占的字节数就越多，也就容易获得较好的图像质量。通过提高 GOP 值来提高图像质量是有限度的，在遇到场景切换的情况下，编码器会自动强制插入一个 I 帧，此时实际的 GOP 值被缩短。另一方面，在一个 GOP 中，P 帧由 I 帧预测得到的，当 I 帧的图像质量比较差时，会影响一个 GOP 中后续 P、B 帧的图像质量。直到下一个 GOP 开始才有可能得到恢复，所以 GOP 值也不宜设置过大。

同时，由于 P、B 帧的复杂度大于 I 帧，所以过多的 P、B 帧会影响编码效率，使得编码效率降低。另外，过长的 GOP 还会影响 seek 操作的响应速度，因为 P、B 帧是由前面的 I 或 P 帧预测得到的，所以 seek 操作需要直接定位、解码某一个 P 或 B 帧时，需要先解码得到本 GOP 内的 I 帧及之前的 N 个预测帧才可以，GOP 值越长，需要解码的预测帧就越多，seek 响应的时间也就越长。

帧

I 帧

Intra-coded picture，帧内编码图像帧，常称为关键帧。

不参考其他图像帧，只利用本帧信息进行编码。包含一幅完整的图像信息，属于帧内编码图像，不含运动矢量，在解码时不需要参考其他帧图像。因此在I帧图像处可以切换频道，而不会导致图像丢失或无法解码。I帧图像用于阻止误差的累积和扩散。在闭合式GOP中，每个GOP的第一个帧一定是I帧（IDR帧），且当前GOP的数据不会参考前后GOP的数据。

IDR 帧

Instantaneous Decoding Refresh picture，即时解码刷新帧，是一种特殊的I帧。当解码器解码到IDR帧时，会将DPB（Decoded Picture Buffer，指前后向参考帧列表）清空，将已解码的数据全部输出或抛弃，然后开始一次全新的解码序列。IDR帧之后的图像不会参考IDR帧之前的图像。

在编码解码中为了方便，将GOP中首个I帧要和其他I帧区别开，把第一个I帧叫IDR，这样方便控制编码和解码流程，所以IDR帧一定是I帧，但I帧不一定是IDR帧；IDR帧的作用是立刻刷新，使错误不致传播，从IDR帧开始算新的序列开始编码。I帧有被跨帧参考的可能，IDR不会。

I帧不用参考任何帧，但是之后的P帧和B帧是有可能参考这个I帧之前的帧的。IDR就不允许这样，例如：

IDR1 P4 B2 B3 P7 B5 B6 I10 B8 B9 P13 B11 B12 P16 B14 B15
这里的B8可以跨过I10去参考P7
IDR1 P4 B2 B3 P7 B5 B6 IDR8 P11 B9 B10 P14 B11 B12
这里的B9就只能参照IDR8和P11，不可以参考IDR8前面的帧

总结：

解码器立即刷新，清空参考帧缓冲区（DPB），防止错误传播。
GOP第一帧是IDR帧，是特殊的I帧。
GOP只有一个IDR帧，但可能还有多个I帧。
IDR帧之后的图像不会参考其之前的帧，但普通I帧就没有这个限制。

P 帧

Predictive-coded picture，预测编码图像帧，帧间编码帧。

利用之前的 I 帧或 P 帧，采用运动预测的方式进行预测编码。不会参考B帧。

P 帧属于前向预测的帧间编码，只参考最靠近它的 I 帧或 P 帧。它只占 I 帧大小的一半。
P 帧可以作为后面 P 帧的参考帧，也可以作为其前后的 B 帧的参考帧。

B 帧

Bidirectionally predicted picture，双向预测编码图像帧，帧间编码帧。

提供最高的压缩比，她既需要之前的图像帧（I 帧或 P 帧），也需要后来的图像帧（P 帧），采用运动预测的方式进行帧间双向预测编码。不会参考附近的 B 帧。

占 I 帧的 1/4 大小，压缩比最大，但解码的时候占用资源和耗时也是最大的。在实时通信中较少使用 B 帧，点播、存储的视频则可以较多地使用 B 帧。

B 帧值反映两参考帧间运动主体的变化情况，预测比较准确。
B 帧会比附近的 P 帧后解码，即先解码附近的帧才能解码当前B帧。

帧与分组的关系

箭头指向的帧参考箭头起点的帧。解码 B 帧需要解码参考的前后帧。解码的顺序与播放的顺序是不一致的，因此就有了下面的话题。

SPS、PPS

SPS、PPS 不称为帧，只是在 IDR 帧前的参数数据，这两个信息一般同时出现。

SPS，Sequence Parameter Set，序列参数集
- 作用于一串连续的视频图像，对帧组 GOP 的参数设置。
- 如：seq_parameter_set_id、帧数、POC（picture order count）的约束、参考帧数量、解码图像尺寸、场编码模式选择标志等。
PPS，Picture Parameter Set，图像参数集
- 作用于视频序列中的图像，GOP 中每一幅图像等参数设置。
- 如：pic_parameter_set_id、熵编码模式选择标志、片组数目、初始量化参数、去方块滤波系数调整标志等。

SPS

H264 Profile：对视频压缩特性的描述，profile 越高，说明采用了越高级的压缩特性，对应的压缩比也越高。
H264 Level：对视频规格的描述，level 越高，视频的码率、分辨率、帧率越高。

H264 Profile：

如上图，从Constrained Baseline Profile为核心发展出两个方向的分支，一个是Main Profile；另一个是Baseline Profile和Extended Profile。Main比Constrained Baseline压缩比高（有B帧和更高压缩比的CABAC无损压缩算法）。我们用得更多的是Main Profile方向的分支，下面是该分支的发展的具体Profile。

High应该是压缩比最高的profile，后面不断增加的是质量方面的特性。

H264 Level：

其他重要参数：

分辨率相关参数：

pic_width_in_mbs_minus1：图像宽度包含的宏块个数-1（这里好获取具体宽度还要获取宏块宽度，默认是16）
pic_height_in_mbs_minus1：图像高度包含的宏块个数-1
frame_mbs_only_flag：帧编码还是场编码（场是隔行扫描，产生两张图，该参数会影响分辨率的计算）
frame_cropping_flag：图像是否需要裁剪（有裁剪的，还要减去裁剪的尺寸）
- frame_crop_left_offset：减去左侧的偏移量
- frame_crop_right_offset：减去右侧的偏移量
- frame_crop_top_offset：减去顶部的偏移量
- frame_crop_bottom_offset：减去底部的偏移量

通过 pic_width_in_mbs_minus1、pic_height_in_mbs_minus1、宏块宽高（默认 16x16）以及考虑 frame_mbs_only_flag、frame_cropping_flag，可以得出分辨率。

GOP帧信息参数：

log2_max_frame_num_minus4：可得出GOP的最大帧数：2的该值次方+4。
- 可通过该值与 slice header 的 frame_num，得出被解码的帧的序号。
max_num_ref_frames：参考帧的数量。
- 用于设置解码时候的缓冲队列大小。
pic_order_cnt_type：显示帧的序号类型。
- 通过计算可得出显示的顺序。

帧率计算：

framerate = (float)(sps->vui.vui_time_scale) /
            (float)(sps->vui.vui_num_units_in_tick) /
            2.0

PPS

entropy_coding_mode_flag：熵编码类型，1表示使用 CABAC，0则为CAVLC。
num_slice_groups_minus1：分片数量。
weighted_pred_flag：在 P/SP Slice 中是否开启权重预测。
weighted_bipred_idc：在 B Slice 中加权预测的方法类型。
pic_init_qp_minus26/pic_init_qs_minus26：初始化量化参数，实际参数在 Slice Header 中。
chroma_qp_index_offset：用于计算色度的量化参数。
deblocking_filter_control_present_flag：表示 Slice Header 中是否存在去块滤波器控制的信息。
constrained_intra_pred_flag：若为1，表示 I 宏块在进行帧内预测时只能使用来自 I 和 SI 类型的宏块的信息。
redundant_pic_cnt_present_flag：用于表示 Slice Header 中是否存在 redundant_pic_cnt 语法元素。

Slice Header

帧类型
GOP中解码帧序号（当有 B 帧的时候，并不是顺序解码的）
预测权重
滤波

DTS、PTS

DTS（Decode Time Stamp，解码时间戳）：表示packet的解码时间，主要用于视频的编码，在编码阶段使用。主要标识内存的包什么时候送入解码器中解码。解码阶段使用。
PTS（Presentation Time Stamp，显示时间戳）：表示packet解码后数据的显示时间，主要用于视频的同步和输出。显示阶段使用。

音频中DTS和PTS是相同的。视频中由于B帧需要双向预测，B帧依赖于其前和其后的帧，因此含B帧的视频解码顺序与显示顺序不同，即DTS与PTS不同。当然，不含B帧的视频，其DTS和PTS是相同的。下图以一个开放式GOP示意图为例，说明视频流的解码顺序和显示顺序。

采集顺序：指图像传感器采集原始信号得到图像帧的顺序。
编码顺序：指编码器编码后图像帧的顺序。存储到磁盘的本地视频文件中图像帧的顺序与编码顺序相同。
传输顺序：指编码后的流在网络中传输过程中图像帧的顺序。
解码顺序：指解码器解码图像帧的顺序。
显示顺序：指图像帧在显示器上显示的顺序。

采集顺序与显示顺序相同。编码顺序、传输顺序和解码顺序相同。

图中“B[1]”帧依赖于“I[0]”帧和“P[3]”帧，因此“P[3]”帧必须比“B[1]”帧先解码。这就导致了解码顺序和显示顺序的不一致，后显示的帧需要先解码。

可见，在没有B帧的时候，DTS和PTS是是一致的。

码流

H.264原始码流（裸流）是由一个接一个NALU组成。

按其功能可能将其分层：

VCL层，Video Coding Layer，视频数据编码层。
- 保存视频压缩后的数据。
NAL层，Network Abstraction Layer，视频数据网络抽象层，最外层。
- 对VCL视频编码层数据拆成多个包传输，并提供header等信息。
- 为解决网络传输中丢包、乱序、重传问题提供标记。

NAL Unit

码流的总体结构：

Annexb 格式用于文件存储、本地播放，是在NALU前面增加了StartCode。
RTP 格式用于网络传播，直接就是传输NALU。

NALU有两种格式：

Annex B/Elementary Stream：以0x00_00_01或0x00_00_00_01开头。
AVCC/MPEG-4：以所在NALU长度开头。

宏块存储数据：

mb_type：宏块类型
mb_pred：预测类型值
coded residual，残差值

宏块与帧的关系：

1片 = N宏块
1帧 = N片
常常一个NALU只包含1个片

片的出现：设置片的目的是为了限制误码的扩散和传输，让编码片之间相互独立，如某片的预测不能以其他片中的宏块为参考图像，以防止某片中的预测错误传播到其他片中。

层级划分：

VCL结构关系：

其中，SPS、PPS不是VCL产生的，但以NALU传输，对于正确解码非常重要。可以通过独立的服务来发送参数集。

分析工具

Elecard Stream Eye
- https://www.elecard.com/products/video-analysis
CodecVisa
雷神开发的工具
- https://jaist.dl.sourceforge/project/h254streamanalysis/binary/SpecialVH264.exe
- https://sourceforge.net/projects/videoeye/files/

]]> 音视频概念音视频 AVC Profile & Level /posts/avc_profile_and_level/ AVC Profile

The standard defines several sets of capabilities, which are referred to as profiles, targeting specific classes of applications. These are declared using a profile code (profile_idc) and sometimes a set of additional constraints applied in the encoder. The profile code and indicated constraints allow a decoder to recognize the requirements for decoding that specific bitstream. (And in many system environments, only one or two profiles are allowed to be used, so decoders in those environments do not need to be concerned with recognizing the less commonly used profiles.) By far the most commonly used profile is the High Profile.

针对特定类别的应用程序，标准定义了几组功能，称为配置文件（profile）。这些功能是用一个配置文件代码（profile_idc）来声明的，有时还在编码器中应用一组额外的约束。配置文件代码和指定的约束条件允许解码器识别解码该特定比特流的要求。在许多系统环境中，只允许使用一个或两个配置文件，所以这些环境中的解码器不需要关注识别不太常用的配置文件）。到目前为止，最常用的配置文件是High Profile。

Profiles for non-scalable 2D video applications include the following:

用于非可扩展的二维视频应用的配置文件包括以下内容。

Constrained Baseline Profile (CBP, 66 with constraint set 1)

Primarily for low-cost applications, this profile is most typically used in videoconferencing and mobile applications. It corresponds to the subset of features that are in common between the Baseline, Main, and High Profiles.

主要用于低能耗的应用，这个配置文件最典型的应用场景是视频会议和移动应用。它对应于Baseline、Main和High配置文件之间的共同特征子集。

Baseline Profile (BP, 66)

Primarily for low-cost applications that require additional data loss robustness, this profile is used in some videoconferencing and mobile applications. This profile includes all features that are supported in the Constrained Baseline Profile, plus three additional features that can be used for loss robustness (or for other purposes such as low-delay multi-point video stream compositing). The importance of this profile has faded somewhat since the definition of the Constrained Baseline Profile in 2009. All Constrained Baseline Profile bitstreams are also considered to be Baseline Profile bitstreams, as these two profiles share the same profile identifier code value.

主要用于需要额外数据损失稳健性的低能耗应用，该配置文件用于一些视频会议和移动应用。该配置文件包括Constrained Baseline Profile中支持的所有功能，加上三个额外的功能，可用于损失稳健性（或用于其他目的，如低延迟多点视频流合成）。自2009年定义约束基线配置文件以来，该配置文件的重要性已有所淡化。所有受限基线配置文件的比特流也被认为是基线配置文件的比特流，因为这两个配置文件共享相同的配置文件标识码值。

Extended Profile (XP, 88)

Intended as the streaming video profile, this profile has relatively high compression capability and some extra tricks for robustness to data losses and server stream switching.

作为流媒体视频配置文件，该配置文件具有相对较高的压缩能力和一些额外的技巧，以增强对数据损失和服务器流切换的稳定性。

Main Profile (MP, 77)

This profile is used for standard-definition digital TV broadcasts that use the MPEG-4 format as defined in the DVB standard.[49] It is not, however, used for high-definition television broadcasts, as the importance of this profile faded when the High Profile was developed in 2004 for that application.

这个配置文件用于使用DVB标准中定义的MPEG-4格式的标清数字电视广播。然而，它不用于高清电视广播，因为当2004年为该应用开发出High Profile时，这个配置文件的重要性就消失了。

High Profile (HiP, 100)

The primary profile for broadcast and disc storage applications, particularly for high-definition television applications (for example, this is the profile adopted by the Blu-ray Disc storage format and the DVB HDTV broadcast service).

广播和光盘存储应用的主要配置文件，特别是高清电视应用（例如，这是蓝光光盘存储格式和DVB高清广播服务采用的配置文件）。

Progressive High Profile (PHiP, 100 with constraint set 4)

Similar to the High profile, but without support of field coding features.

类似于High profile，但不支持现场编码功能。

Constrained High Profile (100 with constraint set 4 and 5)

Similar to the Progressive High profile, but without support of B (bi-predictive) slices.

类似于Progressive High profile，但不支持B（双预测）切片。

High 10 Profile (Hi10P, 110)

Going beyond typical mainstream consumer product capabilities, this profile builds on top of the High Profile, adding support for up to 10 bits per sample of decoded picture precision.

超越了典型的主流消费产品的能力，这个配置文件建立在高配置文件的基础上，增加了对每个样本高达10比特的解码图像精度的支持。

High 4:2:2 Profile (Hi422P, 122)

Primarily targeting professional applications that use interlaced video, this profile builds on top of the High 10 Profile, adding support for the 4:2:2 chroma sampling format while using up to 10 bits per sample of decoded picture precision.

主要针对使用隔行扫描视频的专业应用，该配置文件建立在High 10 Profile的基础上，增加了对4:2:2色度采样格式的支持，同时使用高达10比特/采样的解码图像精度。

High 4:4:4 Predictive Profile (Hi444PP, 244)

This profile builds on top of the High 4:2:2 Profile, supporting up to 4:4:4 chroma sampling, up to 14 bits per sample, and additionally supporting efficient lossless region coding and the coding of each picture as three separate color planes.

这个配置文件建立在High 4:2:2 Profile的基础上，支持高达4:4:4的色度采样，每个采样高达14比特，另外还支持高效的无损区域编码和每个图片作为三个独立的颜色平面的编码。

For camcorders, editing, and professional applications, the standard contains four additional Intra-frame-only profiles, which are defined as simple subsets of other corresponding profiles. These are mostly for professional (e.g., camera and editing system) applications:

对于摄像机、编辑和专业应用，该标准包含四个额外的全I帧的配置文件，它们被定义为其他相应配置文件的简单子集。这些主要是针对专业（如摄像机和编辑系统）应用：

High 10 Intra Profile (110 with constraint set 3)

The High 10 Profile constrained to all-Intra use.

被约束为全I帧的High 10 Profile。

High 4:2:2 Intra Profile (122 with constraint set 3)

The High 4:2:2 Profile constrained to all-Intra use.

被约束为全I帧的High 4:2:2 Profile。

High 4:4:4 Intra Profile (244 with constraint set 3)

The High 4:4:4 Profile constrained to all-Intra use.

被约束为全I帧的High 4:4:4 Profile。

CAVLC 4:4:4 Intra Profile (44)

The High 4:4:4 Profile constrained to all-Intra use and to CAVLC entropy coding (i.e., not supporting CABAC).

High 4:4:4 Profile限制在所有内部使用和CAVLC熵编码（即，不支持CABAC）。

As a result of the Scalable Video Coding (SVC) extension, the standard contains five additional scalable profiles, which are defined as a combination of a H.264/AVC profile for the base layer (identified by the second word in the scalable profile name) and tools that achieve the scalable extension:

由于可扩展视频编码（SVC）的扩展，该标准包含五个额外的可扩展配置文件，它们被定义为基础层的H.264/AVC配置文件（由可扩展配置文件名称中的第二个字标识）和实现可扩展的工具的组合：

Scalable Baseline Profile (83)

Primarily targeting video conferencing, mobile, and surveillance applications, this profile builds on top of the Constrained Baseline profile to which the base layer (a subset of the bitstream) must conform. For the scalability tools, a subset of the available tools is enabled.

主要针对视频会议、移动和监控应用，该配置文件建立在Constrained Baseline profile之上，基础层（比特流的一个子集）必须符合该配置文件。对于可扩展性工具，启用了可用工具的一个子集。

Scalable Constrained Baseline Profile (83 with constraint set 5)

A subset of the Scalable Baseline Profile intended primarily for real-time communication applications.

Scalable Baseline Profile的一个子集，主要用于实时通信应用。

Scalable High Profile (86)

Primarily targeting broadcast and streaming applications, this profile builds on top of the H.264/AVC High Profile to which the base layer must conform.

主要针对广播和流媒体应用，该配置文件建立在H.264/AVC High Profile之上，基础层必须符合该配置文件。

Scalable Constrained High Profile (86 with constraint set 5)

A subset of the Scalable High Profile intended primarily for real-time communication applications.

Scalable High Profile的一个子集，主要用于实时通信应用。

Scalable High Intra Profile (86 with constraint set 3)

Primarily targeting production applications, this profile is the Scalable High Profile constrained to all-Intra use.

主要针对生产应用，该配置文件是Scalable High Profile，限制为全I帧。

As a result of the Multiview Video Coding (MVC) extension, the standard contains two multiview profiles:

由于多视角视频编码（MVC）的扩展，该标准包含两个多视角配置文件：

Stereo High Profile (128)

This profile targets two-view stereoscopic 3D video and combines the tools of the High profile with the inter-view prediction capabilities of the MVC extension.

该配置文件针对双视角立体3D视频，并结合了High profile的工具和MVC扩展的视角间预测能力。

Multiview High Profile (118)

This profile supports two or more views using both inter-picture (temporal) and MVC inter-view prediction, but does not support field pictures and macroblock-adaptive frame-field coding.

该配置文件支持两个或多个视图，使用帧间（时间）和MVC帧间预测，但不支持场图和宏块自适应帧场编码。

The Multi-resolution Frame-Compatible (MFC) extension added two more profiles:

多分辨率帧兼容（MFC）扩展又增加了两个配置文件：

MFC High Profile (134)

A profile for stereoscopic coding with two-layer resolution enhancement.

用于具有两层分辨率增强的立体编码的配置文件。

MFC Depth High Profile (135)

The 3D-AVC extension added two more profiles:

3D-AVC扩展又增加了两个配置文件：

Multiview Depth High Profile (138)

This profile supports joint coding of depth map and video texture information for improved compression of 3D video content.

该配置文件支持深度图和视频纹理信息的联合编码，以改善3D视频内容的压缩。

Enhanced Multiview Depth High Profile (139)

An enhanced profile for combined multiview coding with depth information.

一个增强的配置文件，用于结合深度信息的多视图编码。

特定配置支持的配置

软件编码器实现

AVC Level

As the term is used in the standard, a "level" is a specified set of constraints that indicate a degree of required decoder performance for a profile. For example, a level of support within a profile specifies the maximum picture resolution, frame rate, and bit rate that a decoder may use. A decoder that conforms to a given level must be able to decode all bitstreams encoded for that level and all lower levels.

正如标准中所使用的术语，level是一组特定的约束条件，表明一个配置文件所要求的解码器性能的程度。例如，一个配置文件中的支持级别规定了解码器可以使用的最大图片分辨率、帧率和比特率。符合某一等级的解码器必须能够解码为该等级和所有更低等级编码的所有比特流。

各Level的最大属性值

]]> 音视频概念音视频视频码率控制 /posts/video_bit_rate_control/ 视频编码过程中，量化（有损压缩）决定了视频的码率，视频码率又一定程度决定了视频的质量。

量化值QP越大则量化的粒度越高，压缩比越大，码率越小，视频质量越低，呈现的画面马赛克较大、模糊不细腻。反之亦然。

选择一个适合场景的视频码控方案很重要，调整视频输出码率就是在视频编码速度、网络带宽以及视频质量之间做平衡。总体来说，选择视频码率控制方案，可通过一下因素权衡得出：

画质，视觉质量稳定性。如清晰度、流畅度、细节等，这与人眼的视觉原理有关，选择人眼主动质量感受最高的模型。
输出码率。要考虑网络带宽因素。
视频文件大小。利于传输、存储，还要看系统的空间大小。
编码速度。不同的码控模型影响了编码速度。

码控因素

GOP长度

Maximun B-frame，最大B帧数量

Reference frame，设定一个P帧所能参考的帧数量，会影响播放相容性。

QP，Constant Quantizer，恒定量化值：控制图像画质，数值越低画质越高。

码控模型

码率控制实际上是一种编码的优化算法，它用于实现对视频流码流大小的控制。目的在于同样的视频编码格式，码流大，它包含的信息也就越多，那么对应的图像也就越清晰，反之亦然。

CQP

固定QP。最简单的码控方式，每帧图像都按照一个特定的QP来编码，每帧编码后的数据量有多大仍是未知的，既不是码率优先模型，也不是质量优先模型。

特点

瞬时码率会随场景复杂度波动。
编码速度快，调控最简单。
x264和x265中支持CQP模式，libvpx不支持。
- H.264中QP范围是[0, 51]。QP值越大表示越大的量化步长，编码视频的质量越低。QP为0表示进行无损编码。

适用场景

一般不建议使用这种方式，因为这没有考虑编码内容的复杂性，用相同的压缩比处理每一帧。出来的视频质量和码率都不固定。适合于非常简单的运动量很小的画面，因为一遇到复杂场景，其码率波动就非常大。

CRF

Constant Rate Factor，恒定码率系数。把某一个“视觉质量”作为输出目标。通过降低那些耗费码率但是又单一用肉眼察觉的帧（高速运动或纹理丰富）的质量，提升那些静态帧码率来达到目的。

帧间QP变化，帧内宏块QP变化，输出码率未知，各帧输出的视觉质量基本恒定，相当于固定质量模式+限制码率峰值的方式。

特点

与恒定QP类似，单追求主观感知的质量恒定，瞬时码率也会随场景复杂度波动，视频帧之间或者内部宏块之间的QP值都不一样。
对于快速运动或细节丰富的场景会适当增大量化失真（因为人眼不敏感）；反之对于静止或平坦区域则减少量化失真。
CRF是x264和x265的默认码率控制方式，也可用于libvpx。
- RF值越大视频压缩比越高，但视频质量越低，各codec的CRF取值范围一般[0-51]，但是一般默认值x264用23，x265默认为28。
- 如果你不确定要使用什么RF，从默认值开始，并根据对输出的主观印象进行更改。如果质量没有足够好则较低的RF。如果文件太大了则选择更高的RF。更改±6会导致码率大小的一半/两倍左右的变化，±1会导致码率10%左右的变化。

适用场景

对视频质量又一定要求的场景。CRF值可以简单理解为对视频质量最期望的一个输出固定值，无论是在运动复杂场景还是在静止简单的场景下，都希望一个稳定的主观视频质量时，选择该模式。该模式时视频质量优先模型。视频质量可简单理解为视频清晰度、像素的细腻程度和视频的流畅度。

CBR

Constant Bit Rate，恒定码率。一定时间范围内码率基本保持恒定，属于码率优先模型。

特定

码率稳定，但质量不稳定。带宽有效利用率不高，特别当该值设置不合理，在复杂运动场景下，画面会非常模糊，非常影响观看体验。
输出视频码率稳定，便于计算视频体积大小。

适用场景

一般也不建议使用这种方式，因为这种模型不考虑视频内容的复杂性，吧所有视频帧都统一对待。但有些编码软件只支持固定质量或固定码率，有时不得不用。使用的时候，在允许的带宽范围内尽可能吧带宽设置大些，以防止复杂场景下视频质量的降低，如果设置不合理，在运动场景下就糊得看不成了。

VBR

Variable Bit Rate，可变码率。

简单场景分配较大QP，复杂场景分配较大QP，得到基本稳定的视频质量。确定时输出码率不可控。

有两种调控模式：

质量优先模式：不考虑视频文件大小，完全按照视频内容复杂度来分配码率，这样视频的播放效果最佳。
二次编码方式，2PASS：第一次编码检测视频内容简单和复杂的部分，同时确定简单和复杂的比例。第二遍编码让视频的平均码率不变，复杂的地方分配更多比特，简单地方分配更少比特。缺点时速度较慢。

特点

码率不稳定，但质量稳定且非常高。
编码速度较慢。点播、下载和存储系统优先使用，不适合低延迟直播系统。
该模型完全不考虑输出视频带宽，为了质量，需要多少码率就占用多少，也不考虑编码速度。

适用场景

适用于那些对带宽和编码速度不太限制，但对视频质量很高要求的场景。特别是在运动复杂场景下也能保持较高的清晰度，且输出质量较稳定。适合延时不敏感的点播、录播或存储系统。

ABR

Average Bit Rate，恒定平均目标码率。

简单场景分配较低码率，复杂场景分配足够码率，使得有限的码率在不同场景下都能合理分配，类似于VBR。同意时间内，平均码率又接近设置的目标码率，这样可以控制输出文件的大小，这又类似于CBR。可以认为是CBR和VBR的折中方案，也是大多人的选择。特别是在对质量和视频带宽都有要求的情况下，可以优先选择该模式。一般速度是VBR的2～3倍，相同体积的视频文件质量却比CBR好得多。

特点

视频质量整体可控，同时兼顾率视频码率和编码速度。
使用过程中一般要设置最低码率、最高码率和平均码率，这些值的设置尽可能合理。

适用场景

ABR在直播和低延时系统使用较多，因为只编码了一次，所以速度快。同时兼顾了视频质量和带宽，对于转码速度有要求的情况下也可能选择该模式。B站大部分视频选择了该模式。

]]> 音视频概念音视频常用视频参数设置（经验值） /posts/common_video_parameter_settings/ 设置视频编码属性

视频属性参考表

视频能否达到 960 × 720 及以上的分辨率还取决于用户的设备。分辨率 1290 × 1080 及以上的视频属性仅适用于 macOS 平台。

分辨率 (宽 × 高)	帧率 (fps)	基准码率 (Kbps，适用于通信)	直播码率 (Kbps，适用于直播)
160 × 120	15	65	130
120 × 120	15	50	100
320 × 180	15	140	280
180 × 180	15	100	200
240 × 180	15	120	240
320 × 240	15	200	400
240 × 240	15	140	280
424 × 240	15	220	440
640 × 360	15	400	800
360 × 360	15	260	520
640 × 360	30	600	1200
360 × 360	30	400	800
480 × 360	15	320	640
480 × 360	30	490	980
640 × 480	15	500	1000
480 × 480	15	400	800
640 × 480	30	750	1500
480 × 480	30	600	1200
848 × 480	15	610	1220
848 × 480	30	930	1860
640 × 480	10	400	800
1280 × 720	15	1130	2260
1280 × 720	30	1710	3420
960 × 720	15	910	1820
960 × 720	30	1380	2760
1920 × 1080	15	2080	4160
1920 × 1080	30	3150	6300
1920 × 1080	60	4780	6500
2560 × 1440	30	4850	6500
2560 × 1440	60	6500	6500
3840 × 2160	30	6500	6500
3840 × 2160	60	6500	6500

常用分辨率、帧率和码率

通常来讲，视频参数的选择要根据产品实际情况来确定，比如，如果一对一，老师和学生的窗口比较大，要求分辨率会高一点，随之帧率和码率也要高一点；如果是一对四，老师和学生的窗口都比较小，分辨率可以低一点，对应的码率帧率也会低一点，以减少编解码的资源消耗和缓解下行带宽压力。一般可按下列场景中的推荐值进行设置。

二人视频通话场景：
- 分辨率 320 x 240、帧率 15 fps、码率 200 Kbps
- 分辨率 640 x 360、帧率 15 fps、码率 400 Kbps
多人视频通话场景：
- 分辨率 160 x 120、帧率 15 fps、码率 65 Kbps
- 分辨率 320 x 180、帧率 15 fps、码率 140 Kbps
- 分辨率 320 x 240、帧率 15 fps、码率 200 Kbps

]]> 音视频概念音视频 x264编码器参数设置 /posts/x264_encoder_parameter_setting/ 参数分类：

预设值
帧相关参数
码流的控制
编码分析
输出

预设值

preset：速度/实时性维度的配置方案
- fast、slow 等
tune：视频质量维度的配置方案。逐级递减。

两者不互斥，tune 参数的优先级在 preset 参数之后，在其他参数之前。

帧相关参数

keyint/min-keyint：GOP 大小，默认是250。
scenecut：判断为场景切换的阈值，为场景切换时插入一个 I 帧。
bframes：B 帧数量，默认设置3。
ref：参考帧数量，决定了解码时候缓冲区的大小。
no-deblock/deblock：是否启用去块化。在编码预测的时候会发生出现块。
no-cabac：是否使用 CABAC 进行熵编码。

流控

qp：量化器等级，比 crf 码流大且与 bitrate/crf 互斥。
bitrate：码流，无法控制质量。
crf：质量等级，默认是23，数值越低越好。
qmin：默认10。
qmax：默认51。
qpstep：两帧之间量化器的最大变化，默认是4。

编码分析

partitions：宏块划分。如：p8x8、b8x8、i8x8、i4x4
me：运动评估算法。如：钻石、六边形等。

输出

sar：宽高比。
fps：帧率。
level：输出等规则。720P等。

参考资料

]]> 音视频概念音视频音视频同步 /posts/audio_and_video_synchronization/ 在短视频与直播APP中，采集端作为音视频的生产者，如果采集端产生的音视频源本身就无法保证同步，那么后面不管经过什么处理，都很难再让用户看到音视频同步的画面了，因此，在采集端保证音视频同步上尤其重要。

基本概念

时间基

时间基是指时间刻度。因为时间信息是以整数存储的，而我们常使用的秒是浮点数，为了存储浮点数则把浮点数使用分数表达。时间基就是其中的分母，时间值是分子，得出浮点型的时间。

分类：

tbr，time base of rate: 通常所说的帧率。
tbn，time base of stream: 视频流的时间基。
tbc，time base of codec: 视频解码的时间基。

不同场景的时间戳对应不同的时间基，对于视频渲染则使用视频流的时间基。

音视频同步方式

视频同步到音频。适用于音频各种参数固定，即其PTS是可以简单计算的，所以很方便地与视频帧的PTS对比进行同步。
音频同步到视频。在音视频流长度不一致时，要考虑对音频进行丢帧和补帧。
音频和视频都同步到系统时钟。

基本思路：

展示第一帧视频帧后，获得要显示的下一个视频帧的PTS；
设置一个定时器；
当定时器超时后刷新新的视频帧。
循环反复。

]]> 音视频概念音视频 CDN网络 /posts/cnd/ CDN（Content Delivery Network），内容分发网络。最初的目的是解决静态页面的加速问题。通过就近接入的方式解决访问网络资源的问题。

电信和联通互相通信的时候会发生主动的丢包。

源节点。源节点直接也有连接，互通资源。
主干节点。连接不同运营商的节点。
边缘节点。离用户最近的节点。边缘节点没有资源的时候，会向源节点获取。

用户通过域名解析，连接到合适的边缘节点。所以用户是通过边缘节点逐步向服务器传递数据。而服务器把数据推送到源节点，然后通过CDN逐步扩散到各个边缘节点。

]]> 音视频概念音视频压缩率和压缩比 /posts/compression_rate_and_compression_ratio/ 在看资料的时候，经常看到压缩率和压缩比这两个术语，仔细一看，发现两者竟然是完全相反的概念，虽然常常看到资料中并没有明确区分。

数据压缩比，data compression ratio。例如：预测帧比关键帧具有更高的压缩比。 \[ {\rm {Compression\;Ratio}}={\frac {\rm {Uncompressed\;Size}}{\rm {Compressed\;Size}}} \] 注意，维基百科中只提到了数据压缩比。

而压缩率是在百度百科中找到的（虽然从翻译角度两者意思似乎一致？）。

压缩率（Compression rate），描述压缩文件的效果名，是文件压缩后的大小与压缩前的大小之比。即：

\[ {\rm {压缩率}}={\frac {\rm {压缩后大小}}{\rm {原始大小}}} \]

刚好相反？！这，怎么使用还得见仁见智吧。。

参考

]]> 音视频概念音视频直播优化 /posts/live_optimization/ 1. 秒开优化

改写播放器逻辑让播放器拿到第一个关键帧后就给予显示。GOP的第一帧通常都是关键帧，由于加载的数据较少，可以达到“首帧秒开”。如果直播服务器支持GOP缓存，意味着播放器在和服务器建立连接后可立即拿到数据，从而省却跨地域和跨运营商的回源传输时间。

GOP体现了关键帧的周期，也就是两个关键帧之间的距离，即一个帧组的最大帧数。假设一个视频的恒定帧率是24fps（即1秒24帧图像），关键帧周期为2s，那么一个GOP就是48张图像。一般而言，每一秒视频至少需要使用一个关键帧。

增加关键帧个数可改善画质（GOP通常为FPS的倍数），但是同时增加了带宽和网络负载。这意味着，客户端播放器下载一个GOP，毕竟该GOP存在一定的数据体积，如果播放端网络不佳，有可能不是能够快速在秒级以内下载完该GOP，进而影响观感体验。

2. 马赛克、卡顿

如果GOP分组中的P帧丢失会造成解码端的图像发生错误,其实这个错误表现出来的就是马赛克。因为中间连续的运动信息丢失了，H.264在解码的时候会根据前面的参考帧来补齐，但是补齐的并不是真正的运动变化后的数据，这样就会出现颜色色差的问题，这就是所谓的马赛克现象，如图：

这种现象不是我们想看到的。为了避免这类问题的发生，一般如果发现P帧或者I帧丢失，就不显示本GOP内的所有帧，直到下一个I帧来后重新刷新图像。但是I帧是按照帧周期来的，需要一个比较长的时间周期，如果在下一个I帧来之前不显示后来的图像，那么视频就静止不动了，这就是出现了所谓的卡顿现象。如果连续丢失的视频帧太多造成解码器无帧可解，也会造成严重的卡顿现象。视频解码端的卡顿现象和马赛克现象都是因为丢帧引起的，最好的办法就是让帧尽量不丢。

3. 传输协议优化

在服务端节点和节点之间尽量使用 RTMP 而非基于 HTTP 的 HLS 协议进行传输，这样可以降低整体的传输延迟。这个主要针对终端用户使用 HLS 进行播放的情况。
如果终端用户使用 RTMP 来播放，尽量在靠近推流端的收流节点进行转码，这样传输的视频流比原始视频流更小。
如果有必要，可以使用定制的 UDP 协议来替换 TCP 协议，省去弱网环节下的丢包重传可以降低延迟。它的主要缺点在于，基于 UDP 协议进行定制的协议的视频流的传输和分发不够通用，CDN 厂商支持的是标准的传输协议。另一个缺点在于可能出现丢包导致的花屏或者模糊（缺少关键帧的解码参考），这就要求协议定制方在 UDP 基础之上做好丢包控制。

4. 传输网络优化

在服务端节点中缓存当前 GOP，配合播放器端优化视频首开时间。
服务端实时记录每个视频流流向每个环节时的秒级帧率和码率，实时监控码率和帧率的波动。
客户端（推流和播放）通过查询服务端准实时获取当前最优节点（5 秒一次），准实时下线当前故障节点和线路。

5. 推流、播放优化

考察发送端系统自带的网络 buffer 大小，系统可能在发送数据之前缓存数据，这个参数的调优也需要找到一个平衡点。
播放端缓存控制对于视频的首开延迟也有较大影响，如果仅优化首开延迟，可以在 0 缓存情况下在数据到达的时候立即解码。但如果在弱网环境下为了消除网络抖动造成的影响，设置一定的缓存也有必要，因此需要在直播的稳定性和首开延迟优化上找到平衡，调整优化缓冲区大小这个值。
播放端动态 buffer 策略，这是上面播放端缓存控制的改进版本。如果只是做 0 缓存和固定大小的缓存之间进行选择找到平衡，最终还是会选择一个固定大小的缓存，这对亿级的移动互联网终端用户来说并不公平，他们不同的网络状况决定了这个固定大小的缓存并不完全合适。因此，我们可以考虑一种「动态 buffer 策略」，在播放器开启的时候采用非常小甚至 0 缓存的策略，通过对下载首片视频的耗时来决定下一个时间片的缓存大小，同时在播放过程中实时监测当前网络，实时调整播放过程中缓存的大小。这样即可做到极低的首开时间，又可能够尽量消除网络抖动造成的影响。
动态码率播放策略。除了动态调整 buffer 大小的策略之外，也可以利用实时监测的网络信息来动态调整播放过程中的码率，在网络带宽不足的情况下降低码率进行播放，减少延迟。

]]> 音视频概念音视频 FFmpeg基本概念 /posts/ffmpeg_basic/ 模块结构

libavformat：实现在流协议，容器格式及其本地IO访问。多媒体格式解析、解封装、封装。
libavutil：简化编程的工具函数库。包括随机数生成器，数据结构，数学函数，多媒体核心工具函数等等。
libavcodec：各种编解码器的封装。自身不做编解码，编解码器是通过插件插入的。
libavdevice：输入/输出设备接口封装。
libavfilter：音视频的后期处理。
libswresample：实现混音和重采样。
libswscale：用于执行高性能的图像缩放，颜色空间或像素格式转换的库。

FFmpeg处理音视频流程

flowchart LR
输入文件
--demuxer-->编码数据包0
--decoder-->解码后数据帧
--encoder-->编码数据包1
--muxer-->输出文件

分解器把输入的文件（一般为容器媒体），分解为多路流，这些流都是编码数据包。把编码数据包传给解码器（如果选择流拷贝则跳过），解码器产生未压缩的帧（原始视频、PCM音频等）。通过滤镜进一步处理。然后帧被传递到编码器，编码然后输出编码数据包。最后，这些数据传给复用器，把编码的数据写入输出文件。

处理流数据的基本步骤：

flowchart LR
解复用 --> 获取流 --> 读数据包 --> 释放资源

]]> FFmpeg 音视频 FFmpeg常用命令 /posts/ffmpeg_command/ 下载已编译的静态库：https://evermeet.cx/ffmpeg/

命令分类

基本信息查询
录制
分解、复用
处理原始数据
裁剪与合并
图片/视频互转
直播
滤镜

基本信息查询

版本信息：

-version

支持的分解、复用：

-demuxers
-muxers

支持的设备：

-devices

支持的（libavcodec已知的）编解码器：

-codecs
-decoders
-encoders

libavfilter支持的码流滤镜：

-bsfs

支持的格式：

-formats，支持的文件格式
-protocols，网络协议
-pix_fmts，像素格式
-sample_fmts，采样格式
-layouts，声道布局

支持的滤镜：

-filters

支持的颜色名称：

-colors

命令基本格式与参数

ffmpeg命令基本格式：

ffmpeg [全局参数] {[输入文件参数] -i 输入文件URL} ...\
       {[输出文件参数] 输出文件URL} ...

默认情况下，FFmpeg只包含输入文件中每种媒体类型（音频、视频、字幕）的一个流，并将其添加到每个输出文件中。它根据一下规则选择每种媒体类型中的流：

视频，选择最高分辨率的流。
音频，选择声道最多的流。
字幕，选择第一个流。

当然上述规则相等，则优先选取最低索引值的流。

可以通过-vn、-an、-sn、-dn来禁用某些媒体类型。要进行全面的手动控制，则使用-map选项。

ffmpeg通过-i选项读取任意数量的输入（可以是文件、管道、网络流、抓取设备等），并写入任意数量的输出。原则上，每个输入/输出都可以包含任意数量的不同类型的媒体流（视频、音频、字幕、附件/数据）。流的数量和/或类型是由容器格式来限制，选择从哪个输入进来到哪个输出将自动完成，如需控制则使用-map选项。

要引用选项中的输入，必须使用索引（从0开始）。例如，第一个输入是0。文件中的媒体流也可以通过索引引用，如2:3是指第三个输入中的第四个流。

主要参数

-f fmt，输入/输出强制的文件格式。格式通常可以通过扩展名中猜测出来，因此不常使用。
-i url，输入URL。
-y，全局参数，覆盖输出文件而不询问。
-n，全局参数，不覆盖输出文件，如果存在指定文件则退出。
-c [:stream_specifier] codec、-codec [:stream_specifier] codec，输入、输出、单个流，选择一个解码器（在输入文件之前使用）或编码器（在输出文件前使用），可用于一个或多个流。传递编码器名称或copy（仅输出）表示不重新编码。
-t duration，输入、输出，当用作输入选项（在-i之前），表示限制从输入文件读取的数据的时长；当用作输出选项时（在输出url之前），表示在到达时长之后停止输出。
-ss position，输入、输出，当用作输入选项（在-i之前），表示在输入文件中寻找位置。注意，在大多数格式中，不可能精确搜索，因此ffmpeg将在位置之前寻找最近的点。当转码和-accureate_seek被启用时（默认），搜索点和指定的位置之间的额外分段将被解码和丢弃。当进行流式复制或使用-noaccureate_seek时，它将被保留。当用作输出选项（在输出url之前），解码但丢弃输入，知道时间戳到达指定的位置。
frames [:stream_specifier] framecount，输出、单个流，停止在给定帧数量后写入流。
filter [:stream_specifier] filtergraph，输出、单个流，创建由filtergraph指定的滤镜链图，并将其进行处理流。filtergraph的流必须具有相同类型的单个输入和单个输出。在filtergraph中，输入与标签相关联，标签与输出相关联。

视频参数

-vframes num，输出，设置要输出的视频帧数量。
-r [:stream_specifier] fps，输入、输出、单个流，设置帧率（单位Hz）。
- 作为输入选项，忽略存储文件中的让和时间戳，根据速率生成新的时间戳。这与用于-framerate选项不同（旧版是相同的）。
- 作为输出选项，复制或丢弃输入帧以实现很定输出帧率。
-s [:stream_specifier] size，输入、输出、单个流，设置窗口大小。
- 作为输入选项，与video_size相同，由某些分帧器识别，其帧尺寸未存储在文件中。
- 作为输出选项，这将会把缩放视频滤镜传输到相应的滤镜链图末尾。请直接使用比例滤镜插入滤镜链图开头或其他地方。格式是宽x高。
-aspect [:stream_specifier] ratio，输出、单个流，指定视频的宽高比。值可以是浮点数字也可以是w:h字符串，如4:3、16:9。如果与-vcodec副本一起使用，会影响存储在容器级别的宽高比，但不会影响存储在编码帧中的宽高比（如果存在的话）。
-vn，输出，禁用视频轨道。
-vf filtergraph，输出，创建由filtergraph指定的滤镜链图，并使用它来处理流。

音频参数

-aframes num，输出，设置输出音频的帧数。
-ar [:stream_specifier] freq，输入、输出、单个流，设置音频采样率。对于输入流，默认设置为输入流的采样率。对于输出流，该选项仅适用于音频设备采集和原始分路器，并映射到相应的分路器选件。
-an，输出，禁用音频轨道。
-acodec name，输入、输出，设置音频编解码器。
-sample_fmt [:stream_specifier] fmt，输出、单个流，设置音频采样格式。使用-sample_fmts可以获得支持的采样格式列表。
-af filtergraph，输出，创建由filtergraph指定的滤镜链图，并用它来处理音频。

录制

录制屏幕：

# 录制纯视频
ffmpeg -f avfoundation -i 1 -r 30 out.yuv
# 播放纯视频
ffplay -s 3360x2100 -pix_fmt uyvy422 out.yuv

# 录制音视频
ffmpeg -f avfoundation -i 1:0 -r 29.97 
       -c:v libx264 -crf 0
       -c:a libfdk_aac -profile:a aac_he_v2 -b:a 32k
       out.flv

-f，指定使用avfoundation进行采集。
-i，指定输入索引。
-r，指定帧率。
-crf，x264参数，0表示无损压缩。
-b:a，指定音频码率。

录制后，会输出录制的格式，后面进行播放要传入这些信息才能正确播放。

列出支持的设备：

ffmpeg -f avfoundation -list_devices true -i ""
[AVFoundation indev @ 0x7fa856d0c600] AVFoundation video devices:
[AVFoundation indev @ 0x7fa856d0c600] [0] FaceTime高清摄像头（内建）
[AVFoundation indev @ 0x7fa856d0c600] [1] Capture screen 0
[AVFoundation indev @ 0x7fa856d0c600] [2] Capture screen 1
[AVFoundation indev @ 0x7fa856d0c600] AVFoundation audio devices:
[AVFoundation indev @ 0x7fa856d0c600] [0] Built-in Microphone

摄像头录制：

ffmpeg -framerate 30 -f avfoundation -i 0:0 out.mp4

录制音频：

# 录制
ffmpeg -f avfoundation -i :0 output.wav
# 播放，由于存成wav，所以已经带上了音频的格式，直接播放即可。
ffplay output.wav

分解与复用

对容器内的数据重新组装，当然这样做的前提是对容器媒体文件进行分解形成编码数据包，完成重新组装后还需要进行重新封装。整个过程不对编码数据包做修改，只是换了个马甲。

# 换媒体容器
ffmpeg -i local.mp4 -vcodec copy -acodec copy local_output.mov
ffmpeg -i local.mp4 -vcodec copy -acodec copy local_output.mkv

# 抽取视频，当然h264包含了SPS、PPS，可以直接播放
ffmpeg -i local.mp4 -vcodec copy -an local_output.h264

# 抽取音频
ffmpeg -i input.mp4 -acodec copy -vn out.aac

这里面的关键是codec copy，即忽略指定流的编解码步骤，但同时功能也会受限（例如不能使用滤镜，因为滤镜是作用于未压缩的数据），只能进行多路分解和多路复用。对更改容器格式或修改容器级元数据很有用。

整个过程非常快，且没有质量损失。

处理原始数据

这里的原始数据是指解码后的数据。

# 提取YUV数据，关键是使用 -c:v rawvideo
ffmpeg -i input.mp4 -an -c:v rawvideo -pix_fmt yuv420p out.yuv
# 播放YUV
ffplay -s 1280x720 -pix_fmt yuv420p out.yuv

# 提取PCM数据
ffmpeg -i local.mp4 -vn -ar 44100 -ac 2 -f s16le out.pcm
# 播放，PCM是不带元数据的，所以播放时需要执行音频格式
ffplay -ar 44100 -ac 2 -f s16le out.pcm

-c:v，指定的是使用视频编码器，把它换成-vcodec也是同样的效果。
-pix_fmt，指定像素格式。
-ar，音频采样率。
-ac，声道数。
-f，数据存储格式。
- s16le表示sign的16位小端模式整数。

注意这里的-vcodec一定要选择rawvideo，而不是copy；类似的，音频则直接不设置-acodec，而是直接接音频的参数。否则它们输出的结果都不是原始数据。

滤镜

使用简单的视频画幅裁剪滤镜：

ffmpeg -i input.mov
       -vf crop=in_w-200:in_h-200
       -c:v libx264 -c:a copy out.mp4

-vf，视频简单滤镜。
- crop滤镜名称，后面等号接滤镜参数，in_w、in_h引用了原视频的宽高，并使用冒号拼接参数。

裁剪与合并

# 裁剪
ffmpeg -i input.mp4
       -ss 00:00:00 -t 10
       out.ts

# 合并，文本内容每一行必须为 `file '文件路径'`
ffmpeg -f concat -i inputs.txt out.flv

图片/视频互转

# 视频 -> 图片
ffmpeg -i input.flv -r 1 -f image2 output-%3d.jpeg

# 图片 -> 视频
ffmpeg -i input-%3d.jpg out.mp4

-r，fps，每秒转一张图片。
-f，转换的格式。

直播推流/拉流

# 直播推流
ffmpeg -re -i input.mp4 -c copy -f flv rtmp://server/live/stream_name

# 拉流
ffmpeg -i rtmp://server/live/stream_name -c copy dump.flv

-re，减慢帧率使其与播放时的帧率保持同步。
-c copy，音视频不转码。
-f，指定推流的文件格式。

推流的格式一定需要与拉取的格式对应上。

]]> FFmpeg 音视频 FFmpeg基本API：常用操作 /posts/ffmpeg_api/ API处理套路：

方法一般返回值小于0表示失败。
使用上下文连接多个API。
- 上下文包含大量相关信息。
- 上下文一般对应的创建与释放方法，且注释里有说明，例如：open-close、alloc-free。
要复用结构体时，调用对应的unref方法，以重置信息。
所有压缩包、未压缩帧操作都要循环操作。

日志系统

#include <libavuitl/log.h>

// 设置输出的日志等级
av_log_set_level(int level);

// 打日志，参1一般为NULL，参2：AV_LOG_DEBUG等常量
void av_log	(void* avcl, int level, const char* fmt, ...);

// 错误码转详细信息
#define av_err2str(errnum) \
     av_make_error_string((char[AV_ERROR_MAX_STRING_SIZE]){0}, AV_ERROR_MAX_STRING_SIZE, errnum)

static inline char *av_make_error_string(char *errbuf, size_t errbuf_size, int errnum)
{
    av_strerror(errnum, errbuf, errbuf_size);
    return errbuf;
}

流

获取流信息

获取流信息基本是基于AVFormatContext进行获取的。

// 检查是否支持格式
int avformat_find_stream_info(AVFormatContext* ic, AVDictionary** options);

// 获取指定类型的流索引，只关心前两两个参数即可
int av_find_best_stream(AVFormatContext* ic, enum AVMediaType type, int wanted_stream_nb, int related_stream, AVCodec** decoder_ret, int flags);

// 打印格式信息
void av_dump_format(AVFormatContext* ic, int index, const char* url, int is_output);

基本流操作框架

创建并打开输入上下文。avformat_open_input
检查输入格式。avformat_find_stream_info、av_dump_format
根据路径创建输出上下文。avformat_alloc_output_context2
创建流，因为不参与编解码过程，所以拷贝编解码参数。`avformat_new_stream、avcodec_parameters_copy、out_stream->codecpar->codec_tag = 0
检查输出格式。av_dump_format
打开输出IO。avio_open
写入头部。avformat_write_header
==从输入流中读取并写入输出数据包。==
写入尾部。av_write_trailer
释放上面创建的上下文。avformat_close_input、avio_close、avformat_free_context

流的操作按照FFmpeg的API流程大多只需要更改高亮的步骤，其余的基本是固定流程。数据包读取与写入的过程一般是这样的：

创建数据包结构体。av_packet_alloc
循环读取帧，进入帧处理。av_read_frame
1. 处理数据包细节：pkt.pts、pkt.dts、pkt.duration、pkt.pos
2. 写入。av_interleaved_write_frame
3. 减少数据包引用。av_packet_unref
释放数据包结构体。av_packet_unref

要点：

AVFormatContext

从输入URL得出格式信息：

建立输入格式上下文。avformat_open_input
检查格式是否支持。avformat_find_stream_info、av_dump_format

从输出URL得出格式信息：

从输出URL猜测得出。avformat_alloc_output_context2

AVStream

输入流信息是输入格式上下文的信息，且是完整的：

找到指定格式的流索引：av_find_best_stream
直接取出：fmt_ctx->streams[audio_idx]
外加异步格式检查：assert_condition(in_stream->codecpar->codec_type == AVMEDIA_TYPE_AUDIO, "媒体类型不匹配");

输出流信息则是要自己创建的：

根据输出格式上下文创建输出流：avformat_new_stream
从输入流拷贝编解码参数到输出流：avcodec_parameters_copy

AVIOContext

存在输出格式上下文中，只需要在写入前后开启和关闭即可。avio_open、avio_close。

AVPacket

从输入格式上下文读取数据包：av_read_frame
交错写入数据包到输出格式上下文：av_interleaved_write_frame

应用：导出音频流/视频流

可以用两种方式：

读取数据包，写入数据包到文件，补充文件头（这里存在要自己实现文件头的逻辑）。
走FFmpeg整个流程。

在以上的基本流程上做修改：

获取指定媒体类型，并获取输入流。
1. av_find_best_stream -> stream_id
2. in_stream = fmt_ctx->streams[stream_idx]
循环读取帧，只处理stream_idx匹配的数据包。

应用：时间裁剪

读取数据包之前进行跳转，并获取跳转后pts、dts。av_seek_frame
读取数据包时：
- 减去起始的pts、dts。
- 不处理结束时间之后的数据包。av_q2d(in_stream->time_base) * pts <= end_time

编解码

编码

基本步骤：

打开编码器。avcodec_find_encoder_by_name
设置编码参数。须手动设置，因为没有参照的来源。
打开编码器。avcodec_open2
编码。avcodec_encode_video2

具体步骤：

查询编码器，并创建编码上下文。avcodec_find_encoder_by_name、avcodec_alloc_context3
设置编码参数。
打开编码器。avcodec_open2
创建文件、AVFrame并把编码上下文的参数设置到AVFrame中。
AVFrame分配缓冲区空间。av_frame_get_buffer
编码并写入数据。
1. 发送帧。avcodec_send_frame
2. 循环接收数据包，并写入文件。avcodec_send_frame、fwrite
编码空的AVFrame以刷新编码器。
按需写入结束码。
关闭文件、释放相关资源。

编码细节：

static void encode_to_file(AVCodecContext* enc_ctx,
                           AVFrame* frame,
                           AVPacket* pkt,
                           FILE* outfile)
{
    int ret;
    if (!!frame) {
        av_log(NULL, AV_LOG_INFO, "Send frame %3" PRId64 "\n", frame->pts);
    }

    ret = avcodec_send_frame(enc_ctx, frame);
    assert_errnum(ret, "发送编码帧失败");

    while (ret >= 0) {
        ret = avcodec_receive_packet(enc_ctx, pkt);
        if (ret == AVERROR(EAGAIN) || ret == AVERROR_EOF) {
            return;
        }
        assert_errnum(ret, "编码失败");

        av_log(NULL, AV_LOG_INFO, "Write frame %3" PRId64 " (size=%5d)\n",
               pkt->pts, pkt->size);
        fwrite(pkt->data, 1, pkt->size, outfile);
        av_packet_unref(pkt);
    }
}

注意：这里是直接把编码后的数据包数据直接写到文件中，并没有写头尾。即没有使用格式上下文的AVIOContext。

要点：

AVCodec

通过id和名称查找，后续通过AVCodecContext进行管理。avcodec_find_encoder_by_name

AVCodecContext

通过AVCodec创建：avcodec_alloc_context3
重点在于格式配置，都设置到该上下文中。
打开后才能使用编解码器：avcodec_open2
使用完毕后释放：avcodec_free_context

编码，两层循环：

给编码器上下文塞帧：avcodec_send_frame；
循环从编码器上下文获取数据包：avcodec_receive_packet

AVFrame

创建与释放：av_frame_alloc、av_frame_free
若是自己填充数据，则要先从codec上下文获取格式设置：pix_fmt、width、height
填充数据前要分配空间：av_frame_get_buffer
填充数据前要确认帧是否可写入：av_frame_make_writable

设置了格式决定了分配空间的大小以及后续填充数据的方式。

解码

基本步骤：

查找解码器。avcodec_find_decoder
从输入拷贝相关解码参数。avcodec_parameters_to_context
打开解码器。avcodec_open2
解码。avcodec_decode_video2

具体步骤：

打开文件。avformat_open_input
检查格式，获取视频流。avformat_find_stream_info、av_dump_format、av_find_best_stream
根据读取的流信息查询编解码器并创建对应上下文。avcodec_find_decoder、avcodec_alloc_context3
从读取的流信息中拷贝相关的编解码器参数。avcodec_parameters_to_context
打开编解码器。avcodec_open2
若要转换图像格式，则创建SwsContext。
循环读取帧。av_read_frame
循环解码。
1. 发送数据包。avcodec_send_packet
2. 循环获得解码帧。avcodec_receive_frame

解码细节：

static void decode(AVCodecContext *dec_ctx, AVFrame *frame, AVPacket *pkt,
                   const char *filename)
{
    int ret;
    
    // 发送数据包
    ret = avcodec_send_packet(dec_ctx, pkt);
    if (ret < 0) {
        fprintf(stderr, "Error sending a packet for decoding\n");
        exit(1);
    }

    while (ret >= 0) {
        // 获得解码帧
        ret = avcodec_receive_frame(dec_ctx, frame);
        if (ret == AVERROR(EAGAIN) || ret == AVERROR_EOF)
            return;
        else if (ret < 0) {
            fprintf(stderr, "Error during decoding\n");
            exit(1);
        }

        printf("saving frame %3d\n", dec_ctx->frame_number);
        fflush(stdout);
		
        // 帧处理业务
    }
}

与编码不同，解码的参数是由之前编码的决定的，所以这里直接把读取的流中拷贝编码器参数。

]]> FFmpeg 音视频 FFmpeg基本API：源码分析 /posts/ffmpeg_api_source_code_analysis/ 查找编解码器

avcodec_find_decoder和avcodec_find_encoder 主要是查找 FFmpeg 的解码器和编码器。

avcodec_find_decoder 和 avcodec_find_encoder 主要是利用 AVCodecID 来查找编解码器。其实质是遍历AVCodec 链表并且获得符合AVCodecID的元素。

初始化IO上下文

int avio_open2(AVIOContext **s, const char *url, int flags,
               const  AVIOInterruptCB *int_cb, AVDictionary **options);

avio_open2 主要实现创建并初始化一个 AVIOContext，用于访问由 url 指定文件。

各个参数的含义如下：

AVIOContext **s：函数调用成功后，创建并初始化该AVIOContext结构体。
const char *url：输入输出协议的地址。
int flags：打开地址的方式(只读、只写、读写)。AVIO_FLAG_READ/AVIO_FLAG_WRITE/AVIO_FLAG_READ_WRITE.
const AVIOInterruptCB *int_cb：调用函数。
AVDictionary **options：一般为NULL。

与avio_open2相似的还有avio_open函数，avio_open会调用avio_open2，并将 int_cb 和 options 设置为 NULL。

avio_open2的调用函数关系如下：

初始化编解码上下文

int avcodec_open2(AVCodecContext *avctx, const AVCodec *codec, AVDictionary **options);

avcodec_open2函数实现的功能为利用给定的AVCodec结构初始化AVCodecContext结构。

函数参数说明：

avctx：需要初始化的context.
codec
options
返回值：如果返回0，正确。失败则返回负数。

该函数利用给定的AVCodec结构初始化AVCodecContext结构，在使用该函数之前，AVCodecContext 必须已经用avcodec_alloc_context3()函数分配出来。

AVCodec结构在使用该函数之前，由avcodec_find_decoder_by_name``avcodec_find_encoder_by_name avcodec_find_decoder或avcodec_find_encoder提前得到。

注意，在正式解码之前(比如使用avcodec_decode_video2()之前)，必须调用avcodec_open2函数。

avcodec_open2的逻辑非常简单，首先是进行一些参数检测、之后调动AVCodec的init函数。大概步骤如下：

各种函数参数检测。
各种结构体分配内存。
将输入的AVDictionary形式的选项设置到AVCodecContext。
其他一些零散的检查，检查输入参数是否符合编码器的要求。
调用AVCodec的init函数初始化具体的解码器。

此处重点分析调用AVCodec的init函数处。以 HEVC 解码器为例。

读取压缩数据包

int av_read_frame(AVFormatContext *s, AVPacket *pkt);

av_read_frame函数的作用是返回文件中保存的数据。它会文件中保存的数据分成不同的帧，每次调用都会返回一帧。注意，该函数不会忽略帧与帧之间无效数据(非帧数据)，目的是给解码器最多的信息用于解码。

如果pkt->buf是 NULL，包直到下一次调用av_read_frame或avformat_close_input时都是有效的。不需要时，包必须通过av_free_packet释放。对于视频，packet只包含一帧；对于音频，如果每帧有固定大小(如 PCM 或 ADPCM 数据)， packet可以包含多个音频帧（必须是整数帧），如果音频帧大小可变(如MPEG 音频)，它只能包含一帧数据。

pkt->pts、pkt->dts、pkt->duration都是以AVStream.time_base_units为单位的。如果视频格式里包含 B 帧，pkt->pts可以是AV_NOPTS_VALUE，因此如果不解压缩数据，最好查看pkt->dts。

如果函数返回0，正确；小于0，则为到文件尾或出错。

函数调用关系：

av_read_frame函数会判断在未解码缓存中是否有数据，如果有数据则调用read_from_packet_buffer。

提取流信息

int avformat_find_stream_info(AVFormatContext *ic, AVDictionary **options);

avformat_find_stream_info主要是读媒体文件的包(packets)，然后从中提取出流的信息。对于没有头部信息的文件格式尤其有用，比如MPEG。文件的逻辑位置不会被改变，读取出来的包会被缓存起来供以后处理。

返回值：>=0–>OK,或出错返回AVERROR_xxx

注意，该函数并不保证能够打开所有的 codec，因此将options 设置为非NULL用于返回一些信息是非常好的行为。

调用关系：

]]> FFmpeg 音视频 FFmpeg新老API /posts/ffmpeg_api_new_deprecated/ 变化：

不需要要调用注册方法。
简化了流程。
语义更准确。

avcodec_decode_video2

原本的解码函数被拆解为两个函数avcodec_send_packet()和avcodec_receive_frame()具体用法如下：

// old:
avcodec_decode_video2(pCodecCtx, pFrame, &got_picture, pPacket);

// new:
avcodec_send_packet(pCodecCtx, pPacket);
avcodec_receive_frame(pCodecCtx, pFrame);

codec_encode_video2

对应的编码函数也被拆分为两个函数avcodec_send_frame()和avcodec_receive_packet()具体用法如下：

// old:
avcodec_encode_video2(pCodecCtx, pPacket, pFrame, &got_picture);

// new:
avcodec_send_frame(pCodecCtx, pFrame);
avcodec_receive_packet(pCodecCtx, pPacket);

avpicture_get_size

现在改为使用av_image_get_size() 具体用法如下：

// old:
avpicture_get_size(AV_PIX_FMT_YUV420P, pCodecCtx->width, pCodecCtx->height);

// new:
// 最后一个参数align这里是置1的，具体看情况是否需要置1
av_image_get_buffer_size(AV_PIX_FMT_YUV420P, pCodecCtx->width, pCodecCtx->height, 1);

avpicture_fill

现在改为使用av_image_fill_arrays 具体用法如下：

// old:
avpicture_fill((AVPicture *)pFrame, buffer, AV_PIX_FMT_YUV420P, pCodecCtx->width, pCodecCtx->height);

// new:
// 最后一个参数align这里是置1的，具体看情况是否需要置1
av_image_fill_arrays(pFrame->data, pFrame->linesize, buffer, AV_PIX_FMT_YUV420P,  pCodecCtx->width, pCodecCtx->height,1);

codec

关于codec问题有的可以直接改为codecpar，但有的时候这样这样是不对的，所以我也还在探索，这里记录一个对pCodecCtx和pCodec赋值方式的改变

// old:
pCodecCtx = pFormatCtx->streams[video_index]->codec;
pCodec = avcodec_find_decoder(pFormatCtx->streams[video_index]->codec->codec_id);

// new:
// 把参数从AVCodecParameters拷贝到AVCodecContext
pCodecCtx = avcodec_alloc_context3(NULL);
avcodec_parameters_to_context(pCodecCtx,pFormatCtx->streams[video_index]->codecpar);
pCodec    = avcodec_find_decoder(pCodecCtx->codec_id);

]]> FFmpeg 音视频 FFmpeg基本API：重要结构体 /posts/ffmpeg_api_struct/ 关键的结构体可分成以下几类：

解协议（http、rtsp、rtmp、mms）

AVIOContext、URLProtocol、URLContext主要存储音视频使用的协议类型以及状态。

URLProtocol存储输入音视频使用的封装格式。每种协议都会有对应的URLProtocol结构体，文件也不例外。

解封装（flv、avi、rmvb、mp4）

AVFormatContext主要存储音视频封装格式中的包含的信息。

AVInputFormat存储输入音视频使用的封装格式，每种音视频封装格式都对应一个AVInputFormat结构体。

解码（h264、mpeg2、aac、mp3）

每个AVStream存储一个音频流/视频流的相关数据。

每个AVStream对应一个AVCodecContext，存储该流使用的解码方式的相关数据。

每个AVCodecContext对应一个AVCodec，包含流对应的解码器器。每种解码器对应一个AVCodec结构体。

存数据

解码前的数据结构：AVPacket；解码后的数据结构：AVFrame。每个结构体有一帧或多帧。

关系：

文件操作

<libavformat/avio.h>

AVIODirContext

AVIODirEntry

目录内容项，承载文件/目录详细信息。用于存放文件名、文件大小等信息。

#include <libavformat/avio.h>

// 删除文件
int avpriv_io_delete(const char* url);

// 移动或重命名
int avpriv_io_move(const char* url_src, const char* url_dst);

// 打开目录，会分配AVIODirContext
int avio_open_dir(AVIODirContext** s, const char* url, AVDictionary** options);

// 读取目录，结果输出到AVIODirEntry
int avio_read_dir(AVIODirContext* s, AVIODirEntry** next);

// 关闭目录（释放资源）
int avio_close_dir(AVIODirContext** s);

数据包操作

<libavformat/avformat.h>

AVFormatContext

统领全局的基本结构体。主要用于处理封装格式。

struct AVInputFormat *iformat：输入数据的封装格式，由avformat_open_input设置，仅仅在解封装时使用。
struct AVOutputFormat *oformat：输出数据的封装格式，必须由使用者在avformat_write_header前设置，由封装时使用。
priv_data：格式私有数据。在封装中，由avformat_write_header设置；在解封装中，由avformat_open_input设置。
AVIOContext *pb：输入输出上下文。如果iformat/oformat.flags设置为AVFMT_NOFILE的话，该字段不需要设置。对于解封装，需要在avformat_open_input前设置，或由avformat_open_input设置；对于封装，在avformat_write_header前设置。
ctx_flags：码流的信息，表明码流属性的的信号。由libavformat设置，例如AVFMTCTX_NOHEADER。
nb_streams：指AVFormatContext.streams的数量，必须由avformat_new_stream设置，不能由其他代码改动。
AVStream **streams：文件中所有码流的列表，新的码流创建使用avformat_new_stream函数。解封装中，码流由avformat_open_input创建。如果AVFMTCTX_NOHEADER被设置，新的码流可以出现在av_read_frame中。封装中，码流在avformat_write_header之前由用户创建。它的释放是由avformat_free_context完成的。
filename：输入或输出的文件名，解封装中由avformat_open_input设置，封装中在使用avformat_write_header前由调用者设置。
int64_t duration：码流的时长。
bit_rate：比特率。
enum AVCodecID video_codec_id
AVDictionary *metadata：元数据，适用于整个文件。

// 创建与销毁
AVFormatContext* avformat_alloc_context();
void avformat_free_context(AVFormatContext* s);

/// 其他创建方式

// 打开现有的媒体文件
int avformat_open_input(AVFormatContext **ps, const char *url, AVInputFormat *fmt, AVDictionary **options);
void avformat_close_input(AVFormatContext* s);

// 根据路径猜测并创建。其内部为avformat_alloc_context+av_guess_format+赋值
int avformat_alloc_output_context2(AVFormatContext **ctx, AVOutputFormat *oformat, const char *format_name, const char *filename);
void avformat_free_context(AVFormatContext *s)；

AVStream

流/轨信息（不包含数据）。

index：在AVFormatContext的流索引。
~~AVCodecContext *codec~~：已被弃用，改成AVCodecParameters *codecpar：编解码信息。
AVRational time_base：时间单位。
duration：流长度。
AVDictionary *metadata：元数据信息。
AVRational avg_frame_rate：平均帧率。

// 创建与销毁
AVStream* avformat_new_stream(AVFormatContext* s, const AVCodec* c);
// 随avformat_free_context一起销毁

AVIOContext

输入输出对应的结构体。

unsigned char *buffer：缓存开始位置。
buffer_size：缓存大小。
unsigned char *buf_ptr：当前指针读取到的位置。
unsigned char *buf_end：缓存结束的位置。

// 创建与销毁
AVIOContext* avio_alloc_context(
    unsigned char* buffer, int buffer_size,
    int write_flag, void* opaque,
    int(*)(void *opaque, uint8_t *buf, int buf_size) read_packet,
    int(*)(void *opaque, uint8_t *buf, int buf_size) write_packet,
    int64_t(*)(void *opaque, int64_t offset, int whence) seek
);
void avio_context_free(AVIOContext** s);

AVPacket

压缩数据包，压缩域结构体，一个或多个压缩数据帧。这是流操作中的核心数据。

对于视频数据，只包含一帧压缩数据；对于音频数据，可能包含多帧压缩数据。

定义：

typedef struct AVPacket{
	AVBufferRef *buf;
	int64_t      pts;
	int64_t      dts;
	uint8_t    *data;
	int         size;
	int stream_index;
	int        flags;
	AVPacketSideData *side_data;
	int side_data_elems;
	int   duration;
	int64_t pos;
	int64_t convergence_duration;
}

pts：显示时间戳，它的单位是 AVStream->time_base；如果在文件中没有保存这个值，它被设置为 AV_NOPTS_VALUE。由于图像显示不可能早于图像解压，因此 PTS 必须比 DTS（解码时间戳）大或者相等。某些文件格式中可能会使用 PTS/DTS 表示其他含义，此时时间戳必须转为真正的时间戳才能保存到 AVPacket 结构中。
dts：解码时间戳，它的单位是 AVStream->time_base，表示压缩视频解码的时间，如果文件中没有保存该值，它被设置为 AV_NOPTS_VALUE。
data：指向真正的压缩编码的数据。
size：表示该 AVPacket 结构中 data 字段所指向的压缩数据的大小。
stream_index：标识该 AVPacket 结构所属的视频流或音频流。
duration：该 AVPacket 包以 AVStream->time_base 为单位，所持续的时间，0 表示未知，或者为显示时间戳的差值(next_pts - this pts)。
pos：表示该 AVPacket 数据在媒体中的位置，即字节偏移量。

直接创建：

// 可在栈或堆中创建

// 类似的，如果AVPacket是在堆创建的，则要配合使用这两个API
AVPacket *av_packet_alloc();
void av_packet_free(AVPacket** pkt);

填充方式一：av_read_frame

通过AVFormatContext可读取一般的媒体容器文件。

这里的读取数据包的方法命名为av_read_frame只是历史遗留问题，以前的数据包也是用frame命名的，后面才改了过来。

// 每次读取帧后，要对应减引用计数。
int av_read_frame(AVFormatContext* s, AVPacket *pkt);
void av_packet_unref(AVPacket* pkt);

填充方式二：av_parser_parse2

通过AVCodecParserContext、AVCodecContext解析buffer，得出数据包的主要信息。只能针对音视频裸流进行解析。该方法只是解析，即还要借助其他API读取获得buffer。

AVCodecParser用于解析输入的数据流并把它们分成一帧一帧的压缩编码数据。比较形象的说法就是把长长的一段连续的数据“切割”成一段段的数据。 av_parser_parse2()：解析数据获得一个Packet，从输入的数据流中分离出一帧一帧的压缩编码数据。

int av_parser_parse2(AVCodecParserContext *s, AVCodecContext *avctx, uint8_t **poutbuf, int *poutbuf_size, const uint8_t *buf, int buf_size, int64_t pts, int64_t dts, int64_t pos)

由于传入的buffer可以有多个数据包，所以需要循环读取：

while (data_size > 0) {
    // 返回以解析的大小，若小于buffer的大小，则会再次进行循环解析
    ret = av_parser_parse2(parser, c, &pkt->data, &pkt->size,
                           data, data_size, AV_NOPTS_VALUE, AV_NOPTS_VALUE, 0);
    if (ret < 0) {
        fprintf(stderr, "Error while parsing\n");
        exit(1);
    }
    data      += ret;
    data_size -= ret;

    if (pkt->size) {
        // 这时获得一个合法的数据包
    }
}

编解码

<libavcodec/avcodec.h>

AVCodec

编码器结构体，通过它转换AVFrame/AVPacket。

定义：

typedef struct AVCodec{
	const char *name;
    const char *long_name;
    enum AVMediaType type;
    enum AVCodecID id;
    int capabilities;
    const AVRational *supported_framerates; ///< array of supported framerates, or NULL if any, array is terminated by {0,0}
    const enum AVPixelFormat *pix_fmts;     ///< array of supported pixel formats, or NULL if unknown, array is terminated by -1
    const int *supported_samplerates;       ///< array of supported audio samplerates, or NULL if unknown, array is terminated by 0
    const enum AVSampleFormat *sample_fmts; ///< array of supported sample formats, or NULL if unknown, array is terminated by -1
    const uint64_t *channel_layouts;         ///< array of support channel layouts, or NULL if unknown. array is terminated by 0
    uint8_t max_lowres;                     ///< maximum value for lowres supported by the decoder, no direct access, use av_codec_get_max_lowres()
    const AVClass *priv_class;              ///< AVClass for the private context
    const AVProfile *profiles;              ///< array of recognized profiles, or NULL if unknown, array is terminated by {FF_PROFILE_UNKNOWN}
    int priv_data_size;
    struct AVCodec *next;
    int (*init_thread_copy)(AVCodecContext *);
    int (*update_thread_context)(AVCodecContext *dst, const AVCodecContext *src);
    const AVCodecDefault *defaults;
    void (*init_static_data)(struct AVCodec *codec);

    int (*init)(AVCodecContext *);
    int (*encode_sub)(AVCodecContext *, uint8_t *buf, int buf_size,
    int (*encode2)(AVCodecContext *avctx, AVPacket *avpkt, const AVFrame *frame,
                   int *got_packet_ptr);
    int (*decode)(AVCodecContext *, void *outdata, int *outdata_size, AVPacket *avpkt);
    int (*close)(AVCodecContext *);
    void (*flush)(AVCodecContext *);
    int caps_internal;
}

name：具体的 CODEC 的名称的简短描述，比如“HEVC”、“H264”等。
long_name：CODEC 名称的详细描述，比如“HEVC (High Efficiency Video Coding)”。
id：唯一标识的 CODEC 类型，比如 AV_CODEC_ID_HEVC。
type：媒体类型的字段，它是 enum 型的，表示视频、音频、字幕等，比如AVMEDIA_TYPE_VIDEO、AVMEIDA_TYPE_AUDIO。
supported_framerates：支持的视频帧率的数组，以{0，0}作为结束。
pix_fmts：编解码器支持的图像格式的数组，以 -1 作为结束。
profiles：编解码器支持的 Profile，以 HEVC 为例，包含“Main”、“Main10”、“Main Still Picture”。

每一个编解码器对应一个 AVCodec 结构体，对应一种编解码方式，比如 HEVC、AVC、MPEG2、MPEG4、VP6、VP8、VP9等。以 HEVC 为例，FFMpeg中关于 AVCodec 的定义如下：

AVCodec ff_hevc_decoder = {
    .name                  = "hevc",
    .long_name             = NULL_IF_CONFIG_SMALL("HEVC (High Efficiency Video Coding)"),
    .type                  = AVMEDIA_TYPE_VIDEO,
    .id                    = AV_CODEC_ID_HEVC,
    .priv_data_size        = sizeof(HEVCContext),
    .priv_class            = &hevc_decoder_class,
    .init                  = hevc_decode_init,
    .close                 = hevc_decode_free,
    .decode                = hevc_decode_frame,
    .flush                 = hevc_decode_flush,
    .update_thread_context = hevc_update_thread_context,
    .init_thread_copy      = hevc_init_thread_copy,
    .capabilities          = AV_CODEC_CAP_DR1 | AV_CODEC_CAP_DELAY |
                             AV_CODEC_CAP_SLICE_THREADS | AV_CODEC_CAP_FRAME_THREADS,
    .profiles              = NULL_IF_CONFIG_SMALL(profiles),
};

AVCodec通常用法：

根据特定ID找到特定的编解码器；
根据特定编解码器分配出特定的描述编解码上下文的 AVCodecContext 结构体；
打开编解码器；
调用编解码器进行编解码。

AVCodec *codec = NULL;
AVCodecContext *ctx = NULL;

codec = avcodec_find_decoder(origin_ctx->codec_id);
ctx = avcodec_alloc_context3(codec);
avcodec_open2(ctx, codec, NULL);
...

AVCodecContext

编解码上下文。连接编解码各个过程。最复杂的结构体，里面定义的变量有些是编码时候用到，有些是解码时候用到。

codec_type：编解码器的类型，如音频、视频、字幕。
AVCdec *codec：编解码器对象。
bit_rate：平均比特率。
width、height：视频的宽高。
refs：运动估计参考帧的个数。
sample_rate：采样率。
channels：声道数。

AVCodecContext 使用 avcodec_alloc_context3 分配，该函数除了分配 AVCodecContext 外，还会初始化默认的字段。分配的内存必须通过 avcodec_free_context 释放。

// 创建与销毁
AVCodecContext** avcodec_alloc_context3(const AVCodec* codec);
void avcodec_free_context(AVCodecContext** avctx);

AVFrame

未压缩数据帧，像素域结构体，（视频对应RGB/YUV像素数据，音频对应PCM采样数据）。

定义：

typedef struct AVFrame{
	uint8_t *data[AV_NUM_DATA_POINTERS];
	int linesize[AV_NUM_DATA_POINTERS];
	uint8_t **extended_data;
	int width, height;
	int nb_samples; /* number of audio samples(per channel) described by this frame */
	int format;
	int key_frame; /* 1->keyframe, 0->not*/
	enum AVPictureType pict_type;
	AVRational sample_aspect_ratio;
	int64_t pts;
	int64_t pkt_pts;
	int64_t pkt_dts;
	int coded_picture_number;
	int display_picture_number;
	int quality;
	void *opaque; /* for some private data of the user */
	uint64_t error[AV_NUM_DATA_POINTERS];
	int repeat_pict;
	int interlaced_frame;
	int top_field_first;	/* If the content is interlaced, is top field displayed first */
	int palette_has_changed;
    int64_t reordered_opaque;
    int sample_rate;    /*Sample rate of the audio data*/
    uint64_t channel_layout; /*channel layout of the audio data*/
    AVBufferRef *buf[AV_NUM_DATA_POINTERS];
    AVBufferRef **extended_buf;
    int nb_exteneded_buf;
    AVFrameSideData **side_data;
    int nb_side_data;

    int flags;
    enum AVColorRange color_range;
    enum AVColorPrimaries color_primaries;
    enum AVColorTransferCharacteristic color_trc;
    enum AVColorSpace colorspace;
    enum AVChromaLocation chroma_location;

    int64_t best_effort_timestamp;
    int64_t pkt_pos;
    int64_t pkt_duration;
    AVDictionary *metadata;
    int decode _error_flags;

    int channels;
    int pkt_size;
    AVBufferRef *qp_table_buf;
}

data：指向图片或信道的指针，与初始化时分配的大小可能不同，一些解码器取数据范围超出(0,0)-(width, height)，具体请查看avcodec_align_dimensions2()方法。一些过滤器或扫描器读数据时可能会超过 16 字节，所以当它们使用时，必须额外分配 16 字节。对于 packed 格式的数据(例如 RGB24)，会存放到 data[0] 里面；对于 planar 格式的数据(例如 YUV420P)，则会分开 data[0]/data[1]/data[2]（YUV420P 中 data[0] 存放 Y，data[1] 存放 U，data[2] 存放 V）。
linesize：对于视频数据，表示每个图像行的字节大小；对于音频数据，表示每个 Plane 的字节大小，只有linesize[0]可以设置，对于plane 音频，每个信道 channel 必须是相同的。对于视频的 linesize 应为 CPU 的对准要求的倍数，一般为 32 的倍数。注意 linesize 可大于可用的数据的尺寸，有可能存在由于性能原因额外填充。
width/height：视频的宽高。
format：帧格式，-1表示未设置的帧格式。对于视频帧，该值为 enum 类型的 AVPixelFormat，例如 AV_PIX_FMT_YUV420P；对于音频帧，该值为 enum 型的 AVSampleFormat，例如 AV_SAMPLE_FMT_S16。
key_frame：关键帧，1 表示关键帧，0 表示非关键帧。
pict_type：帧图片类型，例如 I/P/B。
sample_aspect_ration：帧像素的宽高比，使用 AVRational 表示。
pts：显示时间戳，单位为 time_base。
pkt_pts：该 PTS 是从 AVPacket 结构中拷贝过来的；与之对应的是pkt_dts。
coded_picture_number/display_picture_number：解码序列号和显示序列号（Display Order/Decoded Order）。
interlaced_frame：表示该帧为隔行（interlace）码流或者为逐行（progressive）码流。
top_field_first：对于隔行码流，表示该它是 top first or bottom first。

AVFrame 结构体通常只需分配一次，之后即可通过保存不同的数据来重复多次使用，比如一个 AVFrame 结构可以保存从解码器中解码出的多帧数据。此时，就可以使用av_frame_unref()释放任何由 Frame 保存的参考帧并还原回最原始的状态。

// 创建与销毁
AVFrame* av_frame_alloc();
void av_frame_free(AVFrame** frame);

// 填充空间
av_image_fill_arrays(
    uint8_t* dst_data[4], int dst_linesize[4], const uint8_t* src,
    enum AVPixelFormat pix_fmt, int width, int height, int align
);

]]> FFmpeg 音视频 FFmpeg编译 /posts/ffmpeg_compilation/ 这里讨论的是使用源码方式编译按照，而不是使用brew安装（后期不可裁剪）。

编译依赖准备

gas-preprocessor。Perl 脚本，将 GNU 的一个子集实现为 Apple 没有的预处理
yams
- brew install yasm安装
pkg-config

基本编译命令

# 生成配置，执行后生成一些配置文件。
./configure --prefix=/opt/ffmpeg --enable-debug=3 --disable-static --enable-shared --enable-libfdk_aac --enable-nonfree --enable-libopus --enable-libvpx --enable-libx264 --enable-gpl --enable-libx265 
# 设定使用CPU数量
make -j 4
# 编译
sudo make install

编译配置：

# 指定编译结果根目录，因为要装到/目录，所以才需要sudo
--prefix=/opt/ffmpeg
# 调试时可以更详细地输出符号信息
--enable-debug=3
# 关闭静态库而使用动态库，默认生成静态库
--disable-static --enable-shared

prefix参数目前设在一个共享目录，生成的动态库是共享用的，即不是随app的。另一方面，这个参数也是直接设置了dyld的install name，直接拷贝包会导致运行时找不到包。

似乎编解码都没有启用，所以都要一一启用。

要启用的编解码器不在FFmpeg代码中，因此启用编码器时，也不会下载，需要额外用brew安装。

使用这种方式安装意味着app要想到其他机器运行，也需要配置一样的环境。

iOS平台编译

./ffmpeg-4.3.2/configure \
--target-os=darwin \
--arch=arm64 \
--cc="xcrun -sdk iphoneos clang" \
--as="gas-preprocessor.pl -arch aarch64 -- xcrun -sdk iphoneos clang" \
--enable-cross-compile --disable-debug --disable-programs \
--disable-doc --enable-pic \
--extra-cflags="-arch arm64 -mios-version-min=8.0 -fembed-bitcode" \
--extra-ldflags="-arch arm64 -mios-version-min=8.0 -fembed-bitcode" \
--prefix=/Users/bq/Workspace/Git/FFmpeg/BuildScript/kewlbear/FFmpeg-iOS-build-script/thin/arm64

编译后的目录

bin｜所有命令工具
include｜头文件
lib｜生成的动态库、静态库
share｜文档、例子

pkg-config

查找系统库路径：pkg-config --libs libavformat

如果没找到，首先确认编译后的lib目录下是否有pkgconfig目录，然后添加全局变量：

export PKG_CONFIG_PATH=/opt/ffmpeg/lib/pkgconfig/:$PKG_CONFIG_PATH

]]> FFmpeg 音视频 FFmpeg音视频同步 /posts/ffmpeg_audio_and_video_synchronization/ DTS、PTS

FFmpeg中获取PTS：

AVPacket中
AVFrame中（其获取PTS的av_frame_get_best_effort_timestamp已经弃用且不需要使用）

时间基

代码实现

可以在音频采集的基础上，增加：

修改设备名称
增加参数
修改文件名及文件数据的大小

// 打开设备
void open_device() {
    av_log_set_level(AV_LOG_DEBUG);
    
    // 小于零则出错
    int ret = 0;
    // <video device>:<audio device>
    // 0，本机摄像头；1，桌面
    char *device_name = "0";
    
    // 设置摄像头选项
    AVDictionary *options = NULL;
    av_dict_set(&options, "video_size", "640x480", 0);
    av_dict_set(&options, "framerate", "30", 0);
    av_dict_set(&options, "pixel_format", "nv12", 0); // FFmpeg会默认指定YUV420P，但会不支持会切换到摄像头支持的第一种格式，mac的摄像头只支持uyvy422、yuyv422、nv12、0rgb、bgr0
    
    // 1 注册设备
    avdevice_register_all();
    
    // 2 获取格式
    AVInputFormat *inputFormat = av_find_input_format("avfoundation");
    
    // 3 打开设备。这会同时创建上下文。
    ret = avformat_open_input(&fmt_ctx, device_name, inputFormat, &options);
    if (ret < 0 || !fmt_ctx) {
        goto __ERROR;
    }
    printf("成功打开视频设备\n");
    
    return;
    __ERROR:
    log_error(ret);
    return;
}

/// 采集视频并写入文件
void read_video() {
    if (!fmt_ctx) {
        printf("不能使用设备\n");
        goto __ERROR;
    }
    
    /// 准备文件
    // 创建文件，权限：w（写入）b（写入二进制）+（若文件不存在则创建）
    FILE *output_yuv = fopen("/Users/bq/Movies/test/video.yuv", "wb+");
    if (!output_yuv) {
        printf("文件创建失败\n");
    }
    
    // 使用栈空间分配AVPacket
    AVPacket pkt;
    av_init_packet(&pkt);
    
    int count = 0;
    int ret = 0;
    
    while ((ret == 0 || ret == AVERROR(EAGAIN)) && count < 100) {
        // 读取视频数据
        ret = av_read_frame(fmt_ctx, &pkt);
        
        if (ret == AVERROR(EAGAIN)) continue;
        printf("[%d] pkt size is %d\n", count, pkt.size);
        count++;
        
        /**
         * NV12 -> YUV420
         * NV12:   YYYYYYYYUVUV
         * YUV420: YYYYYYYYUUVV
         * */
        
        // 拷贝数据到输入
        const size_t y_length = kWidth * kHeight;
        const size_t u_v_length = y_length / 4;
        // 拷贝Y数据
        memcpy(frame->data[0], pkt.data, y_length);
        // 处理UV，Y数据后面是UV，对YUV数据分层
        const int stride = 2;
        for (int i = 0; i < u_v_length; i++) {
            const size_t base = y_length + i * stride;
            frame->data[1][i] = pkt.data[base];
            frame->data[2][i] = pkt.data[base + 1];
        }
        // 输出YUV
        fwrite(frame->data[0], 1, y_length, output_yuv);
        fwrite(frame->data[1], 1, u_v_length, output_yuv);
        fwrite(frame->data[2], 1, u_v_length, output_yuv);
        
        av_packet_unref(&pkt);
    }
    
    printf("完成写入\n");
    
    // 这里不写return，会一直执行下去
    __ERROR:
    // 关闭文件
    fclose(output_yuv);
}

]]> FFmpeg 音视频 FFmpeg实战音频录制、编码、重采样 /posts/ffmpeg_coding_audio_recording_encoding_resampling/ 命令行方式采集：

ffmpeg -f avfoundation -i :0 output/out.wav

准备

这里创建的是Mac App，以及引入的是动态库。由于动态库存放在一个共享位置，编译时就固定了它所在的位置，所以不需要拷贝到目录中。

引入并链接动态库文件（General/Frameworks, Libraries, and Embedded Content））。
添加头文件搜索目录（Build Settings/User Header Search Paths）。
创建C语言头文件以及实现文件，并创建Bridging-Header。

采集音频

打开设备

步骤：

注册设备。
设置采集方式（avfouncdation✔️/dshow/alsa）。
打开音频设备。

打开之后就可以录制音频流。

必要头文件：

#include "libavutil/avutil.h"
#include "libavdevice/avdevice.h"
#include "libavformat/avformat.h"

记得要引入的是动态库啊，静态库会有一堆符号找不到。

// 小于零则出错
int ret = 0;
AVFormatContext *context = NULL;
// <video device>:<audio device>
char *deviceName = ":0";
AVDictionary *options = NULL;
size_t errorBufferLength = 1024;
char errorBuffer[errorBufferLength];

// 1 注册设备
avdevice_register_all();

// 2 获取格式
AVInputFormat *inputFormat = av_find_input_format("avfoundation");

// 3 打开设备。这会同时创建上下文。
ret = avformat_open_input(&context, deviceName, inputFormat, &options);
if (ret < 0) {
    // 输出到错误
    av_strerror(ret, errorBuffer, errorBufferLength);
    fprintf(stderr, "Failed to open audio device, [%d]%s\n", ret, errorBuffer);
    return;
}

注意要先获取麦克风权限。

上下文创建后，记得要对应进行释放。

读取音频数据

av_read_frame：该方法既可以读取音频数据，也可以读取视频数据。

AVFormatContext：格式上下文，上面打开设备也用到。上下文是后续处理的基础，在打开设备的时候就可以获取上下文。

AVPacket，音视频数据包结构体。

返回0则表示成功。

// 使用栈空间分配AVPacket
AVPacket pkt;
av_init_packet(&pkt);

int count = 0;
int ret = 0;
while ((ret == 0 || ret == -35) && count < 5) {
    ret = av_read_frame(context, &pkt);
    
    if (ret != 0) {
        av_strerror(ret, error_buffer, kErrorLength);
        fprintf(stderr, "Failed to reading, [%d]%s\n", ret, error_buffer);
        continue;
    }
    printf("pkt size is %d\n", pkt.size);
    count++;
}

av_packet_unref(&pkt);

要注意，采集时有时会出现-35返回，是设备临时不可用，需要忽略，并重试。

记得av_read_frame后要释放对应资源，避免内存泄漏。

AVPacket

头文件：libavcodec/avcodec.h

重要成员

data：音视频具体数据。
size：缓冲区数据大小。

写入到文件

基本步骤：

创建文件；
把音频写入到文件中；
关闭文件。

// 创建文件，权限：w（写入）b（写入二进制）+（若文件不存在则创建）
char *output_path = "/Users/bq/Workspace/test/audio.pcm";
FILE *output_file = fopen(output_path, "wb+");

while ((ret == 0 || ret == -35) && count < 500) {
    ret = av_read_frame(context, &pkt);

    printf("[%d] pkt size is %d\n", count, pkt.size);
    count++;

    // 写入文件
    fwrite(pkt.data, pkt.size, 1, output_file);
    fflush(output_file);

    av_packet_unref(&pkt);
}


// 关闭文件
fclose(output_file);
printf("完成写入");

播放测试：

ffplay -ar 44100 -ac 2 -f f32le audio.pcm

编码音频

FFmpeg编码基本过程：

创建编码器；
创建上下文；
打开编码器；
送数据给编码器；编码器一般是要缓冲一部分帧，才能编码输出帧。
编码；
释放资源。

打开编码器API：

avcodec_find_encoder：查找编码器。通过id或名字查找。
avcodec_alloc_context3：创建上下文。
avcodec_open2：打开编码器。

fdk_aac，支持的采样大小是16位的，不能设置为FLT。设置了profile后，需要bit_rate置0，否则profile设置不生效。

传输数据API：

avcodec_send_frame，把帧输入到编码器。顾名思义，其传入的是AVFrame。会先缓冲一部分数据。

avcodec_receive_packet，获取编码后的数据。顾名思义，其输出的是AVPacket。

AVFrame与AVPacket，从命名上看，似乎frame是解压后的帧、packet是压缩后的数据包。之前打开设备并从中av_read_frame出来的却是个packet，这是因为FFmpeg把设备视为媒体文件处理。而从媒体文件读取的就是packet数据。即按照正规流程，从设备读取帧获得packet后，还需要走解码的步骤，最后得出AVFrame。我们是知道从设备读取的帧就是未压缩的帧，所以就直接从packet里面拿数据了。这其实也是种投机取巧的方式。

重采样音频

基本步骤：

创建重采样上下文；
设置参数；
初始化重采样；

对应API：

swr_alloc_set_opts：创建了重采样的上下文，并进行了初始化。
swr_init
swr_convert
swr_free

需要头文件：

libswresample/swresample.h

channel layout：指扬声器的布局，用它来表示声道信息。

// 创建文件，权限：w（写入）b（写入二进制）+（若文件不存在则创建）
char *output_path = "/Users/bq/Workspace/test/audio.pcm";
FILE *output_file = fopen(output_path, "wb+");

// 创建重采样上下文
SwrContext *swr_ctx = swr_alloc_set_opts(NULL, // ctx
    AV_CH_LAYOUT_MONO, AV_SAMPLE_FMT_S16, 44100, // 输出格式
    AV_CH_LAYOUT_STEREO, AV_SAMPLE_FMT_FLT, 44100, // 输入格式
    0, NULL
);
// 初始化
if (!swr_ctx || swr_init(swr_ctx) < 0) {
    printf("重采样上下文创建失败");
}

// 重采样输入数据
const int ch_length = 4096 / 4 / 2;
uint8_t **src_data = NULL;
int src_data_length = 0;
// 根据格式生成缓冲区
av_samples_alloc_array_and_samples(&src_data, &src_data_length, 2, ch_length, AV_SAMPLE_FMT_FLT, 0);

// 重采样输出数据
uint8_t **dst_data = NULL;
int dst_data_length = 0;
// 根据格式生成缓冲区
av_samples_alloc_array_and_samples(&dst_data, &dst_data_length, 1, ch_length, AV_SAMPLE_FMT_S16, 0);

while ((ret == 0 || ret == -35) && count < 500) {
    // 读取音频数据
    ret = av_read_frame(context, &pkt);

    if (ret == -35) continue;
    printf("[%d] pkt size is %d\n", count, pkt.size);
    count++;

    // 拷贝数据到输入
    memcpy(src_data[0], pkt.data, pkt.size);

    // 重采样，转换的数据量是每个通道的采样数
    swr_convert(swr_ctx,
        dst_data, 512, // 输出
        (const uint8_t **)src_data, 512 // 输入
    );

    // 写入文件
    //fwrite(pkt.data, (size_t)pkt.size, 1, output_file);
    fwrite(dst_data[0], 1, dst_data_length, output_file);
    fflush(output_file);

    av_packet_unref(&pkt);
}

if (src_data) {
    av_freep(&src_data[0]);
}
av_freep(&src_data);
if (dst_data) {
    av_freep(&dst_data[0]);
}
av_freep(&dst_data);
swr_free(&swr_ctx);

// 关闭文件
fclose(output_file);
printf("完成写入");

播放测试：

ffplay -ar 44100 -ac 1 -f s16le audio.pcm

]]> FFmpeg 音视频编译基础概念 /posts/compilation_basic_concepts/ 本地编译：当前平台上编译用于当前平台的程序或库。

交叉编译：用特定的交叉编译器编译用于其他平台的程序或库。

一般的交叉编译工具链有：

CC：C语言编译器
CXX：C++编译器
AS：汇编语言编译器
AR：打包器，将.o文件打包（CC/CXX/AS编译器生成的为.o文件）
LD：连接器，将库文件和.o文件连接成可执行程序（如.out文件）
NM：查看静态库文件中的符号表
GDB：调试工具
STRIP：通过优化减小可执行文件或者库文件体积
Objdump：查看静态库或者动态库的方法签名

make

make工具用于简化编译命令，生成想要的库或程序。

make由configure文件（可执行）来配置，常用参数：

prefix：指定编译生成的库、可执行文件的路径
host：指定运行平台
cc：指定编译器
cflags：指定编译时所带的参数
ldflags：指定链接时所带的参数

一般使用步骤：

调用./configure ...命令配置make相关参数。
调用make...或者make install命令进行编译、链接，并生成可执行程序或库文件。

clang选项

控制错误和警告信息选项

-Werror：将警告转换成错误。
-Wno-error=foo：保持警告“foo”不被转换成错误，即使-Werror被指定。
-Wfoo：使能警告“foo”。
-w：禁用所有警告。
-Weverything：使能所有警告。
-pedantic：警告语言扩展。
-pedantic-errors：把语言扩展视作错误。
-Wsystem-headers：使能来自系统头文件的警告。
-ferror-limit=123：在诊断出123个错误之后停止诊断。默认是20，错误限制可以通过-ferror-limit=0来禁用。
-ftemplate-backtrace-limit=123：最多实例化123个模板在模板实例化回溯对于单个警告或错误。限制的默认是10，也可以通过-ftemplate-backtrace-limit=0来禁用。

控制调试信息

clang的调试信息生成可设置以下选项，如果有多个标志，则只使用最后一个：

-g0：不生成任何调试信息（默认）。
-gline-tables-only：只生成行号表。
-g：生成完整的调试信息。

编译相关

-D<macro>=<value>、--define-macro <arg>、--define-macro=<arg>：添加宏定义。将 <macro> 定义为 <value>（如果 <value> 省略则为 1）。
-U<macro>、--undefine-macro <arg>、--undefine-macro=<arg>：取消定义宏 <macro>，相当于#undef macro。
-llib：指定编译的源文件中所引用的外部库名称，-l和lib之间可加空格也可不加,该选项在编译阶段可加可不加，连接阶段才有效。
-Ldir：指定编译的源文件中所引用的外部库的搜索路径，-L和lib之间可加空格也可不加,该选项在编译阶段可加可不加，连接阶段才有效。连接器默认会在当前目录，系统目录搜索库，优先使用动态库，如果指定了此选项，那么将优先在dir目录下搜索库，未找到则按默认规则搜索。

备注：如果最终可执行程序是动态链接生成的，那么程序加载时默认到系统目录(一般是/usr/local/lib下)下搜索所引用的动态库(并非会到上面的dir中搜索)，如果设置了LD_LIBRAY_PATH环境变量的值，那么程序加载时动态库将优先去该路径搜索，然后按默认规则搜索。

示例：

pkg-config --cflags --libs x264
-DX264_API_IMPORTS -I/usr/local/Cellar/x264/r3049/include -L/usr/local/Cellar/x264/r3049/lib -lx264

-O0、-O1、-O2、-O3：编译器的优化级别，-O0 表示没有优化, -O1 为默认值，-O3 优化级别最高。
-static：编译器将采用静态链接。
-shared：动态链接，编译器默认。

]]> FFmpeg 音视频 Atomic也不安全 /posts/atomic_is_not_safe_either/ property属性加上atomic属性后，可以一定程度地保障多线程安全。

不安全的定义：多线程访问时出现意料之外的结果。

atomic的作用：给getter、setter加了锁，保障了进入这两个方法时是安全的。但一旦离开这两个方法，atomic就没法保障线程安全了。

加了atomic也不安全的表现：

只是getter和setter是原子操作，但使用属性进行操作的时候，这个语句不是原子的。
如果属性是指针（如类实例），对内存地址的访问，即对对象的操作，不是线程安全的。

要做到线程安全，首先要明确需要怎样粒度的线程安全，即要确定哪些代码是要线程安全的，然后对其进行同步访问，具体可以使用锁和同步队列。

参考

iOS多线程到底不安全在哪里？ - 知乎

]]> iOS Apple 多线程 RunLoop /posts/runloop/ 一般来说，一个线程只能执行一个任务，执行完成后线程就会退出。而事件循环（即一个while循环）能让线程能随时处理事件但不退出。

while (alive) {
  performTask() //执行任务
  callout_to_observer() //通知外部
  sleep() //休眠
}

RunLoop是一种事件循环。它可以让线程有任务时忙碌，没有任务时睡眠。RunLoop提供一个入口函数执行事件循环，执行后，就一直处于“接受消息->等待->处理” 的循环中，直到这个循环结束，该函数返回。

RunLoop作用：

保持程序持续运行，而不是执行完任务退出；
处理事件，这是保持运行的目的；
节省CPU资源。当RunLoop休眠的时候，CPU可以吧时间片分配给其他事务。如果RunLoop在某次循环之后，发现程序突然没有收集到更多事件供它处理，它就会休眠，停在RunLoop循环里面的某段代码上。过一会程序为RunLoop接收到了新来的事件，其循环就被系统重新激活以继续运行。

CFRunLoopRef是在CoreFoundation框架中，提供了C函数API，都是线程安全的。

NSRunLoop是CFRunLoopRef的封装，但不是线程安全的。

RunLoop的线程休眠是通过__CFRunLoopServiceMachPort函数实现的，内部使用了mach_msg函数，这是内核提供的API，实现内核层面的线程休眠。而一般while循环，CPU还是会一直执行指令，占用CPU资源。

与线程的关系

RunLoop就是用来管理线程的，当线程RunLoop开启后，线程在执行完任务后不会退出，而是处于休眠状态，随时等待接受新的任务。没有RunLoop，就不可能执行多任务，延时任务也不会执行。
线程和RunLoop一一对应，其关系存在一个全局字典中。
只能在当前线程中操作当前线程的RunLoop，而不能去操作其他线程的。
RunLoop在首次获取时创建（通过current和main获取），在线程结束时销毁。
主线程的RunLoop时系统已经创建好了；但子线程的则要自己主动创建，并启动。

API使用

CFRunLoopSourceRef

事件产生的地方。包含两个版本：

Source0：只包含一个回调函数指针，不能主动触发事件。使用时需先调用CFRunLoopSourceSignal(source)标记Source为待处理，然后手动调用CFRunLoopWakeUp(runloop)来唤醒RunLoop处理这个事件。
- 包含触摸事件处理、performSelector。
Source1：包含一个mach_port和回调函数指针，被用于通过内核和其他线程相互发送消息。这种Source能主动唤醒RunLoop线程。
- 包含给予port的线程间通信、系统事件捕捉。

如触摸事件，手指点击屏幕，首先产生一个系统事件，通过Source1来接受捕捉，然后由Springboard程序包装成Source0分发到App处理，因此在App内接收到的触摸事件就是Source0的。

CFRunLoopTimerRef

基于时间的触发器。包含一个时长和回调函数指针。

CFRunLoopObserverRef

观察者，每个Observer包含一个回调函数指针，当RunLoop状态发生变化时，观察者能通过回调接收到这个变化。可以监听：

typedef CF_OPTIONS(CFOptionFlags, CFRunLoopActivity) {
    kCFRunLoopEntry         = (1UL << 0), // 即将进入Loop
    kCFRunLoopBeforeTimers  = (1UL << 1), // 即将处理 Timer
    kCFRunLoopBeforeSources = (1UL << 2), // 即将处理 Source
    kCFRunLoopBeforeWaiting = (1UL << 5), // 即将进入休眠
    kCFRunLoopAfterWaiting  = (1UL << 6), // 刚从休眠中唤醒
    kCFRunLoopExit          = (1UL << 7), // 即将退出Loop
};

Mode

一个RunLoop包含若干个Mode，每个Mode又包含若干个Source/Timer/Observer。每次调用RunLoop的主函数时，只能指定其中一个Mode，这个Mode被称作CurrentMode。如果需要切换Mode，只能退出Loop，再重新指定一个Mode进入。这样做主要是为了分隔开不同组的Source/Timer/Observer，让其互不影响。Source/Timer/Observer称为mode item，一个item可以被同时加入多个mode。如果一个mode中没有item，则RunLoop会直接退出，不进入循环。

CommonModes：一个Mode把自己标记为“Common”属性（通过将其ModeName添加到RunLoop的commonModes中）。每当RunLoop内容发生变化时，RunLoop都会自动将_commonModeItems里的Source/Observer/Timer同步到具有“Common”标记的所有mode里。

主线程的RunLoop有两个预设的mode：kCFRunLoopDefaultMode、UITrackingRunLoopMode。这两个Mode都被标记为“Common”属性。defaultMode是App平时所处的状态，trackingRunLoopMode是追踪ScrollView滚动时的状态。所以把Timer添加到defaultMode时，在滚动列表时，RunLoop会将mode切换为trackingRunLoopMode，使得Timer不会回调。

要让Timer在滚动时也能回调，可以把Timer分别添加到defaultMode和trackingRunLoopMode中，或者加入到顶层的commonModeItems中。

具体应用

dispatch_get_main_queue

在主线程中转交给RunLoop调起该方法。注意，只是回到主线程这一步是交给RunLoop处理。

AutoreleasePool

NSAutoreleasePool是对象引用计数自动处理器。当对象加入到NSAutoreleasePool时，会对其retain，当NSAutoreleasePool结束时，会对其所有对象发送一次release消息。NSAutoreleasePool可以以栈的方式组织。

使用容器的block版本的枚举器时会自动添加AutoreleasePool。for循环则没有。

iOS在主线程的RunLoop中注册了2个Observer：

第1个Observer监听kCFRunLoopEntry（即将进入RunLoop）事件，会调用objc_autoreleasePoolPush()创建自动释放池，使用最高优先级保证创建在其他回调之前进行。
第2个Observer
- 监听kCFRunLoopBeforeWaiting（即将进入休眠）事件，会调用objc_autoreleasePoolPop()、objc_autoreleasePoolPush()释放旧的池并创建新的池。
- 监听kCFRunLoopExit（即将退出Runloop）事件，会调用objc_autoreleasePoolPop()释放自动释放池，使用最低优先级保证释放池在其他所有回调之后进行。

AutoreleasePool的释放时机

系统在每个runloop中都创建一个Autorelease Pool，并在runloop的末尾进行释放，所以，一般情况下，每个接受autorelease消息的对象，都会在下个runloop开始前被释放。也就是说，在一段同步的代码中执行过程中，生成的对象接受autorelease消息后，一般是不会在作用域结束前释放的。Autorelease对象出了作用域之后，会被添加到最近一次创建的自动释放池中，并会在当前的 runloop 迭代结束时释放。

所以在AutoreleasePool声明的局部变量，在外面就释放了。

子线程会默认包裹一个AutoreleasePool，当线程退出时才释放其中的变量。

事件响应

苹果注册了一个 Source1 (基于 mach port 的) 用来接收系统事件，其回调函数为 __IOHIDEventSystemClientQueueCallback()。

手势识别

界面更新

定时器

CFRunLoopTimerRef。CADisplayLink。

performSelecter:afterDelay:

内部会创建定时器添加到当前的RunLoop中。

参考

]]> iOS Apple 多线程锁 /posts/lock/ 概念

锁：在执行多线程时，用于强行限制资源访问的同步机制，即用于并发控制中保证对互斥要求的满足。

锁都是为了互斥（Mutual exclusion，缩写 Mutex）。即防止两条线程同时对同一公共资源（如全局变量）进行读写的机制。

自旋转锁

忙等待的，会一直在那空转（循环），直到使用锁的一方释放。自旋锁不会让线程状态发生切换，一直处于用户态，即线程一直都是active的，不会让线程进入阻塞/休眠，减少了不必要的上下文切换，执行速度快。

以下情况选用自旋锁：

预计线程等待锁的时间很短；
加锁代码（临界区）经常被调用，但竞争情况发生概率很小，对安全性要求不高；
CPU资源不紧张或多核处理器

非自旋锁

非忙等待的，操作内核，将自己的状态改为阻塞挂起来，从待执行队列中移出，等待其他线程唤醒。在获取不到锁的时候会进入阻塞状态，从而进入内核态，当获得锁的时候需要从内核态恢复，需要线程上下文切换，影响锁的性能。

以下情况使用非自旋锁：

预计线程等待锁的时间比较长；
单核处理器；
临界区有IO操作；
临界区代码复杂度、循环量大
临界区竞争非常激烈，对安全性要求高

阻塞与休眠

阻塞：等待一个中断事件的到来
休眠：等待一个超时事件的到来

iOS中的锁

互斥锁：

pthread_mutex_t
NSLock、NSConditionLock（封装了pthread_mutex_t，attr = 普通）
NSDistributedLock（封装了pthread_mutex_t，attr = 递归）
- 引用计数表的数据结构中使用到，对一张表的多个部分进行同时操作。
NSCondition（封装了pthread_mutex_t和pthread_cond_t）
@synchronized

递归锁（基于互斥锁）：

NSRecursiveLock

自旋锁：

OSSpinLock

NSLock

普通的互斥锁。通过阻塞线程实现。

NSConditionLock

条件锁。比NSLock多了个NSInteger condition作为相等的条件。与condition相等则加锁。

NSRecursiveLock

递归锁。与NSLock类似，但可以在同一线程重复加锁而不死锁。实现递归过程原子性。

OSSpinLock

自旋锁。

os_unfair_lock

用于替代OSSpinLock，解决了优先级反转的问题，但其本质是互斥锁。atomic内部也使用该锁。

NSCondition

协调线程间的顺序执行。wait-signal。先执行一部分任务，然后跳转到其他地方执行，完了以后再回来。

@synchronize(object)

通过判断传入的对象是否相同，才满足互斥。

dispatch_semaphore

信号量。限制有限数量的资源使用。

pthread_mutex

互斥锁。

实现多线程多读单写

实现方案：

pthread_rwlock，读写锁
dispatch_barrier_async，异步栅栏调用
- 需要在一个自己创建的并发队列中执行屏障。

//手动创建一个并发队列
dispatch_queue_t queue = dispatch_queue_create("rw_queue", DISPATCH_QUEUE_CONCURRENT);
dispatch_async(queue, ^{ // 普通异步
    /*
     读操作代码
     */
});
dispatch_barrier_async(queue, ^{ // 屏障异步
    /*
     写操作代码
     */
});

参考

]]> iOS Apple 多线程 Concurrency Programming Guide /posts/concurrency_pg_introduction/ 介绍

原文

并发是多个事情同时发生的概念。随着 CPU 核数的增加，开发者需要新的方式去利用它们。尽管像OS X和iOS这样的操作系统能够并行地运行多个程序，但这些程序大多在后台运行，执行的任务几乎不需要持续的处理器时间。当前的前台程序才是既能吸引用户的注意力，又能让计算机忙碌的程序。如果一个程序有很多任务要执行，但只保持一小部分可用的内核被占用，这些额外的处理资源就被浪费了。

以前程序引入多线程需要创建一个或多个线程。不幸的是写多线程代码很具挑战。线程是必须手动管理的底层技术。考虑到系统不同的负载和底层硬件，程序的最优线程数会动态变化，实现一个正确的线程方案变得异常困难。另外，通常与线程使用的同步机制会增加软件设计的复杂性和风险，而无法保证性能的提高。

与传统的基于线程的系统和程序相比，OS X和iOS都采用了一种更加异步的方法来执行并发任务。程序不需要直接创建线程，而只需要定义特定的任务，然后让系统执行这些任务。通过让系统管理线程，程序获得了原始线程不可能达到的可扩展性水平。程序开发人员也获得了一个更简单、更有效的编程模型。

本文描述了在程序中实现并发应使用的技术和工艺。本文描述的技术在OS X和iOS中都可用。

关于术语的说明

在进入关于并发性的讨论之前，有必要定义一些相关的术语以防止混淆。对UNIX系统或较早的OS X技术比较熟悉的开发者可能会发现本文中的术语“任务”、“进程”和“线程”的用法有些不同。本文档以下列方式使用这些术语：

术语线程是用来指代码的独立执行路径。OS X中线程的底层实现是基于POSIX线程API的。
术语进程是指一个正在运行的可执行文件，它可以包含多个线程。
术语任务是用来指需要执行的工作的抽象概念。

关于这些术语和本文所使用的其他关键术语的完整定义，可参阅术语表。

扩展阅读

本文重点介绍了在程序中实现并发性的首选技术，并不包括线程的使用。如果你需要关于使用线程和其他线程相关技术的信息，参阅Threading Programming Guide。

]]> 翻译 Apple 多线程 Concurrency Programming Guide Concurrency Programming Guide：并发与程序设计 /posts/concurrency_pg_concurrency_and_application_design/ 计算机的早期，单位时间内它可以做的工作是由 CPU 的时钟速度决定的。但随着技术的进步，处理器的设计变得更加紧凑，热量和其他物理限制开始限制处理器的最大时钟速度。于是，芯片制造商寻找其他方法来提高其芯片的总性能。他们最终选择的解决方案是增加每个芯片上的处理器内核数量。通过增加内核数量，单个芯片可以在不增加CPU速度或改变芯片尺寸或热特性的情况下每秒执行更多指令。唯一的问题是如何利用这些额外的内核。

为了利用多核，计算机需要软件能够同时做多件事。对于像 OS X 或 iOS 这样的现代操作系统，同时能有上百个程序在跑，在不同的核调度是可能的。但是了，大部分程序是系统守护程序（system daemons）或后台程序，这些程序消耗很少的资源。然而对于每个程序来说，真正需要的是如何更有效的使用多余的核。

传统的使用多核的方式是创建多个线程。然而随着核数目的提高，线程方案有其自身的问题。最大的问题是，线程代码不能很好地扩展到任意数量的内核。你不能创建与核心等量的线程，然后期望程序跑得很好。程序自身去计算使用多少核心是很高效的本身是一件很有挑战的事。即使知道了数目，给这么多线程编写代码也是很有挑战的。

总的来说，程序需要一种方式来利用可变的核心。一个程序进行的工作也需要根据变化的系统情况来自动伸缩。方便必须足够简单，不增加利用这些核心做工作的总量。Apple 的操作系统提供了这样的解决方案，这章将会讲讲构成该方案的技术，以及一些你可以使用的设计调整。

远离线程

尽管线程已经存在多年，也还有人在用，但是它们没有解决可伸缩执行多个任务的普遍问题。使用线程的话，实现可伸缩方案的负担落在了开发者自身上。你必须决定使用多少个线程，并根据系统条件的变化动态调节。另一个问题是你的程序承担着创建和维护线程的大部分成本。

OS X 和 iOS 采用了 asynchronous design approach 来解决并发的问题，而不是依赖于线程。异步函数在操作系统中已经存在多年，并被使用来启动需要长时间的任务，如从硬盘中读取数据。当被调用时，一个异步函数在幕后会做些工作来启动一个任务，并在任务真正启动前返回。往往，这些工作设计到获得一个后台线程，在这个线程上执行上述任务，当任务完成的时候发送一个通知给调用者（通常通过回调函数）。在过去，如果某个你想用的异步函数不存在的话，你就需要编写你自己的异步函数和创建你自己的线程。但是现在，OS X 和 iOS 提供了允许你执行异步任务，但不需要你管理任何线程的技术。

其中的一个启动异步任务的技术叫做 Grand Central Dispatch （GCD）。这项技术将你经常在自己程序中写的管理线程的代码提出来，移到系统的层级里。你所需要做的是定义你的任务，将这些任务添加到相应的调度队列中 (dispatch queue)。GCD 负责创建需要的线程，并在这些线程上规划这些任务。由于线程管理现在是系统的一部分，GCD提供了一个整体的任务管理和执行方案，提供了比传统线程更好的效率。

操作队列是行为跟调度队列 (dispatch queues) 非常像的 Objective-C 对象。你定义自己想要执行的任务，并把它们添加到操作队列中，操作队列会替你负责线程管理，保证任务在系统上的执行尽可能地迅速和高效。

调度队列

调度队列是基于 C 的一个执行自定义任务的机制。一个调度队列要么串行 (serially) 要么并行 (concurrently) 地执行任务，但始终是先入先出的顺序（换句话说，一个调度队列总是按照进入队列的顺序从队列中取出执行任务）。串行调度队列一次只运行一个任务，等到该任务完成后再去排队并启动新的任务。相比之下，并发调度队列会尽可能多地启动任务，而不等待已经启动的任务完成。

调度队列有些其他好处：

它们提供了直接并简单的编程接口。
它们提供了自动全面的线程池管理。
它们提供了汇编性能优化。
内存使用更高效（因为线程栈不会在程序内存中停留）。
在负载下不会损害内核。
异步地调度任务到调度队列不会导致死锁。
在资源 contention 的时候可以自由伸缩。
比锁和其他同步原语更高效。

提交给调度队列的任务必须封装在一个函数或 block 对象中。 block对象是 OS X v10.6 和 iOS 4.0 引入的一个跟函数指针概念相似的 C 语言特性，但相对于函数指针，它有其他优点。除了在 block 自身的词法域定义 block 外，你通常可以在另一个函数或方法中定义 block，这样 block 就可以访问函数或方法内的变量了。当把 block 提交到调度队列时，block 同样可以从原有的作用域中移出，并拷贝到堆中。所有这些语义使得使用较少代码实现非常动态的任务变得可能。

调度队列是Grand Central Dispatch技术的一部分，是C语言运行时的一部分。关于在程序中使用调度队列的更多信息，可参阅调度队列。关于block的更多信息和它们的优势，可参阅Blocks Programming Topics。

调度源

调度源是一种基于 C 的异步处理特定系统事件的机制。一个调度源封装了一个特定系统事件类型的信息，并在该事件发生时将特定的block对象或函数提交给调度队列。你可以使用调度源来监听以下系统事件：

Timers
Signal handlers
Descriptor-related events
Process-related events
Mach port events
Custom events that you trigger

调度源是Grand Central Dispatch技术的一部分。关于使用调度源在程序中接收事件的信息，可参阅调度源。

操作队列

操作队列相当于一个并发的调度队列，由NSOperationQueue类实现。尽管调度队列总是以先进先出的顺序执行任务，而操作队列在确定任务的执行顺序时会考虑到其他因素。主要因素是任务之间配置的依赖。配置依赖关系可以用其构建复杂的执行顺序。

提交给操作队列的任务必须是 NSOperation 类的实例。一个操作对象是一个你需要执行的任务和任务所需数据 Objective-C 封装的对象。因为 NSOperation 类本质上是一个抽象基类，你通常需要自定义子类来执行你的任务。但Foundation框架也提供了一些具体子类可直接使用。

操作对象会产生 KVO 通知，你可以用它来监听你的任务的进度。尽管操作队列总是并发地执行操作对象，但你可以使用依赖关系来确保它们在需要时被串行执行。

关于如何使用操作队列，以及如何定义自定义操作对象的更多信息，可参阅操作队列。

异步设计技术

在你考虑重新设计你的代码来支持并发的时候，你应该问下你自己这样做是否值得。并发可以通过让你的主线程专门响应用户事件来保证程序的响应性；通过使用多个核心可以让你的代码给定时间内做更多的工作。然而，并发也会增加开销，增加代码的整体复杂性，使得代码难以编写和调试。

除了增加复杂性外，并发并不是一个你在程序的产品周期最后可以移接的特性。正确的使用它需要仔细的考虑你的程序所做的任务和这些任务需要的数据结构。做的不对的时候，反而会降低你代码的效率和响应性。因此，在设计开始的时候很有必要花些时间来设定你的目标，设计执行的方案。

每一个程序有不同的要求和不同的任务需要。几乎不可能有一个文档来告诉你怎么设计你的程序和相关的任务。不过，下面的章节试图提供一些指南，帮助你在设计过程中做出正确的选择。

定义程序的预期行为

在你开始考虑给你的应用添加并发之前，你应首先定义正确的程序行为。理解你应用的期望行为给你稍后验证你的设计可能，同样给你关于引入并发可能带来的性能提升的想法。

你应该做的第一件事是遍历程序要做的任务和每个任务所需要的对象或数据结构。这些任务可能包含用户行为引起的，也可能是定时器引起的。

之后列出优先级高的任务，细分认为到小的步骤。在这个层级，你应该主要关注你对数据结构的修改和这些对象的修改怎么影响全局状态。你应该注意到不同的对象、数据结构间的依赖。一个对象的修改是否会影响其他对象。如果这些对象可以相互独立地进行修改，这可能是一个可以同时进行修改的地方。

分解出可执行的工作单元

从你对程序任务的理解，你应该已经可以确定哪些地方你可以使用并发来优化你的代码。如果改变任务执行的步骤会影响最终的结果的话，可需要继续维持这些步骤的顺序；否则如果改变步骤不影响最终的结果的话，你可以考虑并发执行这些步骤。这两种情况下，都要定义可执行的工作单元来代替你任务中需要执行的步骤。然后使用block或操作对象封装工作单元内容，并分发到合适的队列中。

对于每个确定的可执行工作单元，一开始不必太担心工作量的大小。尽管启动线程总有一定的开销，但使用调度队列和操作队列在大多情况下，其开销会比传统的线程要小很多。因此，使用队列比使用线程可以更高效的执行这些比较小的工作单元。当然你应常测量实际性能，并根据需要调整任务的大小。但是还是那句话，开始的时候，没有任务应该被视为太小。

确定需要的队列

现在你的任务已经被分解为不同的工作单元，使用block或操作对象进行封装，你需要定义执行任务的队列。对于一个给定的任务，你需要检查创建的block或操作对象和它们的执行顺序，以正确完成任务。

如果你使用block来完成任务，你可以添加block到串行或并行调度队列。如果需要特定的顺序，则将block添加到串行调度队列。如果顺序不重要，则可以将block添加到并行调度队列，或根据你的需要，把它们添加到多个不同的调度队列中。

如果你通过操作对象来实现你的任务，队列的选择往往没配置这些对象有趣。要串行的执行这些任务，你必须配置这些对象间的依赖。依赖可以确保在依赖的操作对象完成任务时才执行后续的操作。

提高效率的技巧

除了重构你的代码成较小的任务，将任务加到队列，还有其他的方式使用队列来提高代码的整体效率：

如果内存使用是关键因素，考虑直接在任务中计算值。直接计算数值会使用给定处理器内核的寄存器和缓存，这比主内存快得多。当然要经过测试确定这一优化是否能提高性能。
尽早找出出串行的任务，尽可能使它们更并发。如果任务因为资源共享而必须串行，则可以考虑移除共享资源，或为每个任务分配资源的副本以消除共享。
避免使用锁。有了调度队列和操作队列，锁在大多数情况下是不需要的。与其使用锁来保护一些共享资源，不如指定一个串行队列（或使用操作对象依赖）来以正确的顺序执行任务。
尽可能的依赖系统框架。使用系统提供的API可以节省精力，并能最大限度地提高并发性。

性能影响

操作队列、调度队列和调度源是为了让开发者更容易地并发执行更多的代码。然而，这些技术并不保证能给提高程序的执行和响应效率。以技能有效满足需求，又不会对程序的其他资源造成过度负担的方式来使用队列，仍是开发者的任务。例如，尽管你可以创建 10,000 个操作对象，并将它们提交给操作队列，但是这么做会让程序分配大量的内存，最终降低程序的性能和体验。

在引入任何并发到你的代码之前，不论是通过队列还是线程，你都应该收集衡量影响应用当前性能的基本标准。在引入了这些机制后，你需要重新收集这些信息，然后对比以确定程序的整体效率是否得到了提高。如果引入并发导致了程序的执行和响应效率降低，则应使用性能工具来检查潜在的原因。

关于性能和可用的性能工具的介绍，以及更高级的性能相关主题的链接，可参阅Performance Overview。

并发和其他技术

把代码分解成模块化的任务，是试图该缠程序并发性的最好方法。然而这种设计方法并不能满足所有的场景。根据你的任务，可能还有其他选择为程序的整体并发性提供额外的改进。

OpenCL和并发性

OS X 中 Open Computing Language (OpenCL) 是一个基于标准的技术，用来在 GPU 上进行通用计算。如果你有定义好的计算需要应用在大型数据上，OpenCL 是不错的技术。例如，你也许用 OpenCL 在图像的像素上进行滤镜操作，或者在多个值上进行复杂的数学计算。换句话说，OpenCL 更多是用于处理数据可被并行操作的问题。

尽管 OpenCL 很适合执行大规模的并行数据操作，除此之外可能并不适合其他场景的计算。需要大量的精力来准备和转移数据和 the required work kernel (不知道咋翻译) 到显卡上，以便显卡可以计算。同样需要大量的精力才能从 OpenCL 获取操作结果。因此，任何与系统交互的任务一般都不建议使用OpenCL。例如，你不会使用OpenCL来处理文件或网络流的数据。相反，使用OpenCL执行的工作必须足够的独立，以便它可以被传输到GPU并独立计算。

关于OpenCL和如何使用它的更多信息，可参阅OpenCL Programming Guide for Mac。

何时使用线程

尽管操作队列和调度队列是并发执行任务的首选方式，但它们并不是万金油。根据你的程序，有时仍可能需要创建自定义线程。当你确实需要创建线程的时候，你应该尽量创建少的线程。同时你只应用线程解决那些用其他方式解决不了的问题。

线程仍是实现实时运行代码的方案。调度队列会尽可能以最快速度执行它们的任务，但它仍没有解决实时的问题。如果你需要在后台执行的代码要求更多可预测的行为，线程可能仍是更好的选择。

与任何线程编程一样，你应总是理智地使用线程，只有在绝对必要时才使用。关于线程包以及如何使用它们的更多信息，可参阅Threading Programming Guide.。

总结

单位时间内的工作量是由CPU时钟速度决定的。
随着技术的进步，制造商通过提高CPU核数来提高性能。
使用线程最大的问题是，线程代码如何充分利用内核。
对于开发者而言，使用线程的挑战：
- 可伸缩执行多个任务的问题要开发者自行解决。
- 程序承担着创建和维护线程的大部分成本。
GCD是通过由系统管理的线程池，可以替代直接使用线程实现的绝大部分功能，并提供更高的效率。开发者的任务次需要定义任务，并添加到相应的调度队列中。
调度队列的调度单元是函数或block；操作队列的调度单元是操作对象。工作单元的代码都是顺序执行的。
调度队列有些其他好处：
- 它们提供了直接并简单的编程接口。
- 它们提供了自动全面的线程池管理。
- 它们提供了汇编性能优化。
- 内存使用更高效（因为线程栈不会在程序内存中停留）。
- 在负载下不会损害内核。
- 异步地调度任务到调度队列不会导致死锁。
- 在资源 contention 的时候可以自由伸缩。
- 比锁和其他同步原语更高效。
操作队列相当于一个并发的调度队列。其执行顺序除了队列的先进先出外，主要还考虑操作对象之间的依赖。
经测试，对于异步队列，无论是使用调度队列还是操作队列，执行任务的顺序都不能依赖于任务入队的顺序。
OpenCL只适合并行处理大规模数据，不适合一般多线程场景。
使用队列相比直接使用线程，最大的优势是可预测性。二使用线程则是为了追求实时执行。

使用技巧：

提高效率的技巧（以下技巧都要经过性能测试）：
- 想要最快，就直接计算值，这会直接使用处理器内涵额的寄存器和缓存。
- 尽可能地并发。
- 避免使用锁。
- 尽量用系统API。

]]> 翻译 Apple 多线程 Concurrency Programming Guide Concurrency Programming Guide：操作队列 /posts/concurrency_pg_operation_queues/ Cocoa操作对象是一种以面向对象的方式来封你需要异步执行的任务。操作对象被设计成跟操作队列队列一起使用，或者单独使用。因为是基于Objective-C实现的，操作对象可同时在 OS X 和 iOS 中使用。

关于操作对象

一个操作对象是一个 NSOperation 类的实例，用其封装需要执行的任务。NSOperation 是抽象基类，如果你要做啥具体的任务，必须要通过其子类来完成。尽管是抽象基类，NSOperation 仍然提供了重要的基础设施，以减少子类的工作量。另外，Foundation框架提供了两个具体的子类供开发者直接使用。

类	描述
`NSInvocationOperation`	该类可以直接使用，通过程序对象和selector直接创建一个操作对象。你可以对已有的任务方法使用该类。因为其不需要子类化，所以也可以用该类以更动态的方式创建操作对象。关于如何使用该类的更多信息，可参阅Creating an NSInvocationOperation Object。
`NSBlockOperation`	该类可以直接使用，可以执行一到多个block。因为其可以执行一到多个block，所以该操作对象使用组的语义进行操作，只有当相关的block都执行完毕时，操作对象本身才算完成。关于使用该类的更多信息，可参阅Creating an NSBlockOperation Object。
`NSOperation`	该类是用于自定义操作对象的基类。通过子类化`NSOperation`，你可以完全控制自己的操作实现，包括改变操作执行和汇报状态的默认方式。关于如何自定义操作对象的更多信息，可参阅自定义操作对象。

所有操作对象都支持以下特性：

支持在操作对象间建立基于图的依赖关系。关于如何配置依赖，可参阅配置交互依赖。
支持一个可选的完成回调block，该block在任务结束后执行。(仅限OS X v10.6及以后版本。）关于如何设置完成回调block，可参阅Setting Up a Completion Block。
支持通过 KVO 观察任务执行的状态。关于如何观察KVO通知，可参阅Key-Value Observing Programming Guide。
支持对操作对象优先级排序，从而改变操作对象间相对执行的顺序。了解更多信息，可参阅Changing an Operation’s Execution Priority。
支持取消的语义，当任务在执行的过程中可以取消任务。有关如何取消操作对象，可参阅Canceling Operations。有关如何在自己的操作对象中支持取消，可参阅Responding to Cancellation Events。

操作对象被设计来提高应用的并发水平。操作对象也是组织和封装程序行为到简单离散块的方式。你可以把一到多个操作提交到一个队列，让相应的工作在一到多个单独的线程上异步执行，而不是全都集中在程序主线程上执行。

并发与非并发操作对象

尽管通常把操作添加操作队列来执行，但这样做不是必须的。也可以直接手动调用start来执行一个操作对象，但这样做并不能保证与其他代码并行执行。NSOperation类的isConcurrent告诉你该操作对象相对于调用 start 方法的线程是否是异步的。默认返回 NO，表示操作对象同步地跑在调用的线程上。

如果你需要实现一个并发的操作对象，也就是说，相对于调用线程而言是异步执行的，你必须写额外的代码异步的启动操作对象。例如，你可能创建一个线程，调用异步系统函数，或者任何保证 start 方法启动任务，并立即返回，而且很有可能在任务完成之前返回。

大部分开发者应该绝不需要实现并发操作对象。如果你总是将操作对象添加到队列中，你不需要实现并发操作对象。当你提交一个非并发操作对象到操作队列的时候，队列自身会创建一个执行操作对象的线程。因此，添加一个非并发操作对象到操作队列仍然导致了操作对象的异步执行。你应只在需要异步执行操作对象但又不添加到操作队列的情况下才定义并发操作对象。

关于如何创建一个并发操作对象，可参阅Configuring Operations for Concurrent Execution和NSOperation Class Reference。

创建NSInvocationOperation对象

NSInvocationOperation 类是 NSOperation 的具体子类，运行时调用你指定对象的selector。使用这个类可以减少大量的自定义操作对象的需求，尤其是修改程序已实现的对象和任务方法时。当你希望调用的方法可以修改时也可以使用该类。例如，你可以使用一个调用操作来执行一个基于用户输入动态选择的selector。

创建invocation操作对象很简单。创建并初始化该类的实例，把需要执行的对象和selector传递给初始化方法。清单2-1展示了一个自定义类的两个方法，演示了创建过程：

清单2-1 创建一个NSInvocationOperation对象

@implementation MyCustomClass
- (NSOperation*)taskWithData:(id)data {
    NSInvocationOperation* theOp = [[NSInvocationOperation alloc] initWithTarget:self
                    selector:@selector(myTaskMethod:) object:data];
 
   return theOp;
}
 
// This is the method that does the actual work of the task.
- (void)myTaskMethod:(id)data {
    // Perform the task.
}
@end

创建NSBlockOperation对象

NSBlockOperation 同样是 NSOperation 的具体子类，用来封装一个或多个block。这个类给那些已经使用了操作队列并不想创调度发队列的应用提供了面向对象的封装。通过操作队列可以使用那些调度队列没有的一些特性，如操作对象依赖、KVO通知等。

当你创建一个block操作对象的时，通常在初始化的时候你添加一个 block；后续你还可以添加多个block。当执行一个 NSBlockOperation 对象的时候，该对象会把所有的 block提交给默认优先级的并发调度队列上。对象会等待所有的 block 执行完毕。当最后的一个 block 执行完后，对象会置自己的状态为完成。因此，你可以使用一个 block操作对象来追踪一组执行的 block，就像使用一个线程 join merge 多个线程执行的结果。因为 block操作对象跑在独立的线程上，程序的其他线程中的任务不受影响，同时可以等待 block操作对象的完成。

清单2-2显示了一个如何创建NSBlockOperation对象的简单示例。该block本身没有参数，也没有重要的返回结果。

清单2-2 创建一个NSBlockOperation对象

NSBlockOperation* theOp = [NSBlockOperation blockOperationWithBlock: ^{
    NSLog(@"Beginning operation.\n");
    // Do some work.
}];

创建了 block 操作对象之后，你可以使用 addExecutionBlock: 方法添加更多的 block。如果你需要串行执行 block，你必须直接把 block 提交给指定的调度队列。

自定义操作对象

如果 block 操作对象和 invocation 操作对象都不能满足程序的需求，你可以直接实现 NSOperation 的子类，添加需要的行为。NSOperation 类对所有操作对象提供了通用的子类，也提供了大量的基础设施来处理依赖管理和 KVO 通知。然而，仍然有些时候你需要补充先有的基础设施以确保操作行为的正确。要做的额外工作量取决于你在实现一个非并发还是并发操作对象。

定义一个非并发操作比并发操作简单得多。对于非并发操作对象而言，所有你需要做的是 main task 和合理的响应取消事件；已经存在的基础设施已经为你完成了其他工作。对于一个并发操作对象而言，你必须使用自定义的代码替换掉现有的基础设施。下来的部分将要说明怎么实现这两种类型。

执行Main Task

每个操作对象至少实现以下方法：

一个自定义的初始化方法
main方法

你需要一个自定义的初始化方法将你的操作对象放入已知的状态，一个 main 方法来执行的你的任务。当然可以根据需要实现额外的方法，如下：

打算从 main 方法调用的自定义方法
设置数据和获取结果的属性访问器
NSCoding中的归档和解档方法

下例展示了一个自定义 NSOperation 的启动模板（代码中没有展示在怎么处理 cancellation，但展示了你通常需要的方法）。

清单2-3展示了一个自定义NSOperation子类的初始模板。(这个清单没有显示如何处理取消，但显示了你通常实现的方法。关于处理取消，可参阅Responding to Cancellation Events）。) 该类的初始化方法需要一个单一的对象作为数据参数，并在操作对象中存储对它的引用。main方法表面上是对该数据对象进行处理，然后将结果返回给程序。

清单2-3 定义一个简单的操作对象

@interface MyNonConcurrentOperation : NSOperation
@property id (strong) myData;
-(id)initWithData:(id)data;
@end
 
@implementation MyNonConcurrentOperation
- (id)initWithData:(id)data {
   if (self = [super init])
      myData = data;
   return self;
}
 
-(void)main {
   @try {
      // Do some work on myData and report the results.
   }
   @catch(...) {
      // Do not rethrow exceptions.
   }
}
@end

响应取消事件

在操作对象开始执行后，它要么持续执行到任务完成，要么被显式取消。取消可以发生在任何时候，甚至在操作对象开始执行之前。尽管 NSOperation 类给用户提供了一种方式来取消一个操作对象，但是否识别取消事件是还是开发者决定的。如果一个操作对象被错误地停止了，可能就没有办法回收已经分配的资源。所以，操作对象应该在执行的过程中检查取消事件，并在操作过程中发生取消事件时优雅地退出。

为了支持操作对象的取消，你所要做的就是定期从你的自定义代码中调用对象的isCancelled方法，如果它返回YES就立即返回。无论你的操作持续时间长短，也无论你是直接对NSOperation进行子类化还是使用其具体的子类，支持取消都很重要。isCancelled方法本身是非常轻量的，可以在不影响性能的情况下频繁调用。当设计你的操作对象时，你应考虑在代码中的以下地方调用isCancelled方法：

在执行任何实际工作前立即调用；
每次循环迭代至少调用一次，如果单次循环确实很长的话，可以多次检查；
在代码中任何一个相对容易中止操作的地方；

清单2-4展示了一个非常简单的示例，说明如何在一个操作对象的main方法中响应取消事件。在这种情况下，每次通过while循环调用isCancelled方法，允许在工作开始前快速退出，并以一定的间隔再次退出。

- (void)main {
   @try {
      BOOL isDone = NO;
 
      while (![self isCancelled] && !isDone) {
          // Do some work and set isDone to YES when finished
      }
   }
   @catch(...) {
      // Do not rethrow exceptions.
   }
}

尽管上述代码中没有包含清理资源的代码，但是你自己的代码中应该清理任何你分配的资源。

为并发执行配置操作对象

操作对象默认以同步方式执行，也就是说，它们在调用其start方法的线程中执行任务。因为操作队列为非并发操作提供了线程，尽管如此，大多数操作仍然以异步方式运行。然而，如果你打算手动执行操作，并且仍然希望它们异步运行，你就可以通过把操作对象定义为一个并发操作来达到目的。

下表列出了在实现并发操作对象时需要 override 的方法：

方法	描述
`start`	必须所有的并发操作都必须覆盖这个方法，用自定义实现替换默认行为。要手动执行一个操作，要调用其`start`方法。因此，你对这个方法的实现是你的操作的起点，是你设置线程或其他执行环境来执行你的任务的地方。自定义实现在任何时候都不能调用`super`方法。
`main`	可选这个方法通常用于实现与操作对象相关的任务。尽管你可以在`start`方法中执行任务，但使用这个方法实现任务可以使你的设置和任务代码更清晰地分开。
`isExecuting` `isFinished`	必须并发操作负责设置其执行环境并向外部客户报告该环境的状态。因此，一个并发操作必须维护一些状态信息，以知道它何时在执行任务，何时完成了该任务。然后，它必须使用这些方法汇报该状态。对这些方法的实现必须是安全的，可以从其他线程同时调用。当改变这些方法所汇报的值时，你还必须为预期的key path生成适当的KVO通知。
`isConcurrent`	必须要确定操作对象是一个并发操作，覆盖这个方法并返回`YES`。

这节剩余的部分展示 MyOperation 类的实现示例，展示了实现一个并发操作所需的基本代码。 MyOperation 只是简单在它创建的线程上执行 main 方法。main 方法的具体内容在这里是不相关的。示例的意义在于展示在定义一个并发操作时需要提供的基础设施。

清单2-5显示了MyOperation类的接口和部分实现。MyOperation类的isConcurrent、isExecuting和isFinished方法的实现相对简单。isConcurrent方法应该简单地返回YES，表示这是一个并发操作。isExecuting和isFinished方法只是返回存储在类本身的实例变量中的值。

清单2-5 定义一个并发操作队列

@interface MyOperation : NSOperation {
    BOOL        executing;
    BOOL        finished;
}
- (void)completeOperation;
@end
 
@implementation MyOperation
- (id)init {
    self = [super init];
    if (self) {
        executing = NO;
        finished = NO;
    }
    return self;
}
 
- (BOOL)isConcurrent {
    return YES;
}
 
- (BOOL)isExecuting {
    return executing;
}
 
- (BOOL)isFinished {
    return finished;
}
@end

清单2-6显示了MyOperation的start方法。这个方法的实现是最小的，以便展示你绝对必须执行的任务。在这种情况下，该方法只是启动了一个新的线程，并配置它来调用main方法。该方法还更新了executing成员变量，并为isExecuting key path生成KVO通知，以反映该值的变化。完成工作后，这个方法就简单地返回，让新分离的线程来执行实际的任务。

清单2-6 start方法

- (void)start {
   // Always check for cancellation before launching the task.
   if ([self isCancelled])
   {
      // Must move the operation to the finished state if it is canceled.
      [self willChangeValueForKey:@"isFinished"];
      finished = YES;
      [self didChangeValueForKey:@"isFinished"];
      return;
   }
 
   // If the operation is not canceled, begin executing the task.
   [self willChangeValueForKey:@"isExecuting"];
   [NSThread detachNewThreadSelector:@selector(main) toTarget:self withObject:nil];
   executing = YES;
   [self didChangeValueForKey:@"isExecuting"];
}

清单2-7显示了MyOperation类的其余实现。正如在清单2-6中看到的，main方法是一个新线程的入口。它执行与操作对象相关的工作，并在工作最终完成时调用自定义的completeOperation方法。然后completeOperation方法为isExecuting和isFinished key path生成所需的KVO通知，以反映操作状态的变化。

清单2-7 在完成时更新操作对象状态

- (void)main {
   @try {
 
       // Do the main work of the operation here.
 
       [self completeOperation];
   }
   @catch(...) {
      // Do not rethrow exceptions.
   }
}
 
- (void)completeOperation {
    [self willChangeValueForKey:@"isFinished"];
    [self willChangeValueForKey:@"isExecuting"];
 
    executing = NO;
    finished = YES;
 
    [self didChangeValueForKey:@"isExecuting"];
    [self didChangeValueForKey:@"isFinished"];
}

即使一个操作被取消了，你也应始终通知KVO观察者你的操作现在已经完成了它的工作。当一个操作对象依赖于其他操作对象的完成时，它将监听这些对象的isFinished key path。只有当所有对象都汇报已经完成时，依赖的操作才会发出信号说它已经准备好运行。因此，未能生成一个完成通知可能会阻止程序中其他操作对象的执行。

维护KVO

NSOperation 类对以下 key path 是 KVO 的：

isCancelled
isConcurrent
isExecuting
isFinished
isReady
dependencies
queuePriority
completionBlock

如果你覆盖了 start 方法或大幅度的自定义一个 NSOperation 对象，而不是覆盖 main 方法，你需确保自定义对象仍然保持着这些 key path 的 KVO 兼容性。当你覆盖 start 方法的时候，你应该关心的 key path 是 isExecuting 和 isFinished。这些 key paths 是重写 start 方法最常影响到的。

如果你想实现对其他操作对象以外的依赖关系的支持，你也可以覆盖isReady方法并强制它返回NO直到你的自定义依赖关系得到满足。（如果你实现了自定义的依赖关系，如果你仍然支持由NSOperation类提供的默认依赖关系管理系统，确保从isReady方法中调用super）。当操作对象的准备状态发生变化时，为isReady key path生成KVO通知以报告这些变化。除非你覆盖了addDependency:或removeDependency:方法，否则你不需要担心为dependencies关键路径产生KVO通知。

尽管你可以为NSOperation的其他key path生成KVO通知，但你不太可能需要这样做。如果你需要取消一个操作，你可以简单地调用现有的cancel方法来完成。同样地，你应该很少需要修改操作对象中的队列优先级信息。最后，除非你的操作能够动态地改变其并发状态，否则你不需要为isConcurrent key path提供KVO通知。

自定义操作对象执行行为

操作对象的配置发生在创建之后，添加到队列之前。本节描述的配置类型可用于所有的操作对象，无论是对NSOperation进行子类化还是使用现有的NSOperation子类。

配置交互依赖

依赖可以串行不同操作对象。依赖其他操作对象的操作对象在其他操作对象完成之前不能开始执行。因此，你可以使用依赖在两个操作对象之间建立简单的一对一的依赖关系，或者建立复杂的对象依赖关系图。

使用NSOperation的addDependency:方法可以创建依赖关系。这个方法创建单向的依赖关系，当前操作对象依赖于参数给定的操作对象。依赖不限于同一个队列的操作对象。操作对象管理着它们自己的依赖，所以它不受队列局限，但不能创建在操作之间创建循环依赖关系。这是一个开发者的错误，会导致受影响的操作永远无法执行。

当一个操作对象的所有依赖都结束执行时，通常该操作变成准备执行中状态。（如果你自定义了 isReady 方法的话，操作对象的就绪状态就由你自定义行为决定了）。如果操作对象在队列中，队列可能随时启动执行其中的操作对象。否则如果你想手动执行该操作，则由你来调用该操作的start方法。

重要提醒：你应总是在运行操作对象或将其添加到操作队列之前配置依赖关系。在这之后添加的依赖关系可能不会阻止某个操作对象的运行。

依赖机制依赖于每个操作对象在对象的状态发生变化时发送适当的KVO通知。如果你自定义了操作对象的行为，你可能需要从你自定义代码中生成适当的KVO通知，以避免引起依赖关系的问题。关于KVO通知和操作对象的更多信息，可参阅维护KVO。关于配置依赖关系的其他信息，可参阅NSOperation Class Reference。

修改操作对象执行的优先级

对于添加到队列中的操作对象，执行顺序首先由队列中的操作的准备状态决定，然后由其相对优先级决定。准备状态由一个操作对象对其他操作对象的依赖决定，但优先级是操作对象本身的一个属性。默认情况下，所有新的操作对象都有一个normal的优先级，你可以调用操作对象的setQueuePriority:方法来增加或减少优先级。

优先级只适用于同一操作队列中的操作操作对象。如果程序有多个操作队列，每个队列都会独立于其他队列来确定自己操作的优先级。因此，低优先级的操作仍有可能在不同队列的高优先级操作之前执行。

优先级不能替代依赖关系。优先级只是决定了操作队列中的那些处于就绪状态的操作对象的执行顺序。例如，如果一个队列同时包含高优先级和低优先级的操作，并且这两个操作都就绪了，那么这个队列会先执行高优先级的操作。但是，如果高优先级的操作对象还没就绪，而低优先级的操作对象已经就绪了，那么队列就会先执行低优先级的操作对象。如果你想阻止一个操作在另一个操作完成之前开始，你必须使用依赖实现。

修改底层线程的优先级

在OS X v10.6及以后的版本中，可以配置操作对象的底层线程的执行优先级。系统中的线程策略本身由内核管理，但一般来说，高优先级的线程比低优先级的线程有更多机会运行。在一个操作对象中，可以把线程优先级设置为0.0到1.0范围内的浮点值，0.0为最低优先级，1.0为最高优先级。如果没有设置一个明确的线程优先级，操作对象将以默认的线程优先级0.5运行。

要设置操作对象的线程优先级，必须在操作对象添加到队列（或手动执行）之前调用操作对象的setThreadPriority:方法。当执行操作的时候，默认的start方法使用你指定的值来修改当前线程的优先级。这个新的优先级只在操作对象的main方法期间保持有效。所有其他代码（包括操作对象的完成block）都以默认的线程优先级运行。如果你创建了一个并发的操作对象，并因此覆盖了start方法，你必须自己配置线程优先级。

设置完成Block

在OS X v10.6和更高版本中，当一个操作对象的主任务执行完毕时，可以执行一个完成block。你可以使用一个完成block来执行任何你认为不属于主任务的工作。例如，你可以使用这个block来通知感兴趣的对象，操作对象本身已经完成。一个并发的操作对象可能会使用这个block来生成其最终的KVO通知。

要设置完成block，使用NSOperation的setCompletionBlock:方法。该block没有参数也没有返回值。

实现操作对象的技巧

尽管操作对象的实现相当容易，但在编写代码时，有几件事你应该注意。下面几节描述了在编写操作对象的代码时应该考虑的一些因素。

在操作对象中管理内存

下面的章节描述了操作对象中内存管理的关键。关于Objective-C程序中内存管理的一般信息，可参阅Advanced Memory Management Programming Guide。

避免按线程存储

尽管大多数操对象作是在一个线程上执行的，但在非并发操作对象的情况下，这个线程通常是由一个操作队列提供的。如果一个操作队列为你提供了一个线程，你应该认为这个线程是由队列所持有的，而不会被你的操作对象所访问。具体来说，你不应该将任何数据与非自己创建或管理的线程联系起来。由操作队列管理的线程会根据系统和程序的需要而创建和销毁。因此，使用按线程存储在操作之间传递数据是不可靠的，很可能会失败。

就操作对象而言，无论在什么情况下都不应使用按线程存储。当初始化一个操作对象时，你应该为该对象提供它所需要的一切来完成其工作。因此，操作对象本身提供了你需要的上下文存储。所有传入和传出的数据都应该存储在操作对象中，直到它可以被整合回程序或不再需要的时候。

根据需要持有操作对象

仅仅因为操作对象是异步运行的，你不该只是简单地完成它的创建。它们仍只是个对象，你应管理好它的生命周期。如果你需要在一个操作完成后检索结果数据，保持对操作对象的引用尤其重要。

你应该始终保持对操作的引用，原因是你以后可能没有机会从队列获取到该对象。队列会尽一切努力尽可能快地调度和执行操作。在许多情况下，队列在添加操作对象后几乎立即开始执行操作。当你自己的代码回到队列中获取对操作对象的引用时，该操作可能已经完成并从队列中移除了。

处理错误和异常

因为操作对象本质上是程序中的离散实体，它们负责处理任何出现的错误或异常。在OS X v10.6及以后的版本中，NSOperation类提供的默认start方法并不捕捉异常。（在OS X v10.5中，start方法可以捕捉和抑制异常。）代码应该直接捕捉和抑制异常。它还应该检查错误代码，并根据需要通知到程序中合适的地方。如果替换了start方法，你必须在自定义实现中捕捉任何异常，以防止它们离开底层线程的作用域。

你应该处理以下类型的错误：

检查和处理UNIX errno形式的error code。
检查由方法和函数返回的显式error code。
捕获由自己的代码或其他系统框架抛出的异常。
捕捉由NSOperation类本身抛出的异常，在以下情况下它会抛出异常：
- 当操作对象还没有就绪执行，但它的start方法被调用时；
- 当操作对象正在执行或完成时（可能是因为它被取消了），而它的start方法被再次调用时；
- 当你试图给一个已经执行或完成的操作对象添加一个完成block时；
- 当你试图检索一个被取消的NSInvocationOperation对象的结果时；

如果自定义代码确实遇到了异常或错误，你应该采取任何必要的步骤将该错误传播到程序的其他位置。NSOperation类没有提供明确的方法来实现这部分工作。因此，如果这些信息对程序很重要，你必须提供必要的代码。

为操作对象确定合适的范围

尽管存在在一个操作队列中添加任意多操作的可能，但这样做往往是不切实际的。像任何对象一样，NSOperation类的实例会消耗内存，执行也有相应的开销。如果每个操作对象只做少量的工作，而你创建了数以万计的操作对象，你可能会发现花在调度操作对象上的时间比做真正的操作任务要多。如果程序已经受到了内存的限制，你可能会发现，仅仅在内存中拥有成千上万的操作对象可能会进一步降低性能。

有效使用操作对象的关键是在你需要在具体操作任务和保持计算机持续工作之间找到一个适当的平衡点。尽量确保操作对象完成合理的工作量。例如，如果程序创建了100个操作对象来对100个不同的值执行相同的任务，可以考虑改成创建10个操作对象，每个操作对象处理10个值。

你还应避免一次向队列中添加大量的操作对象，或者避免向队列中添加操作对象的速度超过它们的处理速度。与其一次性添加大量的操作对象，不如分批创建这些对象。当一个批次执行完毕后，使用一个完成block来告诉程序创建一个新的批次。这种方案适用于由大量的任务要进行，想让队列填充足够多的操作对象，来让计算机持续执行的情况。一次性创建大量的操作对象，让直接让程序耗尽内存。

当然，创建操作对象的数量，以及你在每个操作中执行的工作量是可变的，完全取决于你的程序。你应该总是使用诸如Instruments这样的工具来帮助你在效率和速度之间找到一个适当的平衡点。关于Instruments和其他性能工具的概述，可以用来为你的代码收集指标，可参阅Performance Overview。

执行操作对象

最终，你的应用程序需要执行操作对象，以完成相关的工作。在本节中，将学习几种执行操作对象的方法，以及如何在运行时控制操作对象的执行行为。

添加操作对象到操作队列中

到目前为止，执行操作对象的最简单方法是使用一个操作队列，它是NSOperationQueue类的实例。程序负责创建和维护使用的任何操作队列。程序可以有任何数量的队列，但在一个给定的时间点上操作对象可以执行的数量是有实际限制的。操作队列与系统配合工作，将并发操作的数量限制在一个适合可用内核和系统负载的数值上。因此，创建更多的队列并不意味着你可以执行更多的操作对象。

创建队列跟创建其他的对象是一样的：

NSOperationQueue* aQueue = [[NSOperationQueue alloc] init];

要向队列添加操作，可以使用addOperation:方法。在OS X v10.6及更高的版本中，你可以使用addOperations:waitUntilFinished:方法添加操作组，或者使用addOperationWithBlock:方法直接向队列添加block对象（不会有相应的操作对象）。这些方法都是排队一个或多个操作对象，并通知队列应该开始处理这些操作对象。在大多数情况下，操作对象在被添加到队列后不久就会被执行，但是操作队列可能会因为一些原因而延迟执行队列中的操作。具体来说，如果排队的操作对象依赖于其他尚未完成的操作，执行可能会被延迟。如果操作队列本身被暂停或已经在执行其最大数量的并发操作，执行也可能被延迟。下面的例子显示了向队列添加操作对象的基本语法：

[aQueue addOperation:anOp]; // Add a single operation
[aQueue addOperations:anArrayOfOps waitUntilFinished:NO]; // Add multiple operations
[aQueue addOperationWithBlock:^{
   /* Do something. */
}];

重要提醒：在将操作对象添加到队列之前，你应该对其完成所有必要的配置和修改，因为一旦添加，操作对象可能会在任何时候被运行，这可能会让修改的时间太晚，无法产生预期的效果。

虽然NSOperationQueue类是为操作对象的并发执行而设计的，但也可以强制队列一次只运行一个操作。setMaxConcurrentOperationCount:方法可以让你配置操作队列对象的最大并发操作对象数。给这个方法传递1，会使队列一次只执行一个操作。虽然一次只能执行一个操作对象，但执行的顺序仍然是基于其他因素，比如每个操作对象的就绪状态和分配的优先级。因此，一个串行的操作队列所提供的行为与Grand Central Dispatch中的串行调度队列不完全相同。如果操作对象的执行顺序对你很重要，你应该在把操作对象添加到队列之前，使用依赖来建立这个顺序。关于配置依赖关系的信息，可参阅配置交互依赖。

关于使用操作队列的信息，可参阅NSOperationQueue Class Reference。关于串行调度队列的更多信息，可参阅Creating Serial Dispatch Queues。

手动执行操作对象

虽然操作队列是运行操作对象的最方便的方式，但也可以不通过队列来执行操作对象。然而，如果你选择手动执行操作，你应该在你的代码中采取一些预防措施。特别是，操作必须准备好运行，你必须始终使用它的start方法来启动它。

一个操作在它的isReady方法返回YES时才被认为能够运行。isReady方法被集成到NSOperation类的依赖管理系统中，以提供操作的依赖关系的状态。只有当它的依赖关系被清除后，一个操作才可以自由地开始执行。

当手动执行一个操作时，你应该总是使用start方法来开始执行。而不是main或其他方法，因为start方法在实际运行自定义代码之前会执行一些安全检查。特别是，默认的start方法会生成操对象作所需的KVO通知，以正确处理其依赖关系。如果操作对象已经被取消了，这个方法也会正确地避免执行你的操作，如果操作对象实际上没有就绪运行，则会抛出一个异常。

如果你的程序定义了并发的操作对象，你也应该考虑在启动操作对象之前调用操作的isConcurrent方法。在该方法返回NO的情况下，本地代码可以决定是在当前线程中同步执行操作还是先创建一个单独的线程。然而，实现这种检查完全由你决定。

清单2-8显示了一个简单的示例，以说明手动执行操作之前应该进行什么样的检查。如果该方法返回NO，你可以安排一个定时器并在稍后再次调用该方法。然后你会不断地重新安排定时器，直到方法返回YES，这可能是因为操作被取消了。

清单2-8 手动执行一个操作对象

- (BOOL)performOperation:(NSOperation*)anOp
{
   BOOL        ranIt = NO;
 
   if ([anOp isReady] && ![anOp isCancelled])
   {
      if (![anOp isConcurrent])
         [anOp start];
      else
         [NSThread detachNewThreadSelector:@selector(start)
                   toTarget:anOp withObject:nil];
      ranIt = YES;
   }
   else if ([anOp isCancelled])
   {
      // If it was canceled before it was started,
      //  move the operation to the finished state.
      [self willChangeValueForKey:@"isFinished"];
      [self willChangeValueForKey:@"isExecuting"];
      executing = NO;
      finished = YES;
      [self didChangeValueForKey:@"isExecuting"];
      [self didChangeValueForKey:@"isFinished"];
 
      // Set ranIt to YES to prevent the operation from
      // being passed to this method again in the future.
      ranIt = YES;
   }
   return ranIt;
}

取消操作对象

一旦被添加到一个操作队列中，操作对象就有效地被队列所拥有，并且不能被移除。取消一个操作对象的唯一方法是取消它。你可以通过调用一个单独的操作对象的cancel方法来取消它，或者通过调用队列对象的cancelAllOperations方法来取消队列中的所有操作对象。

只有当你确定不再需要这些操作对象时，才取消它们。发出取消命令会使操作对象进入canceled状态，这将使它永远无法运行。因为一个被取消的操作仍然被认为是finished的，依赖于它的对象会收到适当的KVO通知来清除这种依赖关系。因此，更常见的情况是，在某些重要事件中取消所有排队的操作对象，比如程序退出或用户特别要求取消，而不是选择性地取消某个操作对象。

等待操作对象完成

为了获得最佳性能，你应该把操作对象设计成尽可能的异步，让程序在操作对象执行时可以自由地做其他工作。如果创建一个操作对象的代码也处理该对象的结果，你可以使用NSOperation的waitUntilFinished方法来阻塞代码，直到操作完成。不过一般来说，如果可以的话，最好避免调用这个方法。阻塞当前线程可能是一个方便的解决方案，但它给你的代码引入了更多的串行，并限制了整体的并发水平。

重要提醒：你不应该在程序的主线程中等待一个操作。你只应该从子线程或其他操作对象中进行等待。阻塞你的主线程会阻止程序对用户事件做出响应，并可能使程序看起来没有反应。

除了等待单个操作完成，你还可以通过调用NSOperationQueue的waitUntilAllOperationsAreFinished方法来等待一个队列中的所有操作对象的完成。当等待整个队列完成时，要注意程序的其他线程仍然可以向队列添加操作，但因此也会延长等待时间。

暂停和恢复队列

如果要暂停操作对象的执行，你可以使用setSuspended:方法暂停相应的操作队列。暂停一个队列并不会导致已经执行的操作对象在其任务中暂停。它只是阻止队列安排新的操作对象执行。你可以暂停一个队列，以响应用户的请求，暂停任何正在进行的工作，因为预期用户最终可能想要恢复该对队列工作。

总结

NSBlockOperation可以添加多个block，该操作对象使用组的语义进行操作，只有当相关的block都执行完毕时，操作对象本身才算完成。
对于单个block中的代码来说，其执行都是同步的。
操作对象的任务要自行处理异常。
操作对象的配置发生在创建之后，添加到队列之前。
若要保持对操作对象的检索，最好自己添加对操作对象的引用。
要手动执行操作对象，则执行start方法。
取消往往用于对队列的行为，而非个别操作对象。

使用技巧：

应只在需要单独异步执行操作对象但又不添加到操作队列的情况下才定义并发操作对象。
操作对象的执行顺序主要是基于依赖建立的。不建议通过优先级改变操作对象执行顺序。
操作队列可以通过setMaxConcurrentOperationCount:方法设置并发数量，即使设置为1，其行为也与串行调度队列不完全一致。例如，经测试，操作队列即使并发限制为1，单每次使用的线程可能不同。
操作对象的完成block执行的语义应是不属于主任务的工作。

]]> 翻译 Apple 多线程 Concurrency Programming Guide Concurrency Programming Guide：调度队列 /posts/concurrency_pg_dispatch_queues/ Grand Central Dispatch（GCD）调度队列是执行任务的强大工具。调度队列让你可以相对于调用者异步或同步地执行任意的代码块。你可以使用调度队列来执行几乎所有你过去在独立线程上执行的任务。调度队列的优点是使用起来更简单，执行任务的效率相比线程代码高得多。

本章介绍了调度队列，以及如何执行程序中的一般任务。如果你想用调度队列替换现有的线程代码，可参阅迁移线程代码。

关于调度队列

调度队列是在程序中异步和并发地执行任务的一种简单方法。一个任务只是程序需要执行的一些工作。例如，你可以定义一个任务来执行一些计算，创建或修改一个数据结构，处理从文件中读取的一些数据，或任何数量的事情。定义任务的方式是将相应的代码放在一个函数或一个block对象中，并将其添加到一个调度队列中。

调度队列是一个类似于对象的结构，管理提交给它的任务。所有调度队列都是先入先出的数据结构。因此，添加到队列中的任务总是按照它们被添加的相同顺序启动。GCD已经提供了一些调度队列，但你也可以为特定的目的而创建其他调度队列。表3-1列出了程序可用的调度队列的类型及其用法。

表3-1 调度队列类型

类型	描述
串行	串行队列（也称为私有调度队列）按照添加到队列的顺序，一次执行一个任务。当前执行的任务在一个独立的线程上运行（可以因任务而异），该线程由调度队列管理。串行队列通常用于同步访问特定的资源。你可以根据需要创建足够多的串行队列，每个队列相对于所有其他队列都是并发执行的。换句话说，如果你创建了四个串行队列，每个队列一次只执行一个任务，但最多可以有四个任务同时执行，每个队列一个。有关如何创建串行队列的信息，可参阅Creating Serial Dispatch Queues。
并发	并发队列（也被称为全局调度队列的一种类型）同时执行一或多个任务，但任务仍然按照它们被添加到队列的顺序启动。当前执行的任务在不同的线程上运行，这些线程由调度队列管理。在任何时候执行的任务的确切数量是根据系统条件而决定。在iOS 5和更高版本中，可以通过指定`DISPATCH_QUEUE_CONCURRENT`队列类型，自己创建并发的调度队列。此外，还有四个预定义的全局并发队列供程序使用。关于如何获得全局并发队列的更多信息，可参阅Getting the Global Concurrent Dispatch Queues。
主调度队列	主调度队列是一个全局可用的串行队列，在程序的主线程上执行任务。这个队列与程序的run loop（如果有的话）配合工作，将队列任务的执行与连接到run loop的其他事件源的执行交错进行。因为它在程序的主线程上运行，所以主队列经常被用作程序的关键同步点。虽然你不需要创建主调度队列，但你需要确保程序适当地使用它。关于如何管理该队列的更多信息，可参阅Performing Tasks on the Main Thread。

当涉及到向程序添加并发特性时，调度队列比线程有几个优势。最直接的优势是工作队列编程模型的简单性。对于线程，你必须为要执行的工作以及线程本身的创建和管理编写代码。调度队列让你专注于你真正想要执行的工作，而不必担心线程的创建和管理。相反，系统为你处理所有的线程创建和管理。这样做的好处是，系统能够比任何单个程序更有效地管理线程。系统可以根据可用的资源和当前的系统条件，动态地扩展线程的数量。此外，系统通常能够比你自己创建的线程更快地开始运行你的任务。

尽管你可能认为为调度队列重写代码会很困难，但为调度队列编写代码往往比为线程写代码要容易。编写代码的关键是设计自成一体且能够异步运行的任务。（这对线程和调度队列都是如此。）然而，调度队列的优势在于可预测性。如果你有两个访问同一共享资源的任务，但在不同的线程上运行，任何一个线程都可以先修改资源，你需要使用一个锁来确保两个任务不会同时修改该资源。有了调度队列，你可以将两个任务添加到一个串行调度队列中，以确保在任何时候只有一个任务修改资源。这种基于队列的同步比锁更有效，因为锁在有争议和无争议的情况下总是需要一个昂贵的内核陷阱（kernel trap），而调度队列主要在程序的进程空间工作，只有在绝对必要时才会向下调用内核。

尽管你会正确地指出，在一个串行队列中运行的两个任务不会并发运行，但你必须记住，如果两个线程同时取得一个锁，那么线程提供的任何并发性都会丢失或大大降低。更重要的是，线程模型需要创建两个线程，这需要占用内核和用户空间的内存。调度队列不会为它们的线程而消耗同样的内存，而且他们使用的线程会保持持续工作，不会被阻塞。

关于调度队列，需要记住的其他一些关键点：

调度队列相对于其他调度队列来说，是同时执行其任务的。任务的串行是相对于一个调度队列而言的。
系统决定了在任何时候执行的任务总数。因此，一个在100个不同队列中有100个任务的程序可能不会并发地执行所有这些任务（除非它有100个或更多的有效内核）。
系统在选择启动哪些新任务时，会考虑到队列的优先级。关于如何设置一个串行队列的优先级，可参阅Providing a Clean Up Function For a Queue。
队列中的任务在被添加到队列时，必须准备好执行。（如果之前使用过Cocoa操作对象，请注意这种行为与操作对象使用的模型不同。）
私有调度队列是引用计数的对象。除了在你自己的代码中保留队列外，要注意调度源也可以附加到队列上，也会增加其保留计数。因此，你必须确保所有的调度源都被取消，所有的保留调用都与适当的释放调用相平衡。关于保留和释放队列的更多信息，可参阅Memory Management for Dispatch Queues。关于调度源的更多信息，可参阅调度源。

队列相关技术

除了调度队列之外，Grand Central Dispatch还提供了一些使用队列来帮助管理代码的技术。表3-2列出了这些技术，并提供了链接，你可以在那里找到关于它们的更多信息。

表3-2 使用调度队列的技术

技术	描述
调度组	调度组是一种监视一组block对象完成的方式。你可以根据你的需要同步或异步地监视这些block。对于依赖其他任务完成的代码，组提供了一种有用的同步机制。关于使用组的更多信息，可参阅Waiting on Groups of Queued Tasks。
调度信号量	调度信号与传统的信号量类似，但通常更有效率。只有当调用线程因为信号量不可用而需要被阻塞时，调度信号量才会向下调用内核。如果信号量是可用的，则不会调用内核。关于如何使用调度信号量的例子，可参阅Using Dispatch Semaphores to Regulate the Use of Finite Resources。
调度源	调度源在响应特定类型的系统事件时生成通知。你可以使用调度源来监控事件，如进程通知、信号和描述符事件等等。当一个事件发生时，调度源会将你的任务代码异步提交给指定的调度队列进行处理。关于创建和使用调度源的更多信息，可参阅调度源。

使用Block来实现任务

Block对象是一种基于C语言的特性，你可以在C、Objective-C和C++代码中使用。Block使得定义一个独立的工作单元变得容易。尽管它们看起来类似于函数指针，但block实际上是由一个类似于对象的底层数据结构表示的，并由编译器为你创建和管理。编译器将你提供的代码（以及任何相关的数据）打包，并将其封装成一种可以存在堆中并在程序中传递的形式。

Block的关键优势之一是它们能够使用其自身词法范围之外的变量。当你在一个函数或方法中定义一个block时，该block在某些方面就像一个传统的代码块一样。例如，block可以读取定义在父作用域中的变量的值。被block访问的变量被复制到堆上的block数据结构中，这样block就可以在以后访问它们。当block被添加到调度队列时，这些值通常必须以只读的格式留下。然而，同步执行的block也可以使用预加了__block关键字的变量，将数据返回到父类的调用范围。

你可以使用类似于函数指针的语法，在你的代码中内联地声明block。Block和函数指针的主要区别是，block名称前面有一个^而不是*。像函数指针一样，你可以向block传递参数，并从它那里接收一个返回值。清单3-1显示了如何在代码中同步声明和执行block。变量aBlock被声明为一个block，它接受一个整数参数，不返回任何值。然后，一个符合该原型的实际block被分配给aBlock，并被声明为内联。最后一行立即执行该block，将指定的整数打印到标准输出：

清单3-1 block简单示例

int x = 123;
int y = 456;
 
// Block declaration and assignment
void (^aBlock)(int) = ^(int z) {
    printf("%d %d %d\n", x, y, z);
};
 
// Execute the block
aBlock(789);   // prints: 123 456 789

下面是你在设计block时应该考虑的一些关键准则：

对于你计划使用调度队列异步执行的block，从父函数或方法中捕获标量变量并在block中使用是安全的。然而，你不应该试图捕获大型结构体或其他基于指针的变量，这些变量是由调用上下文分配和删除的。当你的block被执行时，该指针所引用的内存可能已经被回收。当然，自己分配内存（或对象）并明确地将该内存的所有权移交给block是安全的。
调度队列会复制被添加到其中的block，并在执行完毕后释放block。换句话说，你不需要在将block添加到队列之前显式地复制它们。
尽管队列在执行小任务时比原始线程更有效，但在队列中创建block并执行它们仍然存在开销。如果一个block做的工作太少，直接执行它可能比把它调度到队列中更节省开销。判断一个block是否做得太少的方法是使用性能工具收集每个路径的指标并进行比较。
不要缓存相对于底层线程的数据，并期望该数据能从不同的block中访问。如果同一队列中的任务需要共享数据，请使用调度队列的上下文指针来代替存储数据。关于如何访问调度队列的上下文数据的更多信息，可参阅Storing Custom Context Information with a Queue。
如果block创建了几个以上的Objective-C对象，你可以把block的部分代码包裹在@autorelease中，以处理这些对象的内存管理。尽管GCD调度队列有他们自己的自动释放池，但他们不保证这些池何时被耗尽。如果程序有内存限制，创建自己的自动释放池可以让你在更有规律的时间间隔内释放自动释放对象的内存。

关于block的更多信息，包括如何声明和使用它们，可参阅Blocks Programming Topics。关于如何将block添加到调度队列中，可参阅Adding Tasks to a Queue。

创建和管理调度队列

在你把任务添加到队列中之前，你必须确定使用的队列类型以及后续打算如何使用它。调度队列可以串行或并发地执行任务。此外，如果你对队列有一个特定的用途，你可以相应地配置队列属性。下面几节告诉你如何创建调度队列并配置它们的用途。

获得全局并发调度队列

当你有多个可以并行运行的任务时，并发调度队列很有用。并发队列仍然是一个队列，因为它以先进先出的顺序对任务进行排队；但是，并发队列可能在任何先前的任务完成之前就排队等候其他任务。并发队列在任何给定时刻执行的实际任务数是可变的，可以随着程序的条件变化而动态变化。许多因素会影响并发队列执行的任务数量，包括可用的内核数量、其他进程正在完成的工作量，以及其他串行调度队列中的任务数量和优先级。

系统为每个程序提供了4个并发的调度队列。这些队列对程序来说是全局性的，仅由其优先级来区分。因为它们是全局的，所以你不需要明确地创建它们。相反，你可以使用dispatch_get_global_queue函数来请求获取其中的队列，如下所示：

dispatch_queue_t aQueue = dispatch_get_global_queue(DISPATCH_QUEUE_PRIORITY_DEFAULT, 0);

除了获得默认的并发队列，你还可以通过向函数传递DISPATCH_QUEUE_PRIORITY_HIGH和DISPATCH_QUEUE_PRIORITY_LOW常量来获得高优先级和低优先级的队列，或者通过传递DISPATCH_QUEUE_PRIORITY_BACKGROUND常量来获得一个后台队列。正如你所期望的，高优先级并发队列中的任务在默认队列和低优先级队列中的任务之前执行。同样地，默认队列中的任务在低优先级队列中的任务之前执行。

注意： dispatch_get_global_queue函数的第二个参数是为将来的扩展保留的。现在，你应该总是为这个参数传递0。

尽管调度队列是引用计数的对象，你不需要保留和释放全局并发队列。因为它们对程序是全局的，对这些队列的保留和释放调用应被忽略。因此，你不需要存储对这些队列的引用。你只需在需要其中一个队列的引用时调用dispatch_get_global_queue函数。

创建串行调度队列

当你想让你的任务以特定的顺序执行时，串行队列很有用。串行队列一次只执行一个任务，并且总是从队列的头部取出任务。你可以用一个串行队列代替锁来保护一个共享资源或可变数据结构。与锁不同，串行队列确保任务以可预测的顺序执行。只要你以异步方式向串行队列提交任务，该队列就不会出现死锁。

与并发队列不同，你必须明确地创建和管理你想使用的任何串行队列。你可以为程序创建任何数量的串行队列，但应避免仅仅作为一种同时执行尽可能多的任务的手段来创建大量的串行队列。如果你想同时执行大量的任务，请将它们提交给全局并发队列。在创建串行队列时，尽量为每个队列确定一个目的，如保护资源或同步程序的一些关键行为。

清单3-2显示了创建一个自定义串行队列所需的步骤。dispatch_queue_create函数需要两个参数：队列名称和一组队列属性。调试器和性能工具会显示设置的队列名称，以帮助你跟踪任务的执行情况。队列属性是为将来使用而保留的，应该是NULL。

清单3-2 创建一个串行队列

dispatch_queue_t queue;
queue = dispatch_queue_create("com.example.MyQueue", NULL);

除了创建的任何自定义队列外，系统还自动创建一个串行队列，并将其绑定到程序的主线程。关于获取主线程的队列的更多信息，可参阅Getting Common Queues at Runtime。

在运行时获取通用队列

Grand Central Dispatch提供了一些函数，可以让你从程序中访问几个常见的调度队列：

使用dispatch_get_current_queue函数用于调试目的或测试当前队列的身份。从一个block对象内部调用这个函数，会返回该block被提交到的队列（以及它现在可能正在运行的队列）。在block外调用此函数会返回程序的默认并发队列。
使用dispatch_get_main_queue函数来获取与程序主线程相关的串行调度队列。这个队列是为Cocoa程序和那些调用dispatch_main函数或在主线程上配置run loop（使用CFRunLoopRef类型或NSRunLoop对象）的程序自动创建的。
使用dispatch_get_global_queue函数来获取任何共享的并发队列。更多信息，可参阅Getting the Global Concurrent Dispatch Queues。

调度队列的内存管理

调度队列和其他调度对象是引用计数的数据类型。你可以使用dispatch_retain和dispatch_release函数根据需要增加和减少该引用计数。当一个队列的引用计数达到0时，系统会异步地释放队列。

保留和释放调度对象，如队列，以确保它们在被使用时仍在内存中，这一点很重要。与内存管理的Cocoa对象一样，一般的规则是，如果你打算使用传递给你的代码的队列，你应该在使用它之前保留该队列，当你不再需要它时释放它。这种基本模式可以确保只要你在使用队列，它就会一直留在内存中。

注意：你不需要保留或释放任何全局调度队列，包括并发的调度队列或主调度队列。任何试图保留或释放队列的行为都会被忽略。

即使你实现了一个垃圾收集的程序，你仍然必须保留和释放你的调度队列和其他调度对象。Grand Central Dispatch不支持用于回收内存的垃圾收集模型。

用队列存储自定义上下文信息

所有的调度对象（包括调度队列）都允许将自定义上下文数据与该对象相关联。为了在一个给定的对象上设置和获取这些数据，你可以使用dispatch_set_context和dispatch_get_context函数。系统不会以任何方式使用你的自定义数据，而是由你在适当的时候分配和释放该数据。

对于队列，你可以使用上下文数据来存储一个指向Objective-C对象或其他数据结构的指针，以帮助识别队列或其他预期用途。你可以使用队列的析构函数，在队列被释放之前，将上下文数据从队列中释放（或取消关联）。如何编写一个清除队列上下文数据的析构函数的例子，可参阅清单3-3。

为队列提供一个清理函数

在创建了一个串行调度队列后，可以附加一个析构函数，以便在队列被释放时执行任何自定义的清理工作。调度队列是引用计数的对象，你可以使用 dispatch_set_finalizer_f 函数来指定一个当队列的引用计数达到零时要执行的函数。你用这个函数来清理与队列相关的上下文数据，只有当上下文指针不是NULL时才会调用这个函数。

清单3-3显示了一个自定义的析构函数和一个创建队列并配置析构函数的函数。队列使用析构函数来释放存储在队列上下文指针中的数据。代码中引用的myInitializeDataContextFunction和myCleanUpDataContextFunction函数是你提供的自定义函数，用于初始化和清理数据结构本身的内容。传递给析构函数的上下文指针包含与队列相关的数据对象。

清单3-3 给队列配置清理函数

void myFinalizerFunction(void *context)
{
    MyDataContext* theData = (MyDataContext*)context;
 
    // Clean up the contents of the structure
    myCleanUpDataContextFunction(theData);
 
    // Now release the structure itself.
    free(theData);
}
 
dispatch_queue_t createMyQueue()
{
    MyDataContext*  data = (MyDataContext*) malloc(sizeof(MyDataContext));
    myInitializeDataContextFunction(data);
 
    // Create the queue and set the context data.
    dispatch_queue_t serialQueue = dispatch_queue_create("com.example.CriticalTaskQueue", NULL);
    dispatch_set_context(serialQueue, data);
    dispatch_set_finalizer_f(serialQueue, &myFinalizerFunction);
 
    return serialQueue;
}

添加任务到队列

要执行一个任务，你必须把它调度到一个适当的调度队列中。你可以同步或异步地调度任务，你可以单独或分组地调度任务。一旦进入队列，考虑到队列的限制和队列中已有的任务，队列将负责尽快执行你的任务。本节向你展示了一些向队列调度任务的技术，并介绍了每一种技术的优点。

添加单个任务到队列

有两种方法可以将任务添加到队列中：异步或同步。在可能的情况下，使用dispatch_async和dispatch_async_f函数的异步执行比同步执行要好。当你在队列中添加一个block对象或函数时，没有办法知道该代码何时执行。因此，异步添加block或函数可以让你安排代码的执行，并继续从调用线程做其他工作。如果从程序的主线程调度任务（也许是为了响应一些用户事件）这一点就特别重要。

尽管你应该尽可能地异步添加任务，但有时你仍然需要同步添加任务，以防止竞态条件或其他同步错误。在这些情况下，你可以使用dispatch_sync和dispatch_sync_f函数来将任务添加到队列中。这些函数会阻塞当前的执行线程，直到指定的任务执行完毕。

重要提醒：你不应该从一个正在执行的任务中调用dispatch_sync或dispatch_sync_f函数，而这个任务是你计划传递给该函数的同一个队列。这对串行队列特别重要，因为这样做必然导致死锁。同样对并发队列也应避免这样做。

下面的例子显示了如何使用基于block的变体来进行异步和同步的任务调度：

dispatch_queue_t myCustomQueue;
myCustomQueue = dispatch_queue_create("com.example.MyCustomQueue", NULL);
 
dispatch_async(myCustomQueue, ^{
    printf("Do some work here.\n");
});
 
printf("The first block may or may not have run.\n");
 
dispatch_sync(myCustomQueue, ^{
    printf("Do some more work here.\n");
});
printf("Both blocks have completed.\n");

在任务完成时执行完成Block

就其性质而言, 调度到队列中的任务是独立于创建它们的代码运行的。然而，当任务完成后，程序可能仍然希望被通知这一事实，以便它能够纳入结果。在传统的异步编程中，你可能会使用回调机制来做到这一点，但对于调度队列，你可以使用完成block实现。

完成block只是另一段普通代码而已，在原始任务结束后将其调度到队列中。调用代码通常在启动任务时提供完成block作为参数。任务代码所要做的就是在完成工作时将指定的block或函数提交到指定的队列中。

清单3-4显示了一个用block实现的求平均值函数。求平均值函数的最后两个参数允许调用者在报告结果时指定一个队列和block。在求平均值函数计算出它的值后，它将结果传递给指定的block，并将其调度给队列。为了防止队列过早地被释放，在开始的时候保留该队列并在完成block被调度时进行释放。

清单3-4 在一个任务完成后执行回调

void average_async(int *data, size_t len,
   dispatch_queue_t queue, void (^block)(int))
{
   // Retain the queue provided by the user to make
   // sure it does not disappear before the completion
   // block can be called.
   dispatch_retain(queue);
 
   // Do the work on the default concurrent queue and then
   // call the user-provided block with the results.
   dispatch_async(dispatch_get_global_queue(DISPATCH_QUEUE_PRIORITY_DEFAULT, 0), ^{
      int avg = average(data, len);
      dispatch_async(queue, ^{ block(avg);});
 
      // Release the user-provided queue when done
      dispatch_release(queue);
   });
}

并发执行循环迭代

并发调度队列可以提高性能的一个地方是，一个执行固定次数迭代的循环。例如，假设你有一个for循环，在每次循环迭代中都做一些工作：

for (i = 0; i < count; i++) {
   printf("%u\n",i);
}

如果在每个迭代过程中执行的工作与所有其他迭代过程中执行的工作不同，并且每个连续的循环完成的顺序不重要，你可以用调用dispatch_apply或dispatch_apply_f函数来代替循环。这些函数在每次循环迭代时将指定的block或函数提交给一个队列。当调度到一个并发队列时，因此有可能同时执行多个循环迭代。

在调用dispatch_apply或dispatch_apply_f时，你可以指定一个串行队列或并发队列。传递一个并发队列允许你同时执行多个循环迭代，这是使用这些函数的最常见方式。尽管使用一个串行队列是允许的，并且对你的代码来说是正确的，但使用这样的队列与原有的循环相比没有真正的性能优势。

重要提醒：和普通的for循环一样，dispatch_apply和dispatch_apply_f函数在所有循环迭代完成之前不会返回。因此，当已经从队列的上下文中执行的代码中调用它们时，应该小心。如果作为参数传递给函数的队列是一个串行队列，并且是执行当前代码的同一个队列，调用这些函数将使队列陷入死锁。

因为它们实际上阻塞了当前线程，所以当你从主线程中调用这些函数时也要小心，它们可能会阻止你的事件处理循环及时地响应事件。如果循环代码需要明显的处理时间，你可能想从不同的线程调用这些函数。

清单3-5显示了如何用dispatch_apply语法替换前面的for循环。传递给dispatch_apply函数的block必须包含一个识别当前循环迭代的参数。当block被执行时，这个参数的值对于第一次迭代是0，对于第二次迭代是1，以此类推。最后一次迭代的参数值是count - 1，其中count是迭代的总次数。

清单3-5 并发执行for循环迭代

dispatch_queue_t queue = dispatch_get_global_queue(DISPATCH_QUEUE_PRIORITY_DEFAULT, 0);
 
dispatch_apply(count, queue, ^(size_t i) {
   printf("%u\n",i);
});

你应该确保任务代码在每次迭代中都能完成合理的工作量。就像你调度到队列的任何block或函数一样，调度该代码的执行是有开销的。如果你的循环的每个迭代只执行少量的工作，调度代码的开销可能会超过你从调度它到队列中可能获得的性能优势。如果你在测试过程中发现这种情况，你可以使用striding来增加每个循环迭代中执行的工作量。通过striding，将原始循环的多次迭代合并成一个block，并按比例减少迭代次数。例如，如果你最初执行了100次迭代，但决定使用4的跨度，你现在从每个block中执行4次循环迭代，迭代次数是25。关于如何实现striding的例子，可参阅Improving on Loop Code。

在主线程上执行任务

Grand Central Dispatch提供了一个特殊的调度队列，你可以用它来在程序的主线程上执行任务。这个队列是为所有程序自动提供的，任何在其主线程上设置run loop（由CFRunLoopRef类型或NSRunLoop对象管理）的程序都会自动drained。如果你没有创建一个Cocoa应用程序，并且不想明确设置一个run loop，你必须调用dispatch_main函数来明确消费主调度队列。你仍然可以向队列添加任务，但如果你不调用这个函数，这些任务就永远不会被执行。

你可以通过调用dispatch_get_main_queue函数获得程序主线程的调度队列。添加到这个队列的任务是在主线程本身上串行进行的。因此，你可以把这个队列作为一个用于同步其他部分进行的工作的同步点。

在任务中使用Objective-C对象

GCD提供了对Cocoa内存管理技术的内置支持，因此你可以在提交给调度队列的block中自由使用Objective-C对象。每个调度队列都维护它自己的自动释放池，以确保自动释放的对象在某一时刻被释放；队列不保证它们何时真正释放这些对象。

如果程序有内存限制，并且block创建了超过几个自动释放的对象，创建自己的自动释放池是确保对象被及时释放的唯一方法。如果你的block创建了数以百计的对象，你可能需要创建多个自动释放池，或者定期清空池。

暂停和恢复队列

可以通过暂停一个队列来阻止暂时执行block对象。你可以使用dispatch_suspend函数暂停一个调度队列，并使用dispatch_resume函数恢复它。调用dispatch_suspend会增加队列的暂停引用计数，而调用dispatch_resume会减少引用计数。当引用计数大于0时，队列仍然暂停。因此，你必须用一个匹配的恢复调用来平衡所有的暂停调用，以便恢复处理block。

重要提醒：暂停和恢复调用是异步的，只在block的执行之间生效。暂停队列不会停止已经执行的block。

使用调度信号量来规范有限资源的使用

如果你提交给调度队列的任务要访问一些有限的资源，你可以使用调度信号量来调节同时访问该资源的任务数量。调度信号量的工作方式与普通信号量一样，但有一个例外。当资源可用时，获取一个调度信号量的时间比获取一个传统系统信号量的时间要短。这是因为Grand Central Dispatch在这种特殊情况不会向下调用内核。唯一一次调用内核是当资源不可用时，系统需要暂停（park）线程直到发出信号。

使用调度信号量的语义如下：

创建信号量时（使用dispatch_semaphore_create函数），可以指定一个正整数，表示可用资源的数量。
在每个任务中，调用dispatch_semaphore_wait等待信号量。
当等待调用返回时，获取资源并完成工作。
使用完资源后，释放它并通过调用dispatch_semaphore_signal函数发出信号量。

关于这些步骤如何工作的例子，可以考虑系统中文件描述符的使用。每个程序都有有限的文件描述符可以使用。如果有一个处理大量文件的任务，你不希望一次打开这么多文件，以至于你的文件描述符用完。相反，你可以使用信号量来限制文件处理代码使用的文件描述符的数量。你可以在任务中加入以下的基本代码：

// Create the semaphore, specifying the initial pool size
dispatch_semaphore_t fd_sema = dispatch_semaphore_create(getdtablesize() / 2);
 
// Wait for a free file descriptor
dispatch_semaphore_wait(fd_sema, DISPATCH_TIME_FOREVER);
fd = open("/etc/services", O_RDONLY);
 
// Release the file descriptor when done
close(fd);
dispatch_semaphore_signal(fd_sema);

创建信号量时，指定可用资源的数量。该值成为信号量的初始计数变量。每次等待信号量时，dispatch_semaphore_wait函数都会将计数变量递减 1。如果结果值为负，该函数会告诉内核阻塞线程。另一方面，dispatch_semaphore_signal函数将 count 变量加 1 以指示资源已被释放。如果有任务被阻塞并等待资源，其中一个任务随后会被解除阻塞并被允许进行工作。

等待排队的任务组

调度组是一种阻塞线程，直到一个或多个任务执行完毕的方式。你可以在需要等待所有指定的任务都完成才能进行某些任务的地方使用这种行为。例如，在调度了几个任务来计算一些数据后，你可以使用一个组来等待这些任务，然后在它们完成后处理结果。使用调度组的另一种方式是作为线程连接的替代。你可以将相应的任务添加到一个调度组中，并等待整个组，而不是启动几个子线程，然后与每个子线程联合起来。

清单3-6显示了建立一个组，向其调度任务并等待结果的基本过程。没有使用dispatch_async函数将任务调度到队列，而是使用dispatch_group_async函数。这个函数将任务与组相关联，并排队等待执行。要等待一组任务的完成，你就使用dispatch_group_wait函数，传入适当的组。

清单3-6 等待异步任务

dispatch_queue_t queue = dispatch_get_global_queue(DISPATCH_QUEUE_PRIORITY_DEFAULT, 0);
dispatch_group_t group = dispatch_group_create();
 
// Add a task to the group
dispatch_group_async(group, queue, ^{
   // Some asynchronous work
});
 
// Do some other work while the tasks execute.
 
// When you cannot make any more forward progress,
// wait on the group to block the current thread.
dispatch_group_wait(group, DISPATCH_TIME_FOREVER);
 
// Release the group when it is no longer needed.
dispatch_release(group);

调度队列和线程安全

在调度队列的背景下谈论线程安全可能看起来很奇怪，但线程安全仍然是一个相关的话题。任何时候，当你在程序中实现并发时，有几件事你应该知道：

调度队列本身是线程安全的。换句话说，你可以从系统中的任何线程向调度队列提交任务，而不必首先取得锁或同步访问队列。
不要从一个正在执行的任务中调用dispatch_sync函数，并传递当前函数调用的队列。这样做会使队列陷入死锁。如果你需要对当前队列进行调度，请使用dispatch_async函数进行异步调度。
避免从你提交给调度队列的任务中获取锁。尽管从任务中使用锁是安全的，但当你获得锁时，如果该锁不可用，你有可能完全阻塞一个串行队列。同样，对于并发队列来说，等待一个锁可能反而会阻止其他任务的执行。如果你需要同步你的部分代码，则使用一个串行调度队列而不是锁。
尽管你可以获得关于运行任务的底层线程的信息，但最好还是不要这样做。关于调度队列与线程的兼容性的更多信息，可参阅Compatibility with POSIX Threads。

关于如何将现有的线程代码改为使用调度队列的其他技巧，可参阅迁移线程代码。

总结

队列：

在使用上，与操作队列较大的不同的是，调度队列是基于block添加任务的，而操作队列是基于操作对象添加任务的，所以调度队列会少了一些对每个任务的控制，例如任务添加到调度队列时，必须是就绪执行的。
对于操作对象之间的依赖，在调度队列中的替代方案是串行队列和调度组。
对于操作队列的完成block，在调度队列中可以简单在添加的工作单元block中插入执行完成回调block的代码。
如果block创建了几个以上的Objective-C对象，你可以把block的部分代码包裹在@autorelease中，以处理这些对象的内存管理。尽管GCD调度队列有他们自己的自动释放池，但他们不保证这些池何时被耗尽。如果程序有内存限制，创建自己的自动释放池可以让你在更有规律的时间间隔内释放自动释放对象的内存。
全局队列除了主队列，其他4个都是并发队列，并按照优先级区分。
只要以异步方式向队列提交任务，该队列就不会出现死锁。同步进入正在执行的队列，必然造成死锁。
如果你想同时执行大量的任务，请将它们提交给全局并发队列。
当给调度队列设置了自己的上下文数据是（dispatch_set_context），要相应地设置清理函数（dispatch_set_finalizer_f）以释放自己的上下文数据。
在使用调度函数dispatch_apply或dispatch_apply_f优化循环时，传入并发队列才是有意义的，不然根直接执行没有区别。
避免从提交给调度队列的任务重获取锁。这不仅会阻塞串行队列，也会让并发队列阻止其他任务的执行。即会让队列不可预测，要同步代码，应使用串行队列而不是锁。

使用技巧：

基于队列的同步比锁更有效，因为锁在有争议和无争议的情况下总是需要一个昂贵的内核陷阱（kernel trap），而调度队列主要在程序的进程空间工作，只有在绝对必要时才会向下调用内核。
对于并发队列，若不是需要操作队列，如挂起，否则使用全局并发队列即可。
在创建串行队列时，尽量为每个队列确定一个目的，如保护资源或同步程序的一些关键行为。
除非遇到竞态条件或其他同步错误，否则都尽可能地异步添加任务。异步添加任务到串行队列实现了异步锁。

Objective-C API -> Swift API

dispatch_barrier_async -> async设置flags值为.barrier

dispatch_after -> asyncAfter

dispatch_once -> 无

dispatch_apply -> concurrentPerform

一次执行

Swift中没有提供，可自己实现：

public extension DispatchQueue {
    private static var _onceTracker = [String]()

    class func once(file: String = #file, function: String = #function, line: Int = #line, block: () -> Void) {
        let token = "\(file):\(function):\(line)"
        once(token: token, block: block)
    }

    class func once(token: String, block: () -> Void) {
        objc_sync_enter(self)
        defer {
            objc_sync_exit(self)
        }
        guard !_onceTracker.contains(token) else { return }
        _onceTracker.append(token)
        block()
    }
}

objc_sync_enter和objc_sync_exit共同实现@sychronized递归锁。

屏障（barrier）

注意：在全局并发队列中插入屏障无效，跟普通的async效果一致，起不到阻塞的作用。

插入屏障任务对并发队列的作用：

等待在屏障任务之前的任务完成；
执行屏障任务，并等待完成；
继续执行后续其他任务。

concurrentQueue.async {
    DispatchQueueExp.testTask("A")
}
concurrentQueue.async {
    DispatchQueueExp.testTask("B")
}
concurrentQueue.async(flags: .barrier) {
    DispatchQueueExp.testTask("Barrier-C")
}
concurrentQueue.async {
    DispatchQueueExp.testTask("D")
}
concurrentQueue.async {
    DispatchQueueExp.testTask("F")
}

输出：

A开始-testTask(_:):<NSThread: 0x6000025adec0>{number = 5, name = (null)}
B开始-testTask(_:):<NSThread: 0x6000025e8340>{number = 4, name = (null)}
B结束-testTask(_:):<NSThread: 0x6000025e8340>{number = 4, name = (null)}
A结束-testTask(_:):<NSThread: 0x6000025adec0>{number = 5, name = (null)}
Barrier-C开始-testTask(_:):<NSThread: 0x6000025adec0>{number = 5, name = (null)}
Barrier-C结束-testTask(_:):<NSThread: 0x6000025adec0>{number = 5, name = (null)}
D开始-testTask(_:):<NSThread: 0x6000025adec0>{number = 5, name = (null)}
F开始-testTask(_:):<NSThread: 0x6000025962c0>{number = 3, name = (null)}
D结束-testTask(_:):<NSThread: 0x6000025adec0>{number = 5, name = (null)}
F结束-testTask(_:):<NSThread: 0x6000025962c0>{number = 3, name = (null)}

调度信号量

调度信号量用于在访问一些有限资源时，用它来控制同时访问资源的任务数量。
调度信号量比传统信号量有更好的性能。传统信号量总是需要调用内核来测试信号量。因为当资源可用的时候，获取一个信号量比获取传统信号量更快，因为当资源可用时调度信号量不会向下调用内核。唯一调用内核的实际时机时资源不可用时，系统暂停线程直到发出信号。
如果是为了对资源加锁，那么使用串行队列可能性能更优。
信号量值 ≤ 0，则阻塞当前线程进入休眠等待，直到信号量值 > 0。
使用调度信号量的步骤：
1. 创建信号量，传入可用资源数量。
2. wait让信号量-1，表示已占用一个资源。
3. 执行任务。完成时，调用signal让信号量+1，表释放资源。
注意，若在销毁时信号量的值小于初始值，则会崩溃（BUG IN CLIENT OF LIBDISPATCH: Semaphore object deallocated while in use）。
当初始值为0的信号量，可以用作锁，即调用wait马上阻塞线程，signal才解开线程。例如可以让异步操作变成同步操作。

应用：

异步变同步
控制并发量，Metal绘制经常使用。

控制并发量

func doSomething(label: String, cost: UInt32, complete:@escaping ()->()){
    NSLog("Start task%@",label)
    sleep(cost)
    NSLog("End task%@",label)
    complete()
}

/////////////////////////////////////////////////////////////////////////////

let semaphore = DispatchSemaphore(value: 3)
let queue = DispatchQueue(label: "", qos: .default, attributes: .concurrent)

queue.async {
    semaphore.wait()
    self.doSomething(label: "1", cost: 2, complete: {
        print(Thread.current)
        semaphore.signal()
    })
}

queue.async {
    semaphore.wait()
    self.doSomething(label: "2", cost: 2, complete: {
        print(Thread.current)
        semaphore.signal()
    })
}

queue.async {
    semaphore.wait()
    self.doSomething(label: "3", cost: 4, complete: {
        print(Thread.current)
        semaphore.signal()
    })
}

queue.async {
    semaphore.wait()
    self.doSomething(label: "4", cost: 2, complete: {
        print(Thread.current)
        semaphore.signal()
    })
}

queue.async {
    semaphore.wait()
    self.doSomething(label: "5", cost: 3, complete: {
        print(Thread.current)
        semaphore.signal()
    })
}

调度组

调度组是一种在一或多个任务执行完毕之前阻塞线程的方式。

DispatchGroup两种用法:

一、调度队列调度时传入调度组

最简单的用法。

notify：对组做完成监听。

let group = DispatchGroup()
myQueue?.async(group: group, qos: .default, flags: [], execute: { 
    for _ in 0...10 {
       print("耗时任务一")
    }
})
myQueue?.async(group: group, qos: .default, flags: [], execute: {
    for _ in 0...10 {
        print("耗时任务二")
    }
})
//执行完上面的两个耗时操作, 回到myQueue队列中执行下一步的任务
group.notify(queue: myQueue!) {
    print("回到该队列中执行")
}

wait：阻塞线程，同步访问。

//等待上面任务执行，会阻塞当前线程，超时就执行下面的，上面的继续执行。可以无限等待 .distantFuture
let result = group.wait(timeout: .now() + 2.0)
switch result {
    case .success:
        print("不超时, 上面的两个任务都执行完")
    case .timedOut:
        print("超时了, 上面的任务还没执行完执行这了")
}

print("接下来的操作")

二、enter-leave

手动管理调度组计数，enter和leave必须配对。

应用更为自由，不用给队列调用传入调度组，可在任意的队列操作调度组计数。同样最后通过notify监听完成回调。

let group = DispatchGroup()
group.enter()//把该任务添加到组队列中执行
myQueue?.async {
    for _ in 0...10 {
        print("耗时任务一")
        group.leave()//执行完之后从组队列中移除
    }
}
group.enter()//把该任务添加到组队列中执行
myQueue? {
    for _ in 0...10 {
        print("耗时任务二")
        group.leave()//执行完之后从组队列中移除
    }
}

//当上面所有的任务执行完之后通知
group.notify(queue: .main) {
    print("所有的任务执行完了")
}

调度组和调度信号量都可以实现在异步调用中进行计数，除了用法不一样外，调度信号量只能用于阻塞，而调度组除了阻塞外也提供了异步监听完成的回调。

]]> 翻译 Apple 多线程 Concurrency Programming Guide Concurrency Programming Guide：调度源 /posts/concurrency_pg_dispatch_sources/ 每当你与底层系统打交道时，必须准备好该任务可能需要花费大量的时间。对内核或其他系统层的调用涉及到上下文的改变，与发生在进程中的调用相比，这种改变是相当昂贵的。因此，许多系统库提供了异步接口，允许你的代码向系统提交一个请求，并在处理该请求时继续做其他工作。Grand Central Dispatch建立在这种一般行为的基础上，允许你提交请求，并使用block和调度队列将结果反馈给你的代码。

关于调度源

调度源是一个基本的数据类型，它协调特定的底层系统事件的处理。Grand Central Dispatch支持以下类型的调度源：

计时器调度源产生定期通知。
信号调度源在UNIX信号到达时发出通知。
描述符源通知你各种基于文件和套接字的操作，例如：
- 当数据可供读取时；
- 当可以写入数据时；
- 当文件在文件系统中被删除、移动或重命名时；
- 当文件元信息发生变化时；
进程调度源通知你与进程有关的事件，如：
- 当一个进程退出时；
- 当一个进程发出一个fork或exec类型的调用时；
- 当一个信号被传递给进程时；
机器端口调度源通知与机器有关的事件。
自定义调度源可以由自己定义和触发。

调度源取代通常用于处理系统相关事件的异步回调函数。当你配置一个调度源时，指定你想监控的事件和调度队列，以及用来处理这些事件的代码。你可以使用block对象或函数指定你的代码。当一个感兴趣的事件到来时，调度源会将你的block或函数提交给指定的调度队列来执行。

与手动提交到队列的任务不同，调度源为程序提供了一个持续的事件源。在你明确取消它之前，一个调度源一直连接到它的调度队列。在连接期间，每当相应的事件发生时，它都会向调度队列提交其相关的任务代码。有些事件，如定时器事件，会定期发生，但大多数事件只是在特定条件出现时零星地发生。出于这个原因，调度源保留其相关的调度队列，以防止它在事件可能仍在等待时被过早释放。

为了防止事件积压在调度队列中，调度源实施了一个事件合并（coalescing）方案。如果一个新的事件在前一个事件的handler被取消排队并执行之前到达，调度源就会将新的事件数据与旧事件的数据合并起来。根据事件的类型，合并可能会取代旧事件或更新其持有的信息。例如，一个基于信号的调度源只提供关于最近的信号信息，但也报告自上次调用事件handler以来，总共有多少信号被传递。

创建调度源

创建一个调度源包括创建事件源和调度源本身。事件源是处理这些事件所需的任何本地数据结构。例如，对于一个基于描述符的调度源，你需要打开描述符，而对于一个基于进程的源，你需要获得目标程序的进程ID。当你有了你的事件源，你就可以按以下方法创建相应的调度源：

使用 dispatch_source_create 函数创建调度源。
配置调度源：
- 为调度源分配一个事件handler；可参阅Writing and Installing an Event Handler。
- 对于定时器源，使用dispatch_source_set_timer函数设置定时器信息；可参阅Creating a Timer。
可以选择给调度源分配一个取消handler；可参阅Installing a Cancellation Handler。
调用dispatch_resume函数开始处理事件；可参阅Suspending and Resuming Dispatch Sources。

由于调度源在使用前需要一些额外的配置，dispatch_source_create函数在暂停状态下返回调度源。在暂停状态下，调度源接收事件但不处理它们。这使你有时间配置一个事件handler，并执行处理实际事件所需的其他配置。

下面的章节向你展示了如何配置调度源。关于展示如何配置特定类型的调度源的详细例子，可参阅Dispatch Source Examples。关于用来创建和配置调度源的函数的其他信息，可参阅Grand Central Dispatch (GCD) Reference。

编写和配置一个事件Handler

为了处理由调度源产生的事件，你必须定义一个事件handler来处理这些事件。事件handler是一个函数或block对象，用dispatch_source_set_event_handler或dispatch_source_set_event_handler_f函数将其配置在调度源上。当一个事件到来时，调度源会将事件handler提交给指定的调度队列进行处理。

你的事件handler的主体负责处理任何到达的事件。如果你的事件handler已经在队列中并等待处理一个事件，当一个新的事件到达时，调度源会将这两个事件合并起来。一个事件handler通常只看到最近的事件的信息，但根据调度源的类型，它也可以获得其他已经发生并被合并的事件的信息。如果一个或多个新的事件在事件handler开始执行后到达，调度源会保留这些事件，直到当前事件handler执行完毕。这时，它将事件handler与新的事件一起再次提交给队列。

基于函数的事件handler接受一个单一的上下文指针，包含调度源对象，并且不返回任何值。基于block的事件handler不接受参数，也没有返回值。

// Block-based event handler
void (^dispatch_block_t)(void)

// Function-based event handler
void (*dispatch_function_t)(void *)

在事件handler中，你可以从调度源本身获得关于给定事件的信息。尽管基于函数的事件handler被传递一个指向调度源的指针作为参数，但基于block的事件handler必须自己捕获这个指针。你可以通过正常引用包含调度源的变量来实现捕获指针。例如，下面的代码片段捕获了source变量，它被声明在block的范围之外。

dispatch_source_t source = dispatch_source_create(DISPATCH_SOURCE_TYPE_READ,
                                 myDescriptor, 0, myQueue);
dispatch_source_set_event_handler(source, ^{
   // Get some data from the source variable, which is captured
   // from the parent context.
   size_t estimated = dispatch_source_get_data(source);
 
   // Continue reading the descriptor...
});
dispatch_resume(source);

在block内捕获变量通常是为了获得更大的灵活性和动态性。当然，捕获的变量在block内默认为只读。尽管block功能提供了对特定情况下修改捕获变量的支持，但你不应该试图在与调度源相关的事件handler中这样做。调度源总是异步地执行它们的事件handler，所以当你的事件handler执行时，你捕获的任何变量的定义作用域很可能已经消失。关于如何在block内捕获和使用变量的更多信息，可参阅Blocks Programming Topics。

表4-1列出了可以从事件handler代码中调用的函数，以获取事件的信息。

Table 4-1 从调度源获取数据

dispatch_source_get_handle：该函数返回调度源所管理的底层系统数据类型。

对于描述符调度源，该函数返回一个包含与调度源相关的描述符的int类型。
对于一个信号调度源，该函数返回一个int类型，包含最近事件的信号编号。
对于一个进程调度源，此函数返回一个pid_t数据结构，用于被监控的进程。
对于一个Mach端口调度源，此函数返回一个mach_port_t数据结构。
对于其他调度源，此函数返回的值是未定义的。

dispatch_source_get_data ：此函数返回与事件相关的任何未决（pending）数据。

对于从文件中读取数据的描述符调度源，该函数返回可供读取的字节数。
对于向文件写数据的描述符调度源，如果有空间可供写入，该函数返回一个正整数。
对于监视文件系统活动的描述符调度源，该函数返回一个dispatch_source_vnode_flags_t枚举，表示所发生的事件的类型。
对于一个进程调度源，这个函数返回一个dispatch_source_proc_flags_t枚举，表示发生的事件类型。
对于Mach端口调度源，此函数返回一个dispatch_source_machport_flags_t枚举，表示发生的事件类型。
对于自定义调度源，此函数返回从现有数据和传递给dispatch_source_merge_data函数的新数据创建的新数据值。

dispatch_source_get_mask：该函数返回用于创建调度源的事件标志。

对于一个进程调度源，该函数返回调度源所接收的事件的掩码（dispatch_source_proc_flags_t）。
对于具有发送权限的Mach端口调度源，此函数返回所需事件的掩码（dispatch_source_mach_send_flags_t）。
对于一个自定义OR调度源，此函数返回用于合并数据值的掩码。

关于如何为特定类型的调度源编写和配置事件handler的例子，可参阅Dispatch Source Examples。

配置取消Handler

取消handler用于在调度源被释放之前对其进行清理。对于大多数类型的调度源，取消handler是可选的，只有当你有一些与调度源绑定的自定义行为也需要被更新时才有必要。然而，对于使用描述符或Mach端口的调度源，你必须提供一个取消handler来关闭描述符或释放Mach端口。如果不这样做，这些结构体被你的代码和系统的其他部分无意地重用，可能会导致代码中出现微妙的错误。

可以在任何时候配置取消handler，但通常在创建调度源时进行配置。你可以使用dispatch_source_set_cancel_handler或dispatch_source_set_cancel_handler_f函数来配置取消handler，这取决于你想在实现中使用一个block对象还是一个函数。下面的例子显示了一个简单的取消handler，它关闭了一个为调度源打开的描述符。fd变量是一个包含描述符的捕获变量。

dispatch_source_set_cancel_handler(mySource, ^{
   close(fd); // Close a file descriptor opened earlier.
});

修改目标队列

尽管你在创建调度源时指定了运行事件和取消handler的队列，但你可以在任何时候使用 dispatch_set_target_queue 函数改变该队列。通过这样你可以改变调度源的事件处理的优先级。

修改调度源的队列是一个异步操作，调度源会尽最大努力尽快做出修改。如果一个事件handler已经在队列中并等待处理，它将在之前的队列中执行。然而，在你修改的时候，其他到达的事件可以在任一队列中处理。

关联自定义数据与调度源

像Grand Central Dispatch中的许多其他数据类型一样，你可以使用dispatch_set_context函数来将自定义数据与调度源关联起来。可以使用上下文指针来存储事件handler在处理事件时需要的任何数据。如果你确实在上下文指针中存储了任何自定义数据，你也应该设置一个取消handler，以便在不再需要调度源时释放这些数据。

如果你使用block来实现你的事件handler，也可以捕获局部变量并在基于block的代码中使用它们。尽管这可能减轻了在调度源的上下文指针中存储数据的需要，但你应该始终谨慎地使用这一功能。因为调度源在程序中可能是长期存在的，在捕获包含指针的变量时应该小心。如果指针所指向的数据在任何时候都可能被释放，你应该复制该数据或保留它。在这两种情况下，你都需要配置一个取消handler来释放这些数据。

调度源的内存管理

像其他调度对象一样，调度源也是有引用计数的数据类型。一个调度源的初始引用计数为1，可以使用dispatch_retain和dispatch_release函数保留和释放。当一个队列的引用计数达到0时，系统会自动释放调度源的数据结构。

由于它们的使用方式，调度源的所有权可以由内部管理，也可以由外部管理。对于外部所有权，另一个对象或一段代码拥有调度源的所有权，并负责在不再需要它时将其释放。对于内部所有权，调度源持有自己，并负责在适当的时候释放自己。尽管外部所有权非常普遍，但在你想创建一个自主的调度源并让它管理你的代码的某些行为而不进行任何进一步的交互的情况下，你可能会使用内部所有权。例如，如果一个调度源被设计为响应一个单一的全局事件，你可能会让它处理该事件，然后立即退出。

调度源示例

下面的章节向你展示了如何创建和配置一些更常用的调度源。关于配置特定类型的调度源的更多信息，可参阅Grand Central Dispatch (GCD) Reference。

创建定时器

定时器调度源以定期、基于时间的间隔产生事件。你可以使用定时器来启动需要定期执行的特定任务。例如，游戏和其他图形密集型的程序可以使用定时器来启动屏幕或动画的更新。你也可以设置一个定时器并使用产生的事件来检查经常更新的服务器上的新信息。

所有的定时器调度源都是间隔性的定时器，也就是说，一旦创建，它们就会按照你指定的时间间隔定期发送事件。当你创建一个定时器调度源时，你必须指定的一个值是一个leeway值，以使系统知道定时器事件的所需精度。leeway值让系统在如何管理电源和唤醒内核方面有一定的灵活性。例如，系统可能会使用leeway值来提前或推迟启动时间，并使其与其他系统事件更好地协调。因此，你应该尽可能为你自己的定时器指定一个leeway值。

注意：即使你指定了一个0的leeway值，你也不应该期望定时器在你要求的精确纳秒处启动。系统会尽力满足你的需求，但不能保证精确的启动时间。

当计算机进入睡眠状态时，所有的定时器调度源都被暂停。当计算机唤醒时，这些定时器调度源也会被自动唤醒。根据定时器的配置，这种性质的暂停可能会影响定时器下一次触发的时间。如果你使用dispatch_time函数或DISPATCH_TIME_NOW常数来设置你的定时器调度源，定时器调度源会使用默认的系统时钟来决定何时启动。然而，当计算机处于睡眠状态时，默认的时钟不会前进。相比之下，当你使用dispatch_walltime函数设置你的定时器调度源时，定时器调度源会跟踪其触发时间到绝对（wall）的时钟时间。后者通常适用于触发间隔比较大的定时器，因为它可以防止事件时间之间有太大的漂移。

清单4-1显示了一个定时器的例子，它每30秒触发一次，leeway为1秒。因为定时器的时间间隔比较大，所以使用dispatch_walltime函数来创建调度源。计时器的第一次触发立即发生，随后的事件每30秒到达。MyPeriodicTask和MyStoreTimer符号代表自定义函数，编写这些函数来实现定时器行为，并将定时器存储在程序数据结构的某个地方。

下面展示了一个间隔 30s leeaway 1s 的timer。因为间隔较大，dispatch source 使用 dispatch_walltime 来创建的。timer 初次会立即 fire，之后每 30s 到达一次。

清单4-1 创建定时器数据源

dispatch_source_t CreateDispatchTimer(uint64_t interval,
              uint64_t leeway,
              dispatch_queue_t queue,
              dispatch_block_t block)
{
   dispatch_source_t timer = dispatch_source_create(DISPATCH_SOURCE_TYPE_TIMER,
                                                     0, 0, queue);
   if (timer)
   {
      dispatch_source_set_timer(timer, dispatch_walltime(NULL, 0), interval, leeway);
      dispatch_source_set_event_handler(timer, block);
      dispatch_resume(timer);
   }
   return timer;
}
 
void MyCreateTimer()
{
   dispatch_source_t aTimer = CreateDispatchTimer(30ull * NSEC_PER_SEC,
                               1ull * NSEC_PER_SEC,
                               dispatch_get_main_queue(),
                               ^{ MyPeriodicTask(); });
 
   // Store it somewhere for later use.
    if (aTimer)
    {
        MyStoreTimer(aTimer);
    }
}

尽管创建一个定时器调度源是接收基于时间的事件的主要方式，但也有其他选择。如果你想在指定的时间间隔后执行一次block，你可以使用dispatch_after或dispatch_after_f函数。这个函数的作用与dispatch_async函数很相似，只是它允许你指定一个时间值，在这个时间值上将block提交给队列。根据你的需要，时间值可以指定为一个相对的或绝对的时间值。

从描述符中读取数据

要从文件或套接字中读取数据，你必须打开文件或套接字，并创建一个DISPATCH_SOURCE_TYPE_READ类型的调度源。指定的事件handler应该能够读取和处理文件描述符的内容。在处理文件的情况下，这相当于读取文件数据（或该数据的一个子集），并为程序创建适当的数据结构。对于网络套接字，这涉及到处理新收到的网络数据。

每当读取数据时，你应该始终将描述符配置为使用非阻塞操作。尽管可以使用dispatch_source_get_data函数来查看有多少数据可供读取，但该函数返回的值在你调用时和你实际读取数据时可能发生变化。如果底层文件被截断或发生网络错误，从描述符中读取的数据会阻塞当前线程，从而使你的事件handler在执行过程中卡死，阻塞调度队列其他任务。对于一个串行队列，这可能会使队列造成死锁，甚至对于一个并发队列，这也会削减可启动的新任务的数量。

清单4-2显示了一个配置调度源以从文件中读取数据的例子。在这个例子中，事件handler将指定文件的全部内容读入一个缓冲区，并调用一个自定义函数来处理这些数据。该函数的调用者将使用返回的调度源，在读取操作完成后取消它。为了确保调度队列在没有数据可读时不会出现不必要的阻塞，本例使用fcntl函数来配置文件描述符，使其执行非阻塞操作。配置在调度源上的取消handler确保文件描述符在数据被读取后被关闭。

dispatch_source_t ProcessContentsOfFile(const char* filename)
{
   // Prepare the file for reading.
   int fd = open(filename, O_RDONLY);
   if (fd == -1)
      return NULL;
   fcntl(fd, F_SETFL, O_NONBLOCK);  // Avoid blocking the read operation
 
   dispatch_queue_t queue = dispatch_get_global_queue(DISPATCH_QUEUE_PRIORITY_DEFAULT, 0);
   dispatch_source_t readSource = dispatch_source_create(DISPATCH_SOURCE_TYPE_READ,
                                   fd, 0, queue);
   if (!readSource)
   {
      close(fd);
      return NULL;
   }
 
   // Install the event handler
   dispatch_source_set_event_handler(readSource, ^{
      size_t estimated = dispatch_source_get_data(readSource) + 1;
      // Read the data into a text buffer.
      char* buffer = (char*)malloc(estimated);
      if (buffer)
      {
         ssize_t actual = read(fd, buffer, (estimated));
         Boolean done = MyProcessFileData(buffer, actual);  // Process the data.
 
         // Release the buffer when done.
         free(buffer);
 
         // If there is no more data, cancel the source.
         if (done)
            dispatch_source_cancel(readSource);
      }
    });
 
   // Install the cancellation handler
   dispatch_source_set_cancel_handler(readSource, ^{close(fd);});
 
   // Start reading the file.
   dispatch_resume(readSource);
   return readSource;
}

上面的例子中，自定义的MyProcessFileData函数决定了什么时候已经读取了足够的文件数据，什么时候取消调度源。默认情况下，为从描述符中读取数据而配置的调度源会在仍有数据需要读取时重复调度其事件handler。如果套接字连接关闭或到达文件的末尾，调度源会自动停止调度事件handler。如果确定不需要一个调度源，可以自己直接取消它。

把数据写入描述符中

向文件或套接字写数据的过程与读数据的过程非常相似。在为写操作配置描述符后，你要创建一个DISPATCH_SOURCE_TYPE_WRITE类型的调度源。一旦该调度源被创建，系统就会调用你的事件handler，让它有机会开始向文件或套接字写入数据。当你写完数据后，使用dispatch_source_cancel函数来取消调度源。

无论什么时候写数据，你都应该将文件描述符配置为使用非阻塞操作。尽管你可以使用dispatch_source_get_data函数来查看有多少空间可供写入，但该函数返回的值只是指导性的，在你调用时和你实际写入数据时可能发生变化。如果发生错误，向一个阻塞的文件描述符写入数据可能会使你的事件handler在执行过程中卡死，并阻塞调度队列其他任务。对于一个串行队列，这可能会使你的队列造成死锁，甚至对于一个并发队列，这也会削减可以启动的新任务的数量。

清单4-3显示了使用调度源向文件写入数据的基本方法。在创建新文件后，该函数将产生的文件描述符传递给其事件handler。被放入文件的数据是由MyGetData函数提供的，你可以用需要的任何代码来替换它，以生成文件的数据。将数据写入文件后，事件handler取消了调度源，以防止它被再次调用。然后，调度源的所有者将负责释放它。

清单4-3 向文件写入数据

dispatch_source_t WriteDataToFile(const char* filename)
{
    int fd = open(filename, O_WRONLY | O_CREAT | O_TRUNC,
                      (S_IRUSR | S_IWUSR | S_ISUID | S_ISGID));
    if (fd == -1)
        return NULL;
    fcntl(fd, F_SETFL); // Block during the write.
 
    dispatch_queue_t queue = dispatch_get_global_queue(DISPATCH_QUEUE_PRIORITY_DEFAULT, 0);
    dispatch_source_t writeSource = dispatch_source_create(DISPATCH_SOURCE_TYPE_WRITE,
                            fd, 0, queue);
    if (!writeSource)
    {
        close(fd);
        return NULL;
    }
 
    dispatch_source_set_event_handler(writeSource, ^{
        size_t bufferSize = MyGetDataSize();
        void* buffer = malloc(bufferSize);
 
        size_t actual = MyGetData(buffer, bufferSize);
        write(fd, buffer, actual);
 
        free(buffer);
 
        // Cancel and release the dispatch source when done.
        dispatch_source_cancel(writeSource);
    });
 
    dispatch_source_set_cancel_handler(writeSource, ^{close(fd);});
    dispatch_resume(writeSource);
    return (writeSource);
}

监控文件系统对象

如果你想监视一个文件系统对象的变化，你可以设置一个DISPATCH_SOURCE_TYPE_VNODE类型的调度源。你可以使用这种类型的调度源，在文件被删除、写入或重命名时接收通知。你也可以用它在文件的特定类型的元信息（如它的大小和链接数）发生变化时得到通知。

注意：你为调度源指定的文件描述符必须在源本身处理事件时保持打开。

清单4-4显示了一个例子，它监视一个文件名变化，并在它发生变化时执行一些自定义行为。(你可以提供实际的行为来代替例子中调用的 MyUpdateFileName 函数。)因为一个描述符是专门为调度源打开的，所以调度源包含一个关闭描述符的取消handler。因为本例创建的文件描述符与底层文件系统对象相关联，相同的调度源可以用来检测任何数量的文件名变化。

清单4-4 观察文件名变化

dispatch_source_t MonitorNameChangesToFile(const char* filename)
{
   int fd = open(filename, O_EVTONLY);
   if (fd == -1)
      return NULL;
 
   dispatch_queue_t queue = dispatch_get_global_queue(DISPATCH_QUEUE_PRIORITY_DEFAULT, 0);
   dispatch_source_t source = dispatch_source_create(DISPATCH_SOURCE_TYPE_VNODE,
                fd, DISPATCH_VNODE_RENAME, queue);
   if (source)
   {
      // Copy the filename for later use.
      int length = strlen(filename);
      char* newString = (char*)malloc(length + 1);
      newString = strcpy(newString, filename);
      dispatch_set_context(source, newString);
 
      // Install the event handler to process the name change
      dispatch_source_set_event_handler(source, ^{
            const char*  oldFilename = (char*)dispatch_get_context(source);
            MyUpdateFileName(oldFilename, fd);
      });
 
      // Install a cancellation handler to free the descriptor
      // and the stored string.
      dispatch_source_set_cancel_handler(source, ^{
          char* fileStr = (char*)dispatch_get_context(source);
          free(fileStr);
          close(fd);
      });
 
      // Start processing events.
      dispatch_resume(source);
   }
   else
      close(fd);
 
   return source;
}

监控信号

UNIX信号允许从一个程序外对其进行操纵。一个程序可以接收许多不同类型的信号，从不可恢复的错误（如非法指令）到重要信息的通知（如一个子进程退出时）。传统上，程序使用sigaction函数来配置一个信号处理函数，该函数在信号到达后立即同步处理。如果你只是想得到信号到达的通知，而不是真的想处理信号，你可以使用一个信号调度源来异步处理信号。

信号调度源不能替代使用sigaction函数配置的同步信号handler。同步信号handler实际上可以捕获一个信号并防止它终止程序。信号调度源允许你只监控信号的到达。此外，你不能使用信号调度源来检索所有类型的信号。具体来说，你不能用它们来监控SIGILL、SIGBUS和SIGSEGV信号。

因为信号调度源是在调度队列上异步执行的，所以它们不受一些与同步信号handler的限制。例如，你可以从信号调度源的事件handler中调用的函数。这种灵活性增加的代价是，在信号到达和调度源的事件handler被调用之间可能会有一些延迟。

清单4-5显示了如何配置一个信号调度源来处理SIGHUP信号。调度源的事件handler调用了MyProcessSIGHUP函数，你可以在此实现自己的处理信号逻辑。

清单4-5 配置block监控信号

void InstallSignalHandler()
{
   // Make sure the signal does not terminate the application.
   signal(SIGHUP, SIG_IGN);
 
   dispatch_queue_t queue = dispatch_get_global_queue(DISPATCH_QUEUE_PRIORITY_DEFAULT, 0);
   dispatch_source_t source = dispatch_source_create(DISPATCH_SOURCE_TYPE_SIGNAL, SIGHUP, 0, queue);
 
   if (source)
   {
      dispatch_source_set_event_handler(source, ^{
         MyProcessSIGHUP();
      });
 
      // Start processing signals
      dispatch_resume(source);
   }
}

如果你正在为一个自定义的框架开发代码，使用信号调度源的一个好处是代码可以独立于任何链接到它的程序来监控信号。信号调度源不会干扰其他调度源或程序可能配置的任何同步信号handler。

监控进程

进程调度源可以让你监控一个特定进程的行为，并作出适当的响应。一个父进程可以使用这种调度源来监视它所创建的任何子进程。例如，父进程可以用它来监视一个子进程的结束。同样地，一个子进程可以用它来监视它的父进程，并在父进程退出时退出。

清单4-6显示了配置一个调度源以监视父进程终止的步骤。当父进程终止时，调度源设置一些内部状态信息，让子进程知道它应该退出。(程序需要实现MySetAppExitFlag函数来为终止设置一个适当的标志。) 由于调度源自主运行，因此持有自己，它也会在预期程序关闭的情况下取消和释放自己。

清单4-6 监控父进程的终止

void MonitorParentProcess()
{
   pid_t parentPID = getppid();
 
   dispatch_queue_t queue = dispatch_get_global_queue(DISPATCH_QUEUE_PRIORITY_DEFAULT, 0);
   dispatch_source_t source = dispatch_source_create(DISPATCH_SOURCE_TYPE_PROC,
                                                      parentPID, DISPATCH_PROC_EXIT, queue);
   if (source)
   {
      dispatch_source_set_event_handler(source, ^{
         MySetAppExitFlag();
         dispatch_source_cancel(source);
         dispatch_release(source);
      });
      dispatch_resume(source);
   }
}

取消调度源

调度源一直处于活动状态，直到你使用dispatch_source_cancel函数显式取消它们。取消一个调度源会停止新事件的传递，并且不能被撤销。因此，通常取消一个调度源，然后就立即释放它，如下所示：

void RemoveDispatchSource(dispatch_source_t mySource)
{
   dispatch_source_cancel(mySource);
   dispatch_release(mySource);
}

取消一个调度源是一个异步操作。尽管在你调用dispatch_source_cancel函数后，没有新的事件被处理，但已经被调度源处理的事件还是继续被处理。在处理完任何最终事件后，如果有取消handler，调度源会执行其取消handler。

取消handler是你释放内存或清理代表调度源获取的任何资源的机会。如果调度源使用描述符或mach端口，你必须提供一个取消handler，以便在取消发生时关闭描述符或销毁端口。其他类型的调度源不需要取消handler，但如果你将任何内存或数据与调度源关联，仍应提供。例如，如果你在调度源的上下文指针中存储数据，你应提供取消handler。关于取消handler的更多信息，可参阅Installing a Cancellation Handler。

暂停和恢复调度源

你可以使用dispatch_suspend和dispatch_resume方法暂停和恢复调度源事件的传递。这些方法为调度对象增加和减少暂停计数。因此，你必须在每次平衡调用dispatch_suspend与调用dispatch_resume。

当暂停一个调度源时，任何在该调度源被暂停时发生的事件都会被收集起来，直到队列恢复。当队列恢复时，不是发送所有的事件，而是在发送前将这些事件合并成一个单一的事件。例如，如果你正在监控一个文件的名称变化，发送的事件将只包括最后的名称变化。以这种方式合并事件，可以防止它们在队列中堆积，并在工作恢复时让你的程序应付不来。

总结

调度源用于监听底层（系统、内核）事件，实现处理事件异步回调。既然是用于监听，对应的就该主动取消。
在Swift中，根据调度源类型，有对应的协议。但创建都是使用DispatchSource对应的make类工厂方法创建特定类型的调度源。这样接收的调度源返回值就可以调用特定类型协议的具体方法。
调度源的通用方法都定义在DispatchSourceProtocol。
- 配置：setRegistrationHandler、setEventHandler、setCancelHandler
- 基本操作：activate、cancel、suspend、resume、

]]> 翻译 Apple 多线程 Concurrency Programming Guide Concurrency Programming Guide：迁移线程代码 /posts/concurrency_pg_migrating_away_from_threads/ 有很多方法可以调整现有的线程代码，以利用Grand Central Dispatch和操作对象的优势。虽然不是在所有情况下都能摆脱线程，但在你进行转换的地方，性能（以及代码的简单性）可以得到极大的改善。具体来说，使用调度队列和操作队列而取代线程有几个优势：

减少了程序为在内存空间中存储线程堆栈的内存占用。
消除了创建和配置线程所需的代码。
消除了管理和安排线程工作所需的代码。
减少了代码量。

本章提供了一些技巧和指南，说明如何替换现有的基于线程的代码，转而使用调度队列和操作队列来实现相同类型的行为。

用调度队列替换线程

要了解如何用调度队列替换线程，首先要考虑在程序中使用线程的一些方式：

单一任务线程。创建一个线程来执行一个单一的任务，当任务完成后释放该线程。
工作线程。创建一个或多个工作线程，每个线程都有特定的任务。定期向每个线程调度任务。
线程池。创建一个通用线程池，并为每个线程设置run loop。当你有任务要执行时，从池子里取一个线程，把任务调度给它。如果没有空闲的线程，就把任务排入队列，等待可用的线程。

尽管这些看起来是截然不同的技术，但它们实际上只是同一原则的变种。在以上的每种使用方式，线程都被用来运行程序必须执行的一些任务。它们之间唯一的区别是用于管理线程和任务队列的代码。通过使用调度队列和操作队列，可以消除所有线程和线程通信的代码，让你专注于要执行的任务。

如果你正在使用上述线程模型，你应该和清楚程序要执行任务类型。与其将一个任务提交给你的一个自定义线程，不如尝试将该任务封装在一个操作对象或一个block对象中，并将其调度到适当的队列中。对于那些不是特别有争议的任务（不需要锁的任务），你应该能进行以下的直接替换：

对于单个任务线程，将任务封装在一个block或操作对象中，并将其提交给一个并发队列。
对于工作线程，你需要决定是使用一个串行队列还是一个并发队列。如果你使用工作现场来同步执行特定的任务集，请使用串行队列。如果你确实使用工作现场来执行没有相互依赖关系的任意任务，则使用并发队列。
对于线程池，将你的任务封装在一个block或操作对象中，并将它们调度到一个并发队列中执行。

当然，像这样简单的替换可能并不是在所有情况下都适用。如果你正在执行的任务存在争夺共享资源，理想的解决方案是首先尝试消除或尽量减少这种争夺。如果你有办法重构你的代码以消除对共享资源的相互依赖，这当然是最好的。但是，如果做不到，或者效率较低，那么还是有办法利用队列的优势。队列的一大优势是，它们提供了一种更可预测的方式来执行你的代码。这种可预测性意味着仍有办法在不使用锁或其他重量级同步机制的情况下同步执行你的代码。你可以使用队列来执行许多相同的任务，而不是使用锁。

如果是必须按特定顺序执行的任务，可以把它们提交给一个串行调度队列。或使用操作对象依赖来确保以特定的顺序执行。
如果目前使用锁来保护一个共享资源，创建一个串行队列来执行任何修改该资源的任务。然后，使用串行队列将取代现有的锁作为同步机制的代码。关于摆脱锁的更多技术，可参阅Eliminating Lock-Based Code。
如果在用线程连接来等待后台任务的完成，可以考虑使用调度组来替换。也可以使用NSBlockOperation对象或操作对象依赖来实现类似的组完成行为。关于如何跟踪执行任务的组，可参阅Replacing Thread Joins。
如果在使用生产者-消费者算法来管理有限资源池，可以考虑将实现改为修改生产者-消费者实现中所述的方案。
如果在使用线程从描述符中读写，或监视文件操作，可以改用调度源实现。

重要的是要记住，队列并不是取代线程的万金油。队列提供的异步编程模型适用于允许延迟的场景。即使队列提供了配置任务执行优先级的方法，但较高的执行优先级并不能保证任务在特定的时间执行。因此，在需要尽可能避免延迟的情况下，线程仍然是一个更合适的选择，例如在音频和视频播放的场景。

消除基于锁的代码

对于线程代码，锁是同步访问线程间共享资源的传统方式之一。然而，锁的使用是有代价的。即使在无竞态条件的情况下，使用锁也会有性能损失。而在竞态条件的情况下，一或多个线程有可能在等待锁被释放的过程中阻塞不确定的时间。

用队列取代基于锁的代码，可以消除许多与锁相关的损耗，同时也简化了剩余的代码。你可以创建一个队列来串行访问该资源，而不是使用锁来保护一个共享资源。队列不会像锁那样带来性能损耗。例如，排队的任务不需要进入内核来获取互斥锁。

当排队任务时，你只需决定是同步还是异步进行。异步提交任务可以让当前线程在执行任务时继续运行。同步提交任务则会阻塞当前线程的运行，直到任务完成。这两个情况都有适当的用途，但只要有可能，异步提交任务肯定是更优的。

下面几节将向你展示如何用等价的基于队列的代码来替换现有的基于锁的代码。

实现异步锁

异步锁是一种保护共享资源的方式，它不会阻塞任何修改该资源的代码。当你需要修改一个数据结构，会影响其他的任务时，你可能会使用异步锁。使用传统的线程，通常的方式是为共享资源加锁，然后进行必要的修改，释放锁，然后继续完成任务。然而，使用调度队列，调用的代码可以异步地进行修改，而不必等待这些修改完成。

清单5-1显示了一个异步锁实现的例子。在这个例子中，受保护的资源定义了自己的串行调度队列。调用代码向这个队列提交一个block对象，其中包含需要对资源进行的修改。因为队列本身是串行执行block的，所以对资源的修改保证按照接收的顺序进行；但是，因为任务是异步执行的，所以调用线程不会阻塞。

清单5-1 异步修改保护的资源

dispatch_async(obj->serial_queue, ^{
   // Critical section
});

同步执行关键代码

如果当前的代码在某个任务完成之前不能继续，你可以使用dispatch_sync函数同步提交该任务。这个函数将任务添加到一个调度队列中，然后阻塞当前线程，直到任务执行完毕。根据你的需要，调度队列本身可以是一个串行或并发队列。因为这个函数会阻塞当前线程，所以你应该只在必要时使用它。清单5-2显示了使用dispatch_sync来包装代码的关键部分的技术。

清单5-2 同步执行关键代码

dispatch_sync(my_queue, ^{
   // Critical section
});

如果你已经在使用一个串行队列来保护共享资源，同步调度到该队列并不会比异步调度更能保护共享资源。使用同步调度的是为了阻塞当前代码，直到关键部分完成。例如，如果你想从共享资源中获取一些值并立即使用它，你就需要同步调度。如果当前代码不需要等待关键部分的完成，或者它可以简单地提交后续任务到同一个串行队列中，那么异步提交往往是首选。

改进循环代码

如果代码有循环，并且每次通过循环所做的工作与其他迭代中的工作无关，你可以考虑使用dispatch_apply或dispatch_apply_f函数重新实现该循环代码。这些函数把循环的每个迭代单独提交给一个调度队列进行处理。当与并发队列一起使用时，这个功能可以让你并发地执行循环迭代。

如果你的循环的每次迭代都是相互独立的话，你也许应该考虑使用 dispatch_apply 或 dispatch_apply_f 重新实现你的循环。这两个函数将每个迭代提交给队列处理。当和并行队列一起使用的时候，这个特性让你能够同时进行多个迭代。

dispatch_apply和dispatch_apply_f函数是同步函数调用，它们会阻塞当前执行线程，直到所有的循环迭代完成。当提交给一个并发队列时，循环迭代的执行顺序不被保证。运行每个迭代的线程可能会阻塞，导致一个给定的迭代在它周围的其他迭代之前或之后完成。因此，在为每个循环迭代使用的block对象或函数必须是可重入的。

清单5-3显示了如何用基于GCD来替换for循环。传递给dispatch_apply或dispatch_apply_f的block或函数必须取一个整数值，表示当前循环的迭代。在这个例子中，代码只是将当前的循环编号打印到控制台。

清单5-3 逐步替换for循环

queue = dispatch_get_global_queue(DISPATCH_QUEUE_PRIORITY_DEFAULT, 0);
dispatch_apply(count, queue, ^(size_t i) {
   printf("%u\n", i);
});

尽管前面的例子是一个简单的例子，但它展示了使用调度队列替换循环的基本技术。尽管这可能是提高基于循环的代码性能的一个好方法，但你仍必须辨证地使用这种技术。尽管调度队列的开销很低，但在一个线程上调度每个循环迭代仍有成本。因此，你应该确保你的循环代码做了足够多的工作来抵消这些成本。确切地说，需要做多少工作是你必须使用性能工具来衡量的事情。

增加每个循环迭代的工作量的一个简单方法是使用striding。使用striding重写你的block，以每次执行原始循环的多个迭代。然后，将指定给dispatch_apply函数的计数值按比例减少。清单5-4显示了如何为清单5-3中的循环代码实现striding。在清单5-4中，该block调用printf语句的次数与stride值相同，在本例中是137。(实际的stride值是你应该根据你的代码所做的工作来配置的)。因为在将总的迭代次数除以stride值时，会有剩余的部分，所以任何剩余的迭代都是直接执行的。

清单5-4 向调度的for循环增加步幅

int stride = 137;
dispatch_queue_t queue = dispatch_get_global_queue(DISPATCH_QUEUE_PRIORITY_DEFAULT, 0);
 
dispatch_apply(count / stride, queue, ^(size_t idx){
    size_t j = idx * stride;
    size_t j_stop = j + stride;
    do {
       printf("%u\n", (unsigned int)j++);
    }while (j < j_stop);
});
 
size_t i;
for (i = count - (count % stride); i < count; i++)
   printf("%u\n", (unsigned int)i);

使用stride有一些明确的性能优势。尤其是当原始循环迭代次数较多时。同时调度较少的block意味着花在执行这些block的代码上的时间比调度它们的时间多。不过和任何性能指标一样，你可能要调整striding的值来达到最佳性能。

替换线程连接

线程连接允许你生成一个或多个线程，然后让当前线程等待，直到这些线程完成。为了实现线程连接，一个父线程会创建一个子线程作为可连接线程。当父线程在没有子线程的结果的情况下不能再取得进展时，它就与子线程连接。这个过程会阻塞父线程，直到子线程完成其任务并退出，这时，父线程可以从子线程中收集结果并继续原来的工作。如果父线程需要与多个子线程连接，它只能逐个进行。

调度组提供了类似于线程连接的语义，但也有一些额外的优势。与线程连接一样，调度组是一种让线程阻塞的方式，直到一个或多个子任务执行完毕。与线程连接不同，调度组同时等待其所有子任务。因为调度组使用调度队列来执行工作，所以它们非常高效。

要使用调度组来执行由可连接线程执行的相同工作，你要做的是：

使用dispatch_group_create函数创建一个调度组。
使用dispatch_group_async或dispatch_group_async_f函数向该组添加任务。提交给组的每个任务都表示在一个可加入的线程上执行的工作。
当当前线程不能再向前推进时，调用dispatch_group_wait函数来等待该组。这个函数会阻止当前线程，直到该组中的所有任务完成执行。

如果你使用操作对象来实现你的任务，你也可以使用依赖关系实现线程连接。与其让一个父线程等待一个或多个任务完成，不如将父线程的代码移到一个操作对象中。然后，你将在父操作对象和任何数量的子操作对象之间建立依赖关系，以完成通常由可连接线程执行的工作。对其他操作对象的依赖关系可以阻塞父操作对象的执行，直到所有的操作都完成。

关于如何使用调度组的例子，可参阅Waiting on Groups of Queued Tasks。关于设置操作对象之间的依赖关系，可参阅Configuring Interoperation Dependencies。

改变生产者-消费者的实现方式

生产者-消费者模型可以让你管理有限动态生产的资源。当生产者创建新的资源（或任务）时，一个或多个消费者等待这些资源（或任务）就绪，并在它们就绪时消费它们。实现生产者-消费者模型的典型机制是条件（conditions）或信号量。

使用条件，生产者线程通常做以下事情：

锁定与条件相关的互斥锁（使用pthread_mutex_lock）。
生产将被消费的资源或任务。
向条件变量发出信号，表示有资源要消耗（使用pthread_cond_signal）。
解锁互斥锁（使用pthread_mutex_unlock）。

相应的消费线程会做以下事情：

锁定与该条件相关的互斥锁（使用pthread_mutex_lock）。
设置一个while循环，做以下工作：
1. 检查是否真的有任务要执行。
2. 如果没有任务要执行（或者没有可用的资源），调用pthread_cond_wait来阻塞当前线程，直到有相应的信号量出现。
获取生产者提供的任务（或资源）。
解锁互斥锁（使用pthread_mutex_unlock）。
处理任务。

通过调度队列，你可以将生产者和消费者的实现简化为单一的调用：

dispatch_async(queue, ^{
   // Process a work item.
});

当你的生产者有任务要执行时，它所要做的就是将该任务添加到队列中，让队列处理该任务。前面的代码中唯一改变的部分是队列类型。如果生产者生成的任务需要按照特定的顺序执行，就使用一个串行队列。如果生产者生成的任务可以并发执行，就把它们添加到一个并发队列中，让系统尽可能地同时执行它们。

替换信号量代码

如果你目前在使用信号量来限制对共享资源的访问，你应考虑使用调度信号量来代替。传统的信号量总是需要调用内核来测试信号量。相反，调度信号量在用户空间中快速测试信号量的状态，并且只有在测试失败和调用线程需要被阻塞时才会进入内核。这种行为的结果是，在没有竞态条件的情况下，调度信号量比传统信号量快得多。不过在其他方面，调度信号量提供了与传统信号量相同的行为。

关于如何使用调度信号的例子，可参阅Using Dispatch Semaphores to Regulate the Use of Finite Resources。

替换Run-Loop代码

如果你正在使用run loop来管理一个或多个线程上执行的工作，你可能会发现队列的实现和维护要简单得多。设置一个自定义的run loop包括设置底层线程和run loop本身。run loop的代码包括设置一个或多个run loop源，并编写回调来处理到达这些源的事件。所有的这些，你可以简单地创建一个串行队列，并向其调度任务。因此，你可以用一行代码取代所有的线程和run loop创建代码。

dispatch_queue_t myNewRunLoop = dispatch_queue_create("com.apple.MyQueue", NULL);

因为队列会自动执行添加的任务，所以你不需要额外的代码来管理队列。你不需要创建或配置线程，也不需要创建或附加任何run loop源。此外，你可以通过简单地将任务添加到队列中来执行新的工作类型。要对run loop做同样的事情，你需要修改你现有的run loop源或创建一个新的run loop源来处理新的数据。

run loop的一个常见配置是处理异步到达网络套接字上的数据。与其为这种类型的行为配置一个run loop，你可以为所需的队列附加一个调度源。与传统的run loop源相比，调度源还提供了更多处理数据的选项。除了处理定时器和网络端口事件外，你还可以使用调度源来读写文件、监控文件系统对象、监控进程和监控信号。你甚至可以定义自定义调度源，从你代码的其他部分异步触发它们。关于设置调度源的更多信息，可参阅调度源。

兼容POSIX线程

由于Grand Central Dispatch管理着你提供的任务和这些任务运行的线程之间的关系，你一般应该避免从你的任务代码中调用POSIX线程例程。如果你因为某些原因需要调用它们，你应该非常小心地对待你所调用的例程（routines）。本节为你提供了一个指南，说明哪些例程可以安全调用，哪些例程不可以从你的队列任务中调用。这个列表并不完整，但应该给你一个指示，哪些是安全的调用，哪些是不安全的。

一般来说，程序不能删除或改变不是它创建的对象或数据结构。因此，使用调度队列执行的block对象不能调用以下函数：

pthread_detach
pthread_cancel
pthread_join
pthread_kill
pthread_exit

尽管在任务运行时是可以修改一个线程的状态的，但你必须在你的任务返回之前将线程返回到它的原始状态。因此，只要你把线程返回到它的原始状态，调用以下函数是安全的：

pthread_setcancelstate
pthread_setcanceltype
pthread_setschedparam
pthread_sigmask
pthread_setspecific

用于执行一个给定block的底层线程可以在不同的调用中进行修改。因此，程序不应该依赖以下函数在block的调用之间返回可预测的结果：

pthread_self
pthread_getschedparam
pthread_get_stacksize_np
pthread_get_stackaddr_np
pthread_mach_thread_np
pthread_from_mach_thread_np
pthread_getspecific

重要提醒：block必须捕获并抑制在其中抛出的任何语言级异常。在block的执行过程中发生的其他错误同样应该由block来处理，或者用来通知程序的其他部分。

关于POSIX线程和本节中提到的函数的更多信息，可参阅pthread man pages。

总结

异步添加任务到串行队列实现了异步锁。
关键代码使用同步方式进入串行、并发队列中执行。
用调度组替换线程连接。
生产者-消费者模型可以直接用给队列添加任务实现。如果生产者生成的任务需要按照特定的顺序执行，就使用一个串行队列。如果生产者生成的任务可以并发执行，就把它们添加到一个并发队列中，让系统尽可能地同时执行它们。
run loop代码可以直接用一个串行队列或调度源实现。
如果对实时性要求非常严格，那么还是建议使用线程实现。

]]> 翻译 Apple 多线程 Concurrency Programming Guide Concurrency Programming Guide：术语表 /posts/concurrency_pg_glossary/ 程序 application

A specific style of program that displays a graphical interface to the user.

一种特定风格的向用户显示图形界面的program。

异步设计法 asynchronous design approach

The principle of organizing an application around blocks of code that can be run concurrently with an application’s main thread or other threads of execution. Asynchronous tasks are started by one thread but actually run on a different thread, taking advantage of additional processor resources to finish their work more quickly.

围绕可与程序主线程或其他执行线程同时运行的block来组织程序的原则。异步任务由一个线程启动，但实际上在不同的线程上运行，利用额外的处理器资源，更快完成工作。

block object

A C construct for encapsulating inline code and data so that it can be performed later. You use blocks to encapsulate tasks you want to perform, either inline in the current thread or on a separate thread using a dispatch queue. For more information, see Blocks Programming Topics.

一种C结构，用于封装内联代码和数据，以便以后执行。你可以使用block来封装你想执行的任务，可以在当前线程中内联，也可以在一个单独的线程中使用调度队列。了解更多信息，可参阅Blocks Programming Topics。

并发操作 concurrent operation

An operation object that does not perform its task in the thread from which its start method was called. A concurrent operation typically sets up its own thread or calls an interface that sets up a separate thread on which to perform the work.

一个操作对象，它不在调用其start方法的线程中执行其任务。一个并发操作通常会设置自己的线程，或者调用一个接口，设置一个单独的线程来执行工作。

条件 condition

A construct used to synchronize access to a resource. A thread waiting on a condition is not allowed to proceed until another thread explicitly signals the condition.

一个用于同步访问资源的结构。在一个条件下等待的线程不允许继续进行，直到另一个线程明确发出条件信号。

关键部分 critical section

A portion of code that must be executed by only one thread at a time.

一次只能由一个线程执行的部分代码。

自定义源 custom source

A dispatch source used to process application-defined events. A custom source calls your custom event handler in response to events that your application generates.

一个用于handler定义的事件的调度源。自定义源调用自定义事件handler，以响应程序产生的事件。

描述符 descriptor

An abstract identifier used to access a file, socket, or other system resource.

用于访问文件、套接字或其他系统资源的一个抽象标识符。

调度队列 dispatch queue

A Grand Central Dispatch (GCD) structure that you use to execute your application’s tasks. GCD defines dispatch queues for executing tasks either serially or concurrently.

一个GCD数据结构，用它来执行程序的任务。GCD定义了用于串行或并发执行任务的调度队列。

调度源 dispatch source

A Grand Central Dispatch (GCD) data structure that you create to process system-related events.

一个GCD数据结构，创建它来处理系统相关事件。

描述符调度源 descriptor dispatch source

A dispatch source used to process file-related events. A file descriptor source calls your custom event handler either when file data is available for reading or writing or in response to file system changes.

一个用于处理文件相关事件的调度源。文件描述符源在文件数据可供读写时或在文件系统变化时调用自定义事件处理器。

动态共享库 dynamic shared library

A binary executable that is loaded dynamically into an application’s process space rather than linked statically as part of the application binary.

一个二进制可执行文件，它被动态加载到程序的进程空间，而不是作为程序二进制的一部分静态链接。

framework

A type of bundle that packages a dynamic shared library with the resources and header files that support that library. For more information, see Framework Programming Guide.

一种捆绑类型，将动态共享库与支持该库的资源和头文件打包。更多信息，可参阅Framework Programming Guide。

全局调度队列 global dispatch queue

A dispatch queue provided to your application automatically by Grand Central Dispatch (GCD). You do not have to create global queues yourself or retain or release them. Instead, you retrieve them using the system-provided functions.

由GCD自动提供给程序的一个调度队列。你不需要自己创建全局队列，也不需要保留或释放它们。相反，你可以使用系统提供的函数来检索它们。

Grand Central Dispatch (GCD)

A technology for executing asynchronous tasks concurrently. GCD is available in OS X v10.6 and later and iOS 4.0 and later.

一种用于并发执行异步任务的技术。GCD在OS X v10.6及以后版本和iOS 4.0及以后版本中可用。

输入源 input source

A source of asynchronous events for a thread. Input sources can be port based or manually triggered and must be attached to the thread’s run loop.

一个线程的异步事件的来源。输入源可以是基于端口的，也可以是手动触发的，必须连接到线程的run loop。

可连接线程 joinable thread

A thread whose resources are not reclaimed immediately upon termination. Joinable threads must be explicitly detached or be joined by another thread before the resources can be reclaimed. Joinable threads provide a return value to the thread that joins with them.

一个线程，其资源在终止时不会被立即回收。可加入的线程必须明确地被分离或被另一个线程加入，然后才可以回收资源。可加入的线程为与之加入的线程提供一个返回值。

库 library

A UNIX feature for monitoring low-level system events. For more information see the kqueue man page.

一个UNIX功能，用于监控低级别的系统事件。更多信息可参阅 kqueue man page。

Mach port dispatch source

A dispatch source used to process events arriving on a Mach port.

一个用于处理到达Mach端口事件的调度源。

主线程 main thread

A special type of thread created when its owning process is created. When the main thread of a program exits, the process ends.

一个特殊类型的线程，在其所属的进程被创建时创建。当一个程序的主线程退出时，该进程就结束了。

互斥锁 mutex

A lock that provides mutually exclusive access to a shared resource. A mutex lock can be held by only one thread at a time. Attempting to acquire a mutex held by a different thread puts the current thread to sleep until the lock is finally acquired.

一个提供对共享资源的互斥访问的锁。一个互斥锁在同一时间只能由一个线程持有。试图获取一个由不同线程持有的互斥锁会使当前线程陷入休眠状态，直到最终获得该锁。

Open Computing Language (OpenCL)

A standards-based technology for performing general-purpose computations on a computer’s graphics processor. For more information, see OpenCL Programming Guide for Mac.

一种基于标准的技术，用于在计算机的图形处理器上进行通用计算。更多信息，可参阅OpenCL Programming Guide for Mac。

操作对象 operation object

An instance of the NSOperation class. Operation objects wrap the code and data associated with a task into an executable unit.

NSOperation类的一个实例。操作对象将与一个任务相关的代码和数据包装成一个可执行的单元。

操作队列 operation queue

An instance of the NSOperationQueue class. Operation queues manage the execution of operation objects.

NSOperationQueue类的一个实例。操作队列管理操作对象的执行。

私有调度队列 private dispatch queue

A dispatch queue that you create, retain, and release explicitly.

自己明确创建、保留和释放的调度队列。

进程 process

The runtime instance of an application or program. A process has its own virtual memory space and system resources (including port rights) that are independent of those assigned to other programs. A process always contains at least one thread (the main thread) and may contain any number of additional threads.

一个程序或程序的运行时实例。一个进程有自己的虚拟内存空间和系统资源（包括端口权限），独立于分配给其他程序的资源。一个进程总是包含至少一个线程（主线程），并可能包含任何数量的附加线程。

进程调度源 process dispatch source

A dispatch source used to handle process-related events. A process source calls your custom event handler in response to changes to the process you specify.

用于处理与进程有关的事件的调度源。进程源在响应指定的进程的变化时调用自定义事件handler。

程序 program

A combination of code and resources that can be run to perform some task. Programs need not have a graphical user interface, although graphical applications are also considered programs.

一个代码和资源的组合，可以运行以执行一些任务。程序不需要有图形用户界面，尽管图形应用程序也被认为是程序。

可重入的 reentrant

Code that can be started on a new thread safely while it is already running on another thread.

当代码已经在一个线程上运行时，可以在另一个新的线程上安全启动。

run loop

An event-processing loop, during which events are received and dispatched to appropriate handlers.

一个事件处理的循环，在这个循环中，事件被接收并调度给适当的handler。

run loop mode

A collection of input sources, timer sources, and run loop observers associated with a particular name. When run in a specific “mode,” a run loop monitors only the sources and observers associated with that mode.

一个输入源、定时器源和run loop观察者的集合，与一个特定的名称相关联。当在一个特定的模式下运行时，一个run loop只监控与该模式相关的源和观察者。

run loop object

An instance of the NSRunLoop class or CFRunLoopRef opaque type. These objects provide the interface for implementing an event-processing loop in a thread.

NSRunLoop类或CFRunLoopRef不透明类型的实例。这些对象提供了在线程中实现事件处理循环的接口。

run loop observer

A recipient of notifications during different phases of a run loop’s execution.

在run loop执行的不同阶段，是通知的接收者。

信号量 semaphore

A protected variable that restricts access to a shared resource. Mutexes and conditions are both different types of semaphore.

一个受保护的变量，限制对共享资源的访问。互斥锁和条件都是不同类型的信号量。

信号 signal

A UNIX mechanism for manipulating a process from outside its domain. The system uses signals to deliver important messages to an application, such as whether the application executed an illegal instruction. For more information see the signal man page.

一种UNIX机制，用于从一个进程的域外操纵该进程。系统使用信号向程序传递重要信息，例如程序是否执行了非法指令。更多信息可参阅 signal man page。

信号调度源 signal dispatch source

A dispatch source used to process UNIX signals. A signal source calls your custom event handler whenever the process receives a UNIX signal.

用于处理UNIX信号的调度源。当进程收到UNIX信号时，信号源会调用自定义事件handler。

任务 task

A quantity of work to be performed. Although some technologies (most notably Carbon Multiprocessing Services) use this term differently, the preferred usage is as an abstract concept indicating some quantity of work to be performed.

一个要执行的工作数量。尽管一些技术（最明显的是Carbon多处理服务）以不同的方式使用这个术语，但首选的用法是作为一个抽象的概念，表示要执行的一些工作的数量。

线程 thread

A flow of execution in a process. Each thread has its own stack space but otherwise shares memory with other threads in the same process.

一个进程中的执行流。每个线程都有自己的堆栈空间，但在其他方面与同一进程中的其他线程共享内存。

定时器调度源 timer dispatch source

A dispatch source used to process periodic events. A timer source calls your custom event handler at regular, time-based intervals.

用于处理周期性事件的调度源。定时器源定期、基于时间的间隔调用自定义事件handler。

]]> 翻译 Apple 多线程 Concurrency Programming Guide

类型

变量

枚举、结构体、联合体

函数

指针

Buffer

OpaquePointer

字符串指针

指针转换

方法参数是指针

向下隐式转换

隐式桥接

Swift基本类型 -> 指针

数组中的应用

字符串中的应用

Data中的应用

指针类型转换

类型指针 -> 原始指针

原始指针 -> 类型指针

访问指向的值

C指针使用注意

参考

参考

OC类对象方法调用

Swift类对象

Swift方法调用

OC类派生类并重写的方法

扩展中定义的方法

类中定义的一般方法

Swift的成员变量

结构体

类方法和全局函数

开启编译链接优化后

Swift其他特性底层

引用类型与值类型

延迟存储属性

类存储属性

输入输出参数

函数重载

内联函数

闭包

参考

细节

设值流程

取值流程

参考

使用

手动处理变更通知

注册依赖键

注册集合监听

新特性与坑

KVO实现原理

触发机制

参考

变量捕获修饰符

底层数据结构

参考

面试题

执行以下两段代码，有什么区别？

参考

NSProxy

isa

class

method_t

class_ro_t

cache_t

类的本质

对象的种类

super

参考

isa指针

为什么print可以被调用

为什么打印是<ViewController: 0x7fce43e08aa0>

autoreleasepool

场景一

场景二

场景三

注意

更多

扩展问题

为什么`print`可以被调用

为什么打印是`<ViewController: 0x7fce43e08aa0>`

`+load`方法的执行

`+initialize`方法的执行