Failure analysis в EMS нужен не для красивого отчёта после рекламации, а для защиты OEM от повторяемого полевого отказа. Пока дефект остаётся на уровне слов вроде "вероятно", "не воспроизвелось" или "единичный случай", у команды нет управляемого решения. В электронике это быстро превращается в дорогую цепочку: возврат из поля, срочный sorting на складе, блокировка shipment, спор по виновной стороне, повторный отказ у следующего клиента и потеря доверия к программе.
Для OEM, работающего с PCB assembly, PCB manufacturing, cable assembly и wire harness, failure analysis должен связывать данные из поля, traceability, лабораторные наблюдения, тестовое покрытие и corrective action в одну управляемую систему. Методически эта работа пересекается с root cause analysis, failure mode and effects analysis, reliability engineering и требованиями ISO 9001, но реальная ценность появляется только тогда, когда вывод можно проверить повторным тестом, микросекцией, заменой детали или данными traceability.
> "Если OEM получает 8D без подтверждённого механизма отказа, это не failure analysis, а административная упаковка неопределённости. Технический разбор должен показать не только где сломалось, но и почему процесс это пропустил."
> — Hommer Zhao, Technical Director
Когда failure analysis нужен немедленно
Не каждый возврат требует глубокой лабораторной работы. Но есть сигналы, при которых запуск formal FA нужно открывать сразу: safety-related отказ, повторяемость более 2-3 случаев на 1 000-5 000 изделий, дефект у продукта для medical, automotive, railway или industrial применения, отказ после software update, проблема на общей ревизии BOM, а также любой field return, который невозможно связать с misuse клиента в течение 24-48 часов.
Самая частая ошибка OEM и EMS здесь одинакова: слишком рано объявить причину. Команда видит сгоревший MOSFET, треснувший solder joint, потерю связи по разъёму или intermittent open в жгуте и сразу выбирает удобную версию: "скачок напряжения у клиента", "влага", "ошибка монтажа". Но видимое повреждение и первичный механизм отказа часто не совпадают. Сгоревший компонент может быть вторичным эффектом, а crack в пайке может быть следствием коробления платы, неправильного fixture, перегруза при подключении кабеля или деградации покрытия контакта.
Что должен включать RMA-пакет до начала анализа
Слабый failure analysis начинается с плохих входных данных. Если EMS получает только два неисправных изделия и короткий комментарий "не включается", лаборатория почти наверняка уйдёт в режим догадок. До вскрытия OEM должен собрать минимальный RMA-пакет: serial number, date code, firmware revision, lot или WO, описание режима отказа, часы/циклы до отказа, температура или среду эксплуатации, фотографию установки, историю ремонта или переподключений, данные по версии кабеля/адаптера/питания и список действий, на которых дефект воспроизводится.
Для PCBA полезно приложить журнал тестов ICT/FCT, запись тока потребления, результат burn-in или ESS, а для жгутов и кабельных сборок — continuity, hipot, pull-force, mating cycles и маршрут укладки в системе. Если у OEM есть входящие жалобы с нескольких площадок, нужно разделить их по ревизии, географии, партии и сценарию отказа. Смешение разных случаев в одну рекламацию ломает причинно-следственную связь уже на старте.
Практично связывать этот пакет с traceability в EMS, матрицей тестового покрытия и 8D/CAPA. Без этого анализ быстро скатывается в спор между customer complaint и внутренней статистикой завода.
Матрица failure analysis для OEM
Ниже структура, которая помогает отличать поверхностный разбор от управляемого технического расследования.
| Этап | Что проверить | Минимальное доказательство | Целевой срок | Риск при пропуске |
|---|---|---|---|---|
| Intake | Серийные номера, ревизия, symptom definition | RMA intake form и фото изделия | 24 часа | Смешение разных дефектов в один кейс |
| Containment | Объём потенциально затронутой партии | Block list, stock screen, shipment hold | 24-48 часов | Повторные отгрузки дефектного lot |
| Reproduction | Можно ли воспроизвести отказ | Repeatable test step или NTF-log | 48-72 часа | Неверная гипотеза по причине |
| Non-destructive FA | X-ray, ICT/FCT retest, microscopy, continuity | Фото, измерения, waveform, resistance data | 3-5 дней | Потеря признаков из-за раннего вскрытия |
| Destructive FA | Cross-section, dye & pry, decap, cut-open | Подтверждённый physical evidence | 5-10 дней | Причина остаётся предположением |
| Root cause | Механизм отказа и escape point | Cause tree + process escape evidence | 5-10 дней | Corrective action лечит симптом |
| Corrective action | Что меняется в процессе или дизайне | ECO, WI update, test update, supplier action | 1-3 недели | Повторение отказа после закрытия 8D |
Эта таблица полезна тем, что заставляет OEM задавать вопрос не "есть ли отчёт", а "на каком уровне доказательности мы находимся". Если у команды есть только symptom и визуальная фотография, root cause ещё не доказан.
NTF и CND: почему "дефект не найден" не закрывает кейс
В реальной EMS-практике часть возвратов уходит в статус NTF, CND или no trouble found. Иногда это действительно эксплуатационный фактор: неправильный адаптер, дефектный mating connector у клиента, ошибка сборки конечного изделия, разряд ESD в системе. Но слишком высокий NTF-процент обычно означает не отсутствие проблемы, а слабую методику воспроизведения.
Если на 10 возвратов 4-6 получают статус NTF, OEM должен требовать дополнительную сегментацию. Нужно разделить intermittent failures, transport damage, user-induced damage и software/configuration mismatch. Для intermittent open, термозависимых проблем и вибрационных дефектов статическая проверка на столе мало полезна. Тогда нужны temperature sweep, bend test для кабеля, повторные mating cycles, подача рабочей нагрузки, логирование в течение 30-60 минут или сравнение с golden sample. Особенно это важно для testing, высокоскоростных линий и силовых узлов, где симптом может проявляться только при токе, температуре или вибрации, отсутствующих в стандартном retest.
> "NTF выше 20-30% по одной программе обычно говорит не о чистом продукте, а о слабом intake или неадекватном методе воспроизведения. Хороший failure analysis сначала уточняет symptom envelope, а уже потом пишет 'не воспроизвелось'."
> — Hommer Zhao, Technical Director
Неразрушающий анализ: что делать до вскрытия
Самая дисциплинированная часть failure analysis состоит в том, чтобы не разрушить улику раньше времени. До механического вскрытия или выпайки компонента полезно пройти неразрушающий маршрут: внешний осмотр под увеличением, проверка загрязнений и влаги, повторный FCT/ICT, измерение сопротивлений и утечек, X-ray для BGA/QFN и press-fit, термокамера под нагрузкой, осциллограммы питания и сигнальных линий, а также сравнение с known-good unit.
Для cable assembly и wire harness до разрезания жгута стоит проверить continuity map, сопротивление цепей, hipot, разницу по усилию фиксации контактов, состояние seal, следы натяжения и перегиба возле strain relief. Для PCBA нужно сохранять sequence of evidence: какой тест выполнялся, кто его проводил, при каких настройках и что изменилось после каждого действия. Это особенно важно, если результат later будет обсуждаться между OEM, EMS и поставщиком компонента.
Неразрушающий этап тесно связан с X-ray inspection, burn-in и ESS, golden sample и тестовыми сервисами в разделе capabilities. Его задача не в том, чтобы "потянуть время", а в том, чтобы зафиксировать исходное состояние изделия до любого вмешательства.
Разрушающий анализ: когда он действительно нужен
Destructive FA нужен не всегда, но без него нельзя закрывать кейс, если suspected root cause связан с внутренней металлургией, межслойным дефектом, head-in-pillow, intermetallic growth, crimp barrel deformation, fracture surface или деградацией полупроводника. Для разных типов изделия набор методов различается. Для PCBA это могут быть cross-section, dye & pry, decapsulation, solder joint microsection, SEM/EDS через внешнюю лабораторию. Для жгутов и кабелей — cut-open crimp, микрошлиф обжима, pull-to-failure, анализ повреждения изоляции и состояние контактной поверхности.
OEM не обязан всегда требовать дорогую лабораторную программу. Но он должен понимать порог, после которого визуальная гипотеза уже недостаточна. Если отказ затрагивает safety, происходит на объёме выше 100-300 ppm или потенциально ведёт к recall, destructive FA обычно окупается быстрее, чем несколько недель споров по переписке.
Как отделить механизм отказа от process escape
Технически грамотный отчёт всегда отвечает на два разных вопроса. Первый: какой физический механизм привёл к отказу. Второй: почему производственный и тестовый процесс не остановил этот дефект раньше. OEM часто получает ответ только на первый вопрос. Например: микротрещина в пайке BGA, недообжатая жила, перепутанная полярность TVS, загрязнение под покрытием или частичная усадка seal в кабеле. Но без второго ответа corrective action будет неполной.
Здесь нужно выйти на process escape: почему incoming inspection, PFMEA, Control Plan, FAI или текущий тест не зафиксировали отклонение. Иногда ответ в отсутствии test coverage, иногда в слишком широком допуске, иногда в неуправляемой ручной операции, а иногда в problem definition со стороны OEM, когда системный режим отказа вообще не моделировался на заводе.
| Типичный отказ | Возможный физический механизм | Почему процесс пропустил | Что менять в первую очередь | Где проверить повторяемость |
|---|---|---|---|---|
| Intermittent reset на PCBA | Трещина пайки BGA или просадка питания | Нет thermal/vibration screen, FCT без нагрузки | Обновить профиль, fixture, stress test | Burn-in, термокамера, FCT под током |
| High resistance в жгуте | Недообжим или износ applicator | Нет CFM или редкий crimp height audit | Усилить crimp monitoring и reaction plan | Pull-force, microsection, continuity |
| Полевой short после мойки | Ионные остатки или влага под coating | Неуправляемая cleaning verification | Добавить cleanliness control и drying check | SIR/ionic contamination, visual |
| Отказ разъёма после циклов | Износ plating или misalignment | Недостаточно mating-cycle validation | Пересмотреть контакт, plating, fixture | Cycling test, insertion force |
| NTF возврат по питанию | Нестабильный адаптер или system-level load | Intake без данных по эксплуатации | Уточнить symptom envelope и setup | Reproduction на системе клиента |
Такая связка помогает не путать FA с чистым лабораторным заключением. Для OEM важна не только картинка дефекта, но и решение, которое меняет вероятность повторения.
> "Root cause без escape analysis опасен тем, что команда честно объясняет прошлый отказ, но не защищает следующую партию. Для OEM ценен не красивый microsection, а снижение повторяемости хотя бы в ближайшие 30-90 дней."
> — Hommer Zhao, Technical Director
Supplier FA: когда вовлекать поставщика компонента или кабеля
Часть кейсов объективно выходит за пределы EMS-площадки. Это касается latent component defect, нестабильного plating у terminals, отклонений по resin content, деградации полупроводника, проблемы у connector vendor или расхождения по материалу провода. Но перед передачей кейса поставщику OEM должен потребовать от EMS базовую локализацию: defect tree, affected lots, comparison good/bad, результаты retest и evidence, исключающие чисто производственную ошибку.
Если поставщику отправляют только формулировку "component failure suspected", время теряется на недели. Гораздо эффективнее работать через structured supplier package: MPN, lot/date code, defect mode, operating condition, FA images, electrical signature и подтверждение, что соседние элементы схемы или процесса не объясняют отказ лучше. Для high-value программ стоит параллельно запускать собственный containment у EMS, а не ждать итогового supplier 8D 10-20 рабочих дней.
Containment и communication: что OEM должен требовать в первые 48 часов
Первые 48 часов после подтверждённого полевого отказа часто важнее финального отчёта. За это время OEM должен получить answer set, который позволяет управлять риском поставок. Минимально нужны: symptom definition, suspected affected scope, serial/lot range, статус shipment hold, план stock screening, решение по in-transit продукции, временный тест или визуальный screen и owner следующего обновления.
Если программа идёт в regulated сегмент, полезно потребовать daily update на первые 3-5 дней. Для обычной industrial или telecom программы достаточно обновления каждые 24-48 часов, но только с новыми фактами, а не с повтором старых тезисов. В этот момент особенно полезны статьи о supplier scorecard, OTD/OTIF и dual sourcing, потому что failure analysis влияет не только на качество, но и на устойчивость поставок.
Когда кейс действительно закрыт
Failure analysis нельзя считать завершённым по факту отправки PDF или звонка с объяснением. OEM разумно закрывать кейс только после пяти проверок. Первое: механизм отказа подтверждён физическим или воспроизводимым доказательством. Второе: scope containment определён по lot или serial range. Третье: process escape идентифицирован. Четвёртое: corrective action уже внесён в процесс, тест, WI, supplier control или дизайн. Пятое: есть verification of effectiveness на следующих партиях, обычно в окне 30-90 дней или 3 последовательных lots без повторения симптома.
Если этого нет, кейс следует считать open monitoring, даже если коммерческое давление толкает команду к формальному закрытию. Именно здесь failure analysis соединяется с PRR, line transfer и управлением изменениями через ECN/PCN/EOL.
Источники и внешние ссылки
Часто задаваемые вопросы
Сколько времени EMS должен тратить на первичный failure analysis?
Для intake, containment и первичной классификации обычно достаточно 24-48 часов. На воспроизведение симптома и неразрушающий анализ у сложных PCBA или wire harness программ разумно закладывать 3-5 рабочих дней, а destructive FA может занять 5-10 дней, особенно если нужна внешняя лаборатория или supplier involvement.
Что делать, если возврат получил статус NTF?
NTF не должен автоматически закрывать кейс. Если доля NTF по программе выше 20-30% или симптом связан с температурой, вибрацией, mating cycles либо нагрузкой, OEM должен расширить intake-данные и изменить метод воспроизведения: добавить thermal sweep, нагрузку, 30-60 минут логирования или system-level setup клиента.
Когда нужно подключать внешнюю лабораторию?
Обычно тогда, когда suspected mechanism связан с внутренней структурой solder joint, металлизацией, деградацией кристалла, межслойным дефектом платы или микроструктурой обжима. Для safety-related или повторяющихся отказов выше 100-300 ppm внешняя лаборатория часто дешевле, чем затяжной спор между OEM, EMS и supplier без подтверждённого evidence.
Какие данные traceability особенно важны для failure analysis?
Минимально нужны serial number, lot/date code материалов, WO, test result, fixture ID, firmware revision и дата производства. Для кабельных сборок полезно дополнительно хранить terminal lot, wire lot, crimp applicator ID, continuity/hipot result и данные по pull-force, если программа работает по усиленным требованиям контроля.
Может ли 8D заменить полноценный failure analysis?
Нет. 8D удобен как формат коммуникации и CAPA-структуры, но сам по себе не доказывает физический механизм отказа. Если в 8D нет воспроизводимого symptom definition, evidence по root cause и verification of effectiveness хотя бы на 3 последовательных lots или 30-90 днях наблюдения, это управленческий отчёт, а не полноценный FA.
Как OEM понять, что corrective action действительно сработал?
Нужно смотреть не только на отсутствие новых жалоб, но и на ведущие индикаторы: обновлённый test coverage, audit по новой операции, результат pilot verification, FPY/escape trend и отсутствие повторения дефекта на следующих 3 lots или в окне 30-90 дней. Для automotive, medical и railway программ этот период нередко расширяют до 90-180 дней.
Заключение
Сильный failure analysis в EMS помогает OEM не спорить о симптомах, а управлять повторяемостью отказов. Для этого нужны хороший RMA intake, дисциплина по traceability, корректный выбор между non-destructive и destructive FA, отделение root cause от process escape и подтверждение эффективности corrective action на следующих партиях.
Если у вас есть полевые отказы по PCBA, кабельным сборкам, жгутам или смешанным box-build программам, отправьте серийные номера, журнал симптомов и текущий RMA-пакет через страницу контактов или форму запроса. Команда JM electronic поможет быстро локализовать scope, провести failure analysis и сократить риск повторных рекламаций.