Retest и false fail в EMS: как OEM не пропустить реальный риск

Retest в EMS часто воспринимают как безобидную техническую деталь: плата или жгут не прошли тест, оператор повторил прогон, результат стал PASS, и партия пошла дальше. Для OEM это выглядит как нормальная производственная практика, пока процент повторных тестов не начинает размывать реальную картину качества. В этот момент команда уже спорит не о том, сколько изделий было дефектными, а о том, какие изделия вообще можно считать подтверждённо годными. Тема стоит на пересечении false positives and false negatives, statistical process control, ISO 9001 и дисциплины по управлению тестом, но для OEM смысл гораздо практичнее: понять, когда retest спасает от ложного отказа, а когда прячет process escape.

Для компаний, работающих с PCB assembly, PCB manufacturing, cable assembly и wire harness, retest policy должна отвечать на четыре вопроса. Почему изделие упало на первом прогоне. Что именно менялось перед повторным тестом. Как фиксируется причина PASS после retest. Влияет ли повторный прогон на FPY, containment и выпуск партии. Если на эти вопросы нельзя ответить по серийному номеру, test record и fixture ID, OEM рискует получить красивый yield report с плохой воспроизводимостью в поле.

"Повторный тест сам по себе не проблема. Проблема начинается в тот момент, когда никто не может показать, почему первый FAIL не считается значимым для качества партии."
— Hommer Zhao, Technical Director

Почему retest становится опасным именно в зрелом производстве

В единичном прототипе повторный запуск теста почти неизбежен. Инженер проверяет гипотезу, меняет кабель, подтягивает оснастку, обновляет firmware и ищет рабочий baseline. В серийном EMS-сценарии логика другая. Здесь test station уже должна быть частью управляемого процесса, а не лабораторного поиска. Поэтому любой рост retest rate выше ожидаемого диапазона обычно означает не "шум системы", а одну из трёх проблем: нестабильный fixture, невалидные limits или реальный производственный дефект, который то проявляется, то исчезает.

OEM особенно часто недооценивает второй и третий сценарий. Нестабильный fixture может давать intermittent open, ложный fail по току, плавающий контакт на pogo pin или drift после сотен циклов. Но похожую картину дают и реальные причины: загрязнение после сборки, трещина пайки, marginal crimp, неконтролируемый torque, неверный software image или слабая фиксация разъёма в тестовом приспособлении. Если supplier классифицирует всё это как "retest passed, no issue", данные по FPY, failure analysis и control plan теряют ценность.

Какие типы retest встречаются на PCBA, cable assembly и wire harness

Не каждый повторный прогон одинаково рискован. OEM полезно сразу разделить retest на несколько классов. Administrative retest возникает, когда тест был прерван из-за внешнего фактора: оператор не закрыл крышку fixture, сканер не считал serial, питание стенда провалилось, recipe загрузилась с ошибкой. Diagnostic retest нужен, чтобы подтвердить гипотезу после локального вмешательства: замены pogo pin, переподключения кабеля, очистки контакта, повторной посадки адаптера. Recovery retest следует после rework или repair и уже должен жить по отдельной процедуре, связанной с MRB, repair record и повторным acceptance criteria. Uncontrolled retest — самый опасный класс, когда изделие прогоняют ещё раз без записи причины, а PASS просто перекрывает первый FAIL.

Для PCBA это обычно видно на ICT, FCT, flying probe, programming и final system test. Для кабельных сборок и жгутов — на continuity, hipot, insulation resistance, pull force correlation и functional mating test. В high-mix среде граница между "нормальным шумом" и плохой дисциплиной особенно тонкая, поэтому supplier должен заранее показать правила, а не объяснять их постфактум во время gemba walk или 8D-эскалации.

Матрица решений по retest для OEM и EMS

Ситуация	Типичный пример	Допустимое действие	Что должно остаться в записи	Красный флаг
Административный сбой теста	Serial не считан, крышка fixture открыта, power glitch	Повторный запуск по short code	Cause code, station ID, operator, время	PASS без отметки, что тест не завершился
Подозрение на оснастку	Pogo pin не касается точки, адаптер жгута болтается	Остановить lot, проверить fixture, golden unit	Fixture ID, maintenance check, scope affected units	Массовый retest без проверки оснастки
Вероятный процессный дефект	FAIL по open, hipot leakage, current draw	Hold + диагностика + containment	Failure code, serial, lot, defect evidence	Повторять, пока не станет PASS
Rework после ремонта	Замена компонента, повторная обжимка, перепайка	Controlled retest по WI	Repair record, retest result, rework owner	Нет связи между repair и test history
Программный или конфигурационный фактор	Неверная firmware version, test recipe mismatch	Исправить baseline и повторить тест	Version control, кто и когда обновил	Смешение нескольких версий на одной смене
Intermittent failure без найденной причины	Падает 1 из 20 прогонов, потом PASS	Escalation, stress test, временный hold	NTF/INT code, дополнительные условия прогона	Отгрузка без анализа повторяемости

Эта таблица важна тем, что она отделяет разрешённый повторный тест от статистического самообмана. Первый прогон всегда содержит информацию. Даже если позже выяснится, что FAIL вызван плохим контактом в fixture, это всё равно событие процесса, а не мусор, который можно стереть из отчёта. Для OEM это критично при оценке test coverage matrix, traceability и monthly supplier review.

"Если завод может показать только финальный PASS, а первый FAIL исчез из системы, OEM уже потерял самую полезную часть данных о стабильности процесса."
— Hommer Zhao, Technical Director

Как retest искажает FPY, yield и supplier KPI

Самая частая управленческая ошибка состоит в том, что FPY считают по последнему статусу, а не по первому прохождению. Тогда линия выглядит стабильнее, чем она есть на самом деле. Допустим, партия из 500 изделий дала 35 первых FAIL, из которых 28 прошли повторно без ремонта, 5 после rework и 2 ушли в scrap. Если supplier report показывает только конечный yield 99.6%, OEM не видит, что реальный first-pass performance был 93.0%, а внутренняя нестабильность процесса уже достаточно велика, чтобы вызвать задержки, extra handling и скрытый reliability risk.

На практике полезно разделять минимум четыре метрики: FPY, final yield, retest rate и NTF rate. FPY показывает дисциплину базового процесса. Final yield показывает, сколько изделий в итоге можно выпустить. Retest rate показывает нагрузку на тестовую систему и вероятность ложных сигналов. NTF rate показывает, сколько отказов не удалось воспроизвести или объяснить. Если supplier даёт только final yield, OEM не понимает, где именно рождается потерьное время и насколько надёжен сам test barrier.

Особенно важно не смешивать NTF и benign retest. Если плата упала из-за криво установленного адаптера, это проблема процесса тестирования. Если она упала, потом прошла и больше не воспроизводится, это ещё не доказательство отсутствия дефекта. Для силовой электроники, автомобильных, медицинских, промышленных и телекоммуникационных программ intermittent PASS после первого FAIL должен рассматриваться осторожнее, чем для недорогой consumer-сборки.

Какие данные OEM должен требовать по каждому retest case

Минимальный набор данных здесь короче, чем для полного CAPA, но жёстче, чем обычный test log. Для каждого повторного прогона должны быть доступны serial number, product revision, station ID, fixture ID, версия test program или firmware, код первого FAIL, время между первым и повторным прогоном, имя оператора или техника, факт вмешательства в изделие и итоговая классификация: false fail, fixture issue, process defect, rework pass, NTF, scrap. Для кабельных изделий дополнительно полезно видеть mating half, harness board ID, applicator/tool ID и environmental conditions для hipot или continuity.

Такая детализация нужна не ради архивов. Без неё нельзя связать retest с golden sample, MSA и Gage R&R, incoming inspection и реальной зрелостью тестового процесса. Если у вас есть только строка "retest pass", то вы не знаете, был ли исходный FAIL связан с конкретной линией, оснасткой, программой, партией материалов или человеческим фактором.

Когда повторный тест допустим, а когда нужно останавливать lot

OEM не нужен запрет на retest как таковой. Нужны чёткие stop rules. Допустимый repeat test обычно ограничен сценариями, где причина первого FAIL понятна и не связана с самим изделием: нештатный обрыв питания стенда, незавершённый запуск программы, подтверждённая проблема fixture, документированная ошибка подключения. Как только причина касается электрического поведения изделия, качества сборки, стабильности сигнала или герметичности цепи, повторный прогон уже не должен служить заменой диагностике.

Практическое правило простое. Если перед retest изделие не меняли и среду не меняли, PASS после второго прогона не объясняет, почему первый прогон провалился. В такой ситуации полезно требовать escalation на уровень test engineering или quality, а для повторяющихся кейсов — lot hold. Это особенно важно для процессов, связанных с capabilities/testing, first article inspection, программированием, BGA/QFN, силовыми узлами, continuity/hipot и системами с несколькими harness-ветвями.

"Один PASS после необъяснённого FAIL не доказывает исправность изделия. Он лишь доказывает, что система пока не умеет воспроизводимо различать хороший и пограничный продукт."
— Hommer Zhao, Technical Director

Как строить зрелую retest policy для поставщика EMS

Зрелая политика обычно содержит семь элементов. Первое: фиксированный список cause codes для первого FAIL и для результата retest. Второе: разделение administrative retest, fixture-induced retest и defect-related retest. Третье: лимит повторных прогонов, например не более 1-2 без инженерного одобрения. Четвёртое: запрет на незарегистрированный ручной bypass. Пятое: правило, что FPY всегда считается по первому прогону. Шестое: обязательная эскалация по station, fixture или product family, если retest rate превышает согласованный порог, например 1-3% для стабильной серии. Седьмое: связь retest-данных с MRB, 8D и supplier scorecard.

Для OEM особенно полезно включить review по трём горизонтам. Ежедневный контроль ищет всплеск по station или recipe. Недельный review смотрит тренд по продуктам, сменам и операторам. Ежемесячный review связывает retest с cost of poor quality, OTD, repair load и field returns. Такой подход лучше работает, чем абстрактный спор о том, "много" или "мало" было ложных отказов.

Что делать с NTF и intermittent failure, если причина не найдена

Статус NTF не должен быть удобной корзиной для всех сложных случаев. Он означает лишь то, что команда не смогла воспроизвести или доказать дефект в текущих условиях. Для OEM это не нейтральный исход, а сигнал о пробеле в методике проверки. Если high-value узел, жгут для вибронагруженной системы или плата для полевого оборудования даёт intermittent failure, разумно менять условия проверки: температура, нагрузка, время, изгиб кабеля, повторные mating cycles, stress on connector, другой fixture, длительное логирование. В противном случае NTF становится статистическим одеялом, под которое прячут ранние признаки деградации.

Здесь полезно связывать retest не только с качеством тестовой станции, но и с архитектурой продукта. Если проект изначально слаб по DFM, имеет ограниченный доступ к test points, чувствителен к routing кабеля или использует marginal contact system, то число необъяснённых PASS/FAIL почти всегда будет выше. Поэтому сильный supplier не просто снижает retest, а показывает, где надо менять конструкцию, fixture или test sequence.

Источники и внешние ссылки

Часто задаваемые вопросы

Можно ли считать изделие годным, если оно прошло только со второго раза?

Только если причина первого FAIL документирована и явно не связана с самим изделием, например power glitch, scan error или подтверждённая проблема fixture. Если причина не доказана, PASS со второго прогона не должен автоматически закрывать риск, особенно для программ с требованиями IPC Class 2-3, automotive или medical traceability.

Какой retest rate считать тревожным для OEM?

Универсального числа нет, но для стабильной серии рост выше 1-3% по station, продукту или смене уже требует review. Если показатель поднимается к 5% и выше, это почти всегда означает проблему с оснасткой, limits, процессом сборки или дисциплиной записи причин FAIL/PASS.

Должен ли retest влиять на FPY?

Да, всегда. FPY по определению считается по первому прохождению процесса. Если изделие упало на первом тесте и прошло только потом, final yield может остаться высоким, но FPY уже снижен. Смешивать эти метрики опасно, потому что supplier начинает выглядеть лучше статистически, чем он есть на линии.

Чем retest отличается от retest после rework?

Обычный retest повторяет проверку без изменения изделия или после подтверждённого внешнего фактора. Retest после rework идёт уже после физического вмешательства: замены компонента, перепайки, повторной обжимки, очистки или коррекции wiring. Такой случай должен иметь отдельную WI, repair record и связь с MRB/NCR, а не просто второй PASS в общей таблице.

Что делать, если supplier часто использует статус NTF?

Требовать сегментацию по failure mode, station, fixture, serial range и условиям воспроизведения. Если NTF повторяется по одной продуктовой семье 2-3 недели подряд, нужно менять метод проверки: добавить нагрузку, термоциклирование, bending test, другой fixture или более длинное логирование. Иначе NTF перестаёт быть диагностикой и становится способом закрывать неудобные случаи.

Какие маршруты особенно чувствительны к плохой retest policy?

Чаще всего это ICT/FCT для сложных PCBA, continuity и hipot для жгутов, programming + functional verification, BGA/QFN узлы, высокотоковые кабельные сборки и изделия с несколькими разъёмами или ветвями harness. В этих случаях один ложный PASS может стоить дороже, чем временный hold партии на 1 рабочий день.

Заключение

Retest в EMS полезен только тогда, когда он объясняет сбой, а не стирает его. Для OEM зрелая политика должна отделять административный шум от реального defect escape, считать FPY по первому прогону, ограничивать незадокументированные повторы и заставлять supplier показывать причину каждого значимого PASS-after-FAIL.

Если вам нужно выстроить прозрачную retest policy для PCB assembly, cable assembly, wire harness или связать её с testing, traceability и supplier KPI, отправьте текущие test logs через страницу контактов или форму запроса. Команда JM electronic поможет превратить разрозненные PASS/FAIL записи в управляемую систему решений.