Вообщем пока сделал так:
Компилирую через BCC32 (слава богу там встроенный ТАСМ), собираю через TLink32 и добиваю GCC'шным objcopy. Получаю нормальный Си с хорошим встроенным ассемблером. Правда нельзя использовать статические и глобальные переменные, а также первой должна быть функция Start, вызывающая main (потому что main ставится в конце кода при компиляции т.к. он вызывает многие другие функции). Ну, это издержки.